t34 wrote:Welche Zeile besser passt, könnte man mit der Levenshtein-Distanz feststellen.
Spitzen-Idee! Die Frage ist halt, wie von Samuel bereits angesprochen, in welchem Nachbarschaftsbereich nach einem optimalen L.-fit gesucht werden soll.
Denn bei grossen Dateien und L.-fit jeweils für den gesamten Restbereich der Datei wäre das vom Rechenaufwand her absolut prohibitiv.
Das liesse sich aber sicher noch intelligenter einschränken. Beim grossen Schwesterprogramm "Examdiff Pro" lässt sich beispielsweise an der Blockgrösse für den Vergleich noch "herumschrauben". Je kleiner die Blockgrösse, desto besser synchronisiert, desto länger aber die Rechenzeit. Nur, eine wirklich perfekte Synchronisation lässt sich auch damit oft nicht erzielen.
Aber eine Kombination aus schnellem Probevergleich mit grober/grosser Blockgrösse, ob es ab einem bestimmten offset vielleicht wieder totale Übereinstimmung gibt, und L.-fit für die engere Nachbarschaft könnte vielleicht die Lösung sein.
mfg
algol