Dateivergleich ist zu übermütig

rellek · Post by *rellek » 2009-11-02, 23:06 UTC

Hallo,

gleich vorweg: nicht dass das schlimm wäre, aber der Dateivergleich scheint mir etwas zu gierig zu sein.

Schaut her:
http://www.wewota.de/unterschied2.png

In der stat-Funktion sind eigentlich nur die Kommentare weg (und aus vb wurde bb), aber wegen dem "text" sieht der Vergleich das nicht.

Ist mir grad so aufgefallen. Aber wie gesagt, so wirklich dramatisch ists für mich nicht

Stance · Post by *Stance » 2009-11-04, 10:16 UTC

Hallo rellek
Es ist leider unklar, was der Dateivergleich anders machen sollte.
Für mich sieht es richtig aus. Sage doch mal bitte genauer, zB mit Zeilennummern, was Du anders erwartet hast.

Samuel · Post by *Samuel » 2009-11-04, 13:02 UTC

Seh ich auch wie rellek.
Wenn die übernächste oder eine der folgenden 10 Zeilen rechts besser auf die nächste Zeile links passt, dann sollten diese beiden Zeilen matchen und die Zeile dazwischen als rechts hinzugefügt erkannt werden.

Normalerweise macht TC das, wenn es sich um 100% identische Zeilen handelt. Aber in dem Fall unterscheiden sie sich. ("bbform" und "vbform")

Vielleicht sollten die Zeilen Paarweise auf Ähnlichkeit überprüft werden.

2Stance
Zeile 26 links soll Zeile 36 rechts (statt 35) matchen.

Post by *ghisler(Author) » 2009-11-04, 16:25 UTC

Durch den einen Unterschied (bbform vs. vbform) sind die 2 Zeilen halt unterschiedlich, deshalb kann TC sie nicht automatisch zueinander zuordnen. Sie können versuchen, die 2 Zeilen zu markieren, und via Rechtsklick "Synchronisiere Vergleich ab hier" wählen, um die beiden Zeilen miteinander zu vergleichen.

t34 · Post by *t34 » 2009-11-05, 13:58 UTC

Welche Zeile besser passt, könnte man mit der Levenshtein-Distanz feststellen.

t34

Samuel · Post by *Samuel » 2009-11-05, 15:11 UTC

2rellek
Hast du eigentlich mal Winmerge versucht? Vielleicht schaffst du es damit.

2t34
Wäre ne Idee. Könnte vielleicht länger dauern...
Ich ärgere mich auch manchmal über Winmerge und Co. Die sollen ruhig länger brauchen, aber dann ein "unfehlbares" Ergebnis produzieren.

algol · Post by *algol » 2009-11-06, 12:23 UTC

t34 wrote:Welche Zeile besser passt, könnte man mit der Levenshtein-Distanz feststellen.

Spitzen-Idee! Die Frage ist halt, wie von Samuel bereits angesprochen, in welchem Nachbarschaftsbereich nach einem optimalen L.-fit gesucht werden soll.

Denn bei grossen Dateien und L.-fit jeweils für den gesamten Restbereich der Datei wäre das vom Rechenaufwand her absolut prohibitiv.

Das liesse sich aber sicher noch intelligenter einschränken. Beim grossen Schwesterprogramm "Examdiff Pro" lässt sich beispielsweise an der Blockgrösse für den Vergleich noch "herumschrauben". Je kleiner die Blockgrösse, desto besser synchronisiert, desto länger aber die Rechenzeit. Nur, eine wirklich perfekte Synchronisation lässt sich auch damit oft nicht erzielen.

Aber eine Kombination aus schnellem Probevergleich mit grober/grosser Blockgrösse, ob es ab einem bestimmten offset vielleicht wieder totale Übereinstimmung gibt, und L.-fit für die engere Nachbarschaft könnte vielleicht die Lösung sein.

mfg
algol

Samuel · Post by *Samuel » 2009-11-08, 14:28 UTC

So eine erweiterte Levenshtein Ähnlichkeitssuche im Dateivergleich wäre in der Tat genial. Dann könnte in der wincmd.ini eingestellt werden wie viele Zeilen auf diese Weise verglichen werden.

Vielleicht könnte man das auch wieder auslagern a la "tcmatch.dll". Ich würde auf jeden Fall überlegen ein Dateivergleich eXtended Modul zu programmieren.