Doppelte Dateiensuchen mit Toleranz

German support forum

Moderators: white, Hacker, Stefan2

Post Reply
Norton
Junior Member
Junior Member
Posts: 84
Joined: 2003-09-03, 20:08 UTC

Doppelte Dateiensuchen mit Toleranz

Post by *Norton »

Es wäre schön, wenn man beim Suchen nach doppelten Dateien eine gewisse Toleranzgrenze einstellen könnte.
Das wäre z.b. bei MP3 Dateien recht hilfreich, wenn man quasi zwei inhaltlich gleiche, aber mit einem jeweils anderen Tag versehene Dateien hat. 99% der Bytes sind gleich, aber die beiden (oder mehreren) Dateien sind halt nicht absolut identisch.
Das gilt auch für abgeschnittene Dateien. Angenommen Datei A ist 3 MB und Datei B nur 1 MB gross (aber bis mit dem ersten MB von Datei A absolut identisch)

Wie hoch wäre der Aufwand? Ich kann mir vorstellen, das dies die Suche erheblich verlangsamen würde, da bisher sicher nur bis zur ersten Byteabweichung verglichen wird. Aber dann kann ja ein Counter mitlaufen, der dann bis zur festgelegten Toleranzgrenze hochzählt.

gruss
User avatar
Cineatic
Power Member
Power Member
Posts: 871
Joined: 2003-06-02, 14:09 UTC

Post by *Cineatic »

Wofür eine Toleranzgrenze? Beim Dateivergleich will man wissen, ob die Dateien identisch sind oder nicht. Und sobald nur 1 Bit nicht stimmt, muss mir das Programm den Unterschied melden.
Was hat man als User davon, wenn man weiß, das die Dateien eine Teilübereinstimmung haben :?:
Norton
Junior Member
Junior Member
Posts: 84
Joined: 2003-09-03, 20:08 UTC

Post by *Norton »

Hab ich doch geschrieben. Angenommen ich habe zwei fast identische Dateien (mp3). Dann nützt es mir nichts, wenn mir TC nur die absolut identischen anzeigt. Die (inhaltlich) identischen mp3-files finde ich nicht, da ja 1 oder mehr Bytes abweichen.

Es gibt übrigens sowas auch für Bilder. Dort wird nicht bitweise verglichen, sondern nach Inhalt des Bildes. Leider gibts sowas nich für Musik oder Video-Dateien, deshalb wärs gut halt auch FAST identische Dateien zu suchen und finden.
Wäre auch für Textdateien oder Dokumente gut. Ich habe einige, die sich nur um ein paar Zeichen unterscheiden. Suche mich aber manuell tot, um diese zu finden....

Ist mein Wunsch echt so abwegig?
User avatar
za222
Member
Member
Posts: 146
Joined: 2003-03-11, 17:19 UTC
Location: Germany

Post by *za222 »

Wenn der TC die Dateien als "nicht identisch" anzeigt, öffent sich ja das vergleichen-Fenster.
Da kann man dann ja farblich sehen wo der Unterschied liegt.
Und mit dem Button "nächster Unterschied" kann man schauen bis wo die Datei gleich ist.

Beispiel Mp3:

Am Anfang ist ein roter Bereich (also der V.2 Tag).
Dann Klick auf "nächster Unterschied".
Wenn der TC jetzt bis fast ganz zum Ende springt (zum V.1 Tag) heißt das, dass die Datei gleich ist bis auf den Tag.
Norton
Junior Member
Junior Member
Posts: 84
Joined: 2003-09-03, 20:08 UTC

Post by *Norton »

Argh :) Ich glaube ich drücke mich unverständlich aus.

Ich kenne die Option "Dateien vergleichen" die meine ich aber nich. Ich rede von Dateien "suchen"! Dort gibts das Häkchen "nach Inhalt".
Damit kann ich etliche Dateien durchsuchen und finde automatisch alle doppelten (wenn ich wüsste, welche identisch sind, bräuchte ich nicht zu suchen!)

Angenommen ich habe 100 Dateien, dann kann ich doch unmöglich alle 100 Dateien miteinander per Hand vergleichen!

Deshalb würde ich gerne bei der Suche mit dem Häkchen "nach Inhalt" noch eine Option haben: "Identisch bis [ ] %"
Dann sucht der TC ganz normal alle Dateien und listet zu den identischen auch die "fast" identischen auf (mit %-Angabe dahinter z.b.). Und DANN kann ich anhand der Funktion "Dateien vergleichen" entscheiden, welche von denen ich behalte.
User avatar
za222
Member
Member
Posts: 146
Joined: 2003-03-11, 17:19 UTC
Location: Germany

Post by *za222 »

Ah, jetzt verstehe ich es!

Dann ist meine Lösung natürlich sinnlos! ;)
User avatar
ghisler(Author)
Site Admin
Site Admin
Posts: 48166
Joined: 2003-02-04, 09:46 UTC
Location: Switzerland
Contact:

Post by *ghisler(Author) »

Eine solche Lösung ist leider nicht machbar - sie müsste den genauen Aufbau der verglichenen Dateien kennen, und genau die Teile überspringen, auf die es nicht ankommt. Doch auch das würde bei MP3 nicht reichen - was ist z.B. mit demselben Stück und unterschiedlicher Bitrate?
Author of Total Commander
https://www.ghisler.com
Norton
Junior Member
Junior Member
Posts: 84
Joined: 2003-09-03, 20:08 UTC

Post by *Norton »

Ok, das mit der Bitrate wäre wirklich sehr speziell. Mir gehts aber primär um Dateien, die wirklich nur wenige Bytes Abweichung haben (Übertragungsfehler, Schreibfehler usw...)

Ich habe mal angefangen mir so ein Tool zu programmieren. Es findet sogar "gleiche" Dateien unterschiedlicher Länge. (Abgebrochene Downloads z.b.) Dazu prüfe ich den erste 64k Block beider Dateien, und wenn die zu über 90% identisch sind, den letzten 64k Block der kleineren Datei und den Block, der sich in der grossen Datei genau an der gleichen Stelle befindet. Wenn beide (nahezu) identisch sind, kann ich eine davon löschen.
Dummerweise ist das noch sehr sehr langsam, weil ich bei sehr vielen Dateien quasi jede Datei gegen die anderen prüfen muss.

Wie auch immer, hauptsächlich ging es mir um das finden zweier (oder mehr) Dateien, die eine gewisse minimale Abweichung haben.
Post Reply