Wunsch Datei-Vergleichs-Tool, suche nach Dubletten

German support forum

Moderators: Hacker, Stefan2, white

Post Reply
User avatar
Elf111
Junior Member
Junior Member
Posts: 4
Joined: 2012-11-12, 18:57 UTC
Location: Kassel (Germany)
Contact:

Wunsch Datei-Vergleichs-Tool, suche nach Dubletten

Post by *Elf111 »

Hallo,
ich wollte mal fragen ob es sich realisieren ließe ein Suchtool einzubauen (so wie das mehrfach-Umbenenn-Tool, oder der Lister) welches doppelte Dateien aufspürt.
Das ganze auf Basis von hash-Vergleichen (oder nach einer byte-für-byte-Vergleich-Methode)... was nicht wie einige Freewaretools nur ein bestimmtes Verzeichnis A mit einem Verzeichnis B vergleicht sondern eine komplette Datenbank anlegt von Speicherort X und alle darin befindlichen Daten miteinander vergleicht (evtl. mit zusätzlichen Parametern die zu oder abwählbar sind).
Sowas fände ich überaus praktisch im täglichen Gebrauch.
Sowas müsste auch nicht fest in tc integriert sein sondern könnte auch als Plugin vorliegen falls es den rahmen sprengen sollte...

Mir selbst fehlt es an Programmierkenntnissen, nicht aber an Zeit und Ideen die ich gerne einbringen würde um auch tc gegenüber anderen dateimanagern noch etwas vorschub zu bescheren.

mit der bitte um schonungsloses Feedback aus dem verregneten Kassel freundlichst,

Daniel W.
User avatar
HolgerK
Power Member
Power Member
Posts: 5411
Joined: 2006-01-26, 22:15 UTC
Location: Europe, Aachen

Re: Wunsch Datei-Vergleichs-Tool, suche nach Dubletten

Post by *HolgerK »

Elf111 wrote:bitte um schonungsloses Feedback
Gerne :wink:
<Alt+F7> <F1> auf den Tab "Erweitert" klicken. Den Abschnitt "Suche nach doppelten Dateien" durchlesen.

Gruß
Holger
User avatar
Elf111
Junior Member
Junior Member
Posts: 4
Joined: 2012-11-12, 18:57 UTC
Location: Kassel (Germany)
Contact:

Post by *Elf111 »

Holger, was du meinst wenn ich die Hilfe richtig gelesen habe (was nicht gegeben sein muss) ist das eine Dateisuche auf Basis von Dateinamen und Klartext Inhalten von z.B *.txt *.doc etc.
Da stehst du aber schon vor dem Problem wenn du ne *.zip datei hast in der neben einigen Klartext Dokumenten auch ne kompilierte *.exe drinn steckt..
wenn du dagegen aus einer solchen Datei einen hash-Wert bildest hast du alle Eigenschaften und Inhalte, Beschreibungen, Dateinamen, Datum,.. zusammengefasst wie nen nahezu eindeutigen Fingerabdruck und anhand eines solchen kann man wesentlich besser schauen wo die Duplikate sind und diese dann möglichst alle löschen.

Ich suche nicht nach einem Text like: "knocking on heavens door" sondern ich suche z.B. mein externes LW ab um rauszubekommen wie oft ich eben dieses "knockin on heavens door" auf dem LW habe um mich etwaiger duplikate zu entledigen und den platz sinnvoll freizugeben...
Insbesondere bei großen Backup Beständen (weniger bei vollbackups, meist differentiel oder inkrimentel) die ja auch zuhause anfallen können mit Versionierung gescheit umgehen zu können.

Macht das mein Anliegen verständlicher?
User avatar
HolgerK
Power Member
Power Member
Posts: 5411
Joined: 2006-01-26, 22:15 UTC
Location: Europe, Aachen

Post by *HolgerK »

oder nach einer byte-für-byte-Vergleich-Methode
Suche->Tab "Erweitert"
...
[x] Suche nach doppelten Dateien
[_] gleicher Namen [x] gleiche Größe [x] gleicher Inhalt
Ist es nicht genau das, was du in deinem ersten Post beschrieben hast?

Gruß
Holger
User avatar
Elf111
Junior Member
Junior Member
Posts: 4
Joined: 2012-11-12, 18:57 UTC
Location: Kassel (Germany)
Contact:

Post by *Elf111 »

HolgerK wrote:
oder nach einer byte-für-byte-Vergleich-Methode
Ist es nicht genau das, was du in deinem ersten Post beschrieben hast?

Gruß
Holger
Oh Herr schenke mir eine zweite Brille *ahmen*
Öhm..JA! das war eine der möglichkeiten, gut danke dir!

Dann änder ich meinen Wunsch mal ab einzig und allein auf die hash-Methode.
Last edited by Elf111 on 2012-11-12, 22:18 UTC, edited 1 time in total.
There are only 10 types of people in the world: those who understand binary, and those who don't.
-
Ein Mensch ist nur dann ein Mensch wenn er unter Menschlichkeit nicht versteht wie ein Mensch zu sein.
User avatar
milo1012
Power Member
Power Member
Posts: 1158
Joined: 2012-02-02, 19:23 UTC

Post by *milo1012 »

Wenn ich mich mal einklinken darf...oh, zu spät, schon geantwortet, trotzdem:
Ja, TC vergleicht doch schon binär, also unabhängig von Dateitypen.
Heißt, mit den beschriebenen Optionen wird immer der Inhalt byteweise verglichen wenn ein anderes Attribut ebenfalls übereinstimmt (Dateiname und/oder Größe).

Wenn du jetzt noch in den Suchoptionen einstellst das in gepackten Dateien gesucht wird hast du doch schon fast was du wolltest: ZIP und Co. werden ebenfalls durchsucht und mehrere Verzeichnisse/Laufwerke kannst du ja sowieso einstellen.

Und verwechsle bitte nicht Hash-basierte Vergleiche mit byteweisen Vergleichen. Bei letzterem wird in einem Speicherfenster mit bestimmter Größe Byte für Byte verglichen wenn zwei augenscheinlich gleiche Dateien gefunden werden. Ich bin nicht sicher wie TC das macht, aber ich bezweifle das hier erst der Hash der ersten Datei gebildet, dann der der zweiten und final dann nur diese Werte verglichen werden.
User avatar
HolgerK
Power Member
Power Member
Posts: 5411
Joined: 2006-01-26, 22:15 UTC
Location: Europe, Aachen

Post by *HolgerK »

Elf111 wrote:Dann änder ich meinen Wunsch mal ab einig und allein auf die hash-Methode.
Checksummen benutzt der TC bereits wenn er mehr als zwei Dateien mit gleicher Größe auffindet:
http://ghisler.ch/board/viewtopic.php?p=256729#256729

Was die Idee mit der Datenbank betrifft:
Die müsste evtl. bei jeder Änderung im Dateisystem aktualisiert werden. Dazu würde es einen Treiber benötigen der sich tief ins System einbindet und auch läuft wenn TC nicht läuft.
Selbst dann wenn du eine weitere derartige Systembremse (mit Virenscanner kennen wir ja schon solche Technolgiefortschrittsaufzehrer) tolerierst, ist der Nutzen wiederum fraglich, wenn es um Daten auf Wechselmedien oder Server geht.

Gruß
Holger
DBH
Junior Member
Junior Member
Posts: 73
Joined: 2007-08-01, 08:32 UTC

Post by *DBH »

Elf111 wrote:[...] Suchtool einzubauen [...] welches doppelte Dateien aufspürt. Das ganze auf Basis von hash-Vergleichen (oder nach einer byte-für-byte-Vergleich-Methode)... was nicht wie einige Freewaretools nur ein bestimmtes Verzeichnis A mit einem Verzeichnis B vergleicht sondern eine komplette Datenbank anlegt von Speicherort X und alle darin befindlichen Daten miteinander vergleicht (evtl. mit zusätzlichen Parametern die zu oder abwählbar sind).
was ist gegen Programme wie DiskExplorer, Cathy, AllDup oder meinen Favoriten Locate einzuwenden?
Elf111 wrote:Ich suche nicht nach einem Text like: "knocking on heavens door" sondern ich suche z.B. mein externes LW ab um rauszubekommen wie oft ich eben dieses "knockin on heavens door" auf dem LW habe um mich etwaiger duplikate zu entledigen und den platz sinnvoll freizugeben...
Das ist mit obigen Programmen (z.T. sogar tats. via Hash-Werten) problemlos möglich. Locate lässt sich über FSE sogar in den TC integrieren.

Ich persönlich ziehe ein solche dediziertes Programm einer eier-legenden-Wollmilchsau vor und hoffe auf einen weiterhin schnellen kleinen robusten TC.
Post Reply