Doppelte Dateien - wie handhabe ich das

German support forum

Moderators: Hacker, Stefan2, white

Atoll116
Junior Member
Junior Member
Posts: 62
Joined: 2011-04-24, 16:15 UTC

Doppelte Dateien - wie handhabe ich das

Post by *Atoll116 »

Euch allen einen schönen 2. Advent!
Ich muss etwas weiter ausholen.
Ich verfüge über knapp 200000mp3 Dateien auf meinem Rechner. 75000 befinden sich bearbeitet in einem Verzeichnis „Archiv“ auf der Festplatte meines Rechners. Der Rest der MP3 Dateien befindet sich auf einer USB Festplatte. Die Dateien auf der Festplatte sind unbearbeitet und es befinden sich schon optisch festgestellt etliche Dateien auf der USB Festplatte, die auch im Archiv sind. Alle Archivdateien sind groß beschriftet (ABBA – WATERLOO.mp3). Die Dateinamen auf der USB Festplatte sind normal bezeichnet(Abba – Waterloo.mp3). Nun geht es mir darum, alle doppelten Dateinamen aus den Musikdateien der UBB Platte zu entfernen. Ich habe noch kein Programm gefunden, dass dies kann, weil ja eigentlich nicht die Dateinamen verglichen werden, sondern die Inhalte der Datei und auch die Eigenschaften.
So werden z:B: mit Programmen keine doppelten Dateien gefunden, obwohl ich mit der Hand ca. 70 Abba Dateien gefunden habe.
Ich habe nun den Totalcommander eingesetzt. Hier aber kann ich keine Dateien in unterschiedlichen Ordnern vergleichen.
Aus meinem „Archiv“ der Festplatte und aus allen Dateien der USB Festplatte habe ich alle Dateien, die mit “A“ beginnen, in einen eigenen Ordner kopiert. Der habe ich in den Totalcommander eingelesen. Hier habe ich mit der Suchfunktion nach doppelten Dateinamen suchen lassen und ein beachtliches Ergebnis erzielt. Wenn ich jetzt noch auf „anwenden“ gehe, wird mir eine Liste erstellt mit allen doppelt bezeichneten Dateien. Das ist schon mal die halbe Miete. Wie aber kann ich dieses Ergebnis nutzen, um genau die Dareien der USB Platte, als doppelt identifiziert, auch mit einem Schlag löschen zu können?

Freundliche Grüße
User avatar
white
Power Member
Power Member
Posts: 5798
Joined: 2003-11-19, 08:16 UTC
Location: Netherlands

Post by *white »

Die Suche hat viele Möglichkeiten. Beachten Sie, dass die Einstellungen auf allen Tabs der Suche für die Suche verwendet werden. Auf der ersten Tab können Sie mehrere Ordner in "Suchen in"-Feld angeben. Sie können auch nach Duplikaten suchen in den Suchergebnissen.

Um die Duplikate zu löschen, TC 8.50 hat einen neuen Dialog um Dateien in Duplikaten Ergebnisse zu wählen. Wählen Sie "markieren / Gruppe markieren", wenn Duplikate in Total Commander Hauptbildschirm angezeigt werden.
User avatar
Dalai
Power Member
Power Member
Posts: 9963
Joined: 2005-01-28, 22:17 UTC
Location: Meiningen (Südthüringen)

Re: Doppelte Dateien - wie handhabe ich das

Post by *Dalai »

Atoll116 wrote:Wie aber kann ich dieses Ergebnis nutzen, um genau die Dareien der USB Platte, als doppelt identifiziert, auch mit einem Schlag löschen zu können?
Von Hand die zu löschenden Dateien markieren und dann löschen ;). Ja, die Anzahl von Dateien macht das vielleicht nicht ganz einfach, aber erst TC 8.5 bietet - wie schon von white angedeutet - einen neuen Dialog an, der das Markieren deutlich erleichtert. Es ist daher zu empfehlen, TC 8.5 für diese Aktion zu nutzen. Da der noch nicht in finaler Version verfügbar ist, ist es sinnvoll, diese Beta in ein eigenes Verzeichnis zu installieren/entpacken und ggf. dafür zu sorgen, dass er seine eigenen Einstellungen benutzt (auf diese Weise kommen sich die beiden Versionen garantiert nicht ins Gehege).

MfG Dalai
#101164 Personal licence
Ryzen 5 2600, 16 GiB RAM, ASUS Prime X370-A, Win7 x64

Plugins: Services2, Startups, CertificateInfo, SignatureInfo, LineBreakInfo - Download-Mirror
User avatar
HolgerK
Power Member
Power Member
Posts: 5409
Joined: 2006-01-26, 22:15 UTC
Location: Europe, Aachen

Post by *HolgerK »

<ot>
Ein paar nachdenkliche Zahlenspielereien zum 2ten Advent.

Wenn sich ca. 80.000 Unikate unter den insgesamt 200.000 Musikstücken befinden, dann entspricht das bei angenommen 8 Musikstücken pro CD ungefähr 100 Regalmetern oder bei einem angenommen Preis von 25 Cent pro Musikstück (bei den Mengen ist ja durchaus ein Rabatt drin) einem Gegenwert von 20.000€.
Ein Musikstück habe eine durchschnittliche Dauer von ca. 3 Min. => 4.000 Stunden Dauerberieselung mit Musik oder bei einem angenommen Musikkonsum von 4 Stunde pro Tag ca. 1.000 Tage (also beinahe 3 Jahre) bis einem eine Wiederholung auffällt.
Ich weiss, dass echte Liebhaber manchmal zu Extremen neigen, aber ich frage ich mich doch ab und zu, ob bei solchen Mengen noch der Musikgenuss im Vordergrund steht.

Soll jetzt keine Kritik oder Verdächtigung sein, sondern nur mal zum Nachdenken anregen.
</ot>

Okay nach dem nachdenklichen Teil der fachliche Teil:
TC8.5 bietet bei der Suche nach Duplikaten auch die Suche nach Pluginfeldern an.
Wenn die Musikstücke ordentlich getaggt wurden, kann man z.B. eine Suche (32Bit TC mit Plugin Anytag) mittels

Code: Select all

[=anytag.Artist][=anytag.Title][=anytag.Length (in seconds)]
durchführen.
Das bildet quasi eine Prüfsumme über die wichtigsten Metainformationen, die man mit zusätzlichen Tags noch verfeinern könnte.

Ich wage jetzt aber keine Schätzung, wie lange es dauert:
a) alle Musikstücke mit ordentlichen Tags zu versehen.
b) die Suche nach Duplikaten selber in ca. 275.000 Musikstücke(wenn ich das richtig übersehe) durchzuführen.

Ach ja, nicht vergessen: immer erst mit einer Kopie der Daten (muss ja nicht vom gesamten Datenbestand sein) ausprobieren, bevor es daran geht die <Delete> Taste zu drücken.

Gruss
Holger
Atoll116
Junior Member
Junior Member
Posts: 62
Joined: 2011-04-24, 16:15 UTC

Post by *Atoll116 »

Ich betreibe seit geraumer Zeit ein Internetradio. Da kommt schon was zusammen..
Ich habe das so ganz mit den Einlesen zweier Ordber nicht verstanden. Da ich den Totalcommander 8.5. nutze, wäre ja der ersuch interessant.
Kann mir das mal genauer beschrieben werden?
Herzlichen Dank und

Freundliche Grüße
User avatar
matixx
Power Member
Power Member
Posts: 1118
Joined: 2003-03-21, 02:37 UTC
Location: ....

Post by *matixx »

OT:

@HolgerK: Meine Musiksammlung ist auch nur ein klitzekleines Stück kleiner -->DJ !

I.d.R. hat jeder DJ heute so eine Sammlung. Seit ITunes oder BEATPORT kann ich auch einzelne Tracks kaufen ohne das ganze Album.

Für Freunde des "Downloads mit niedriger Quali"" offeriert ausgerechnet ITunes ein nützliches Schmankerl: ITunes tauscht JEDE hochgeladene MP3 gegen eine qualitativ hochwertige Kopie im verlustlosen Apple-Format aus dem ITUNES-Store -->für 10EUR im Monat.

OT OFF

Ich habe teilweise dasselbe Problem wie der TE, hatte auch schonmal einen Thread eröffnet, leider für mich keine Lösung..mal sehen wie es hier ausgeht :-)

Gruss maat
User avatar
white
Power Member
Power Member
Posts: 5798
Joined: 2003-11-19, 08:16 UTC
Location: Netherlands

Post by *white »

Atoll116 wrote:Ich habe das so ganz mit den Einlesen zweier Ordber nicht verstanden.
Da ist ein Fehler in der Hilfe.
TOTALCMD.CHM (Deutsch) wrote:Suchen in: Geben Sie hier den Anfangspfad für die Suche an.
TOTALCMD.CHM (Englisch) wrote:Search in: Here you can enter one or more starting directories, separated by ";".
Hier können Sie eine oder mehrere Ausgangsverzeichnisse, durch ";" getrennt eingeben.
meisl
Member
Member
Posts: 171
Joined: 2013-12-17, 15:30 UTC

Post by *meisl »

Hi,

das eigentliche Problem ist ja das Auswählen, und zwar nur derjenigen Dateien aus der Duplikatliste die von der USB-Platte stammen UND von denen es schon ein Duplikat im Archiv gibt.
TC 8.5 hat offenbar einen extra Dialog bzgl Duplikatsuche wie Dalai schon sagte.
Allerdings ist das Problem an sich durchaus nicht trivial. Jedenfalls wenn ich die Frage richtig verstanden habe...

Ich hätte da schon 'ne Idee wie ich's machen würde, auch mit TC 8.0 (den ich selber habe).
Ein paar Dinge wären aber hilfreich zu wissen:
  • - ist die Verzeichnisstruktur gleich oder gibt es zB "usb\Abba\Abba - Waterloo.mp3" und "archiv\Schwedisch\ABBA - WATERLOO.mp3"?

    - die Verzeichnisstruktur von beiden - ob verschieden oder nicht - soll erhalten bleiben, richtig?

    - sind die Namen tatsächlich immer gleich bis auf Groß/Kleinschreibung oder sind zumindest auf USB auch irgendwie unregelmäßige Duplikate wie etwa "usb\Sonstige\Waterloo von Abba.mp3"?

    - ist das Archiv selbst duplikatfrei (dh wenn man nur darin nach Duplikaten sucht)?

    - wieviele Duplikate gibt es nur auf USB?
Der letzte Punkt ist eigentlich der springende. Denn es ist relativ einfach aus der Menge aller Duplikate (Duplikate aus der Vereinigungsmenge von Archiv und USB) nur die von USB zu löschen:
  • - Suche Duplikate in USB und einer Kopie von Archiv

    - davon die komplette Ergebnisliste löschen.

    - schließlich (den Rest der) Kopie von Archiv löschen
Damit gingen dann aber alle Duplikate verloren, die noch nicht bearbeitet (=im Archiv) sind...

EDIT: man käme auch ohne Kopie aus (es sind ja wohl ein paar hundert GB oder so), das Problem bleibt aber.
meisl
Member
Member
Posts: 171
Joined: 2013-12-17, 15:30 UTC

Post by *meisl »

Hallo nochmal,

ich hab' eben selber ein ganz ähnliches Problem und schiebe es schon so lange vor mir her es zu lösen. Jetzt will ich's endlich angehen und fänd's toll wenn wir uns austauschen könnten.

Es ist so: wenn
a) "Duplikat" tatsächlich 1-zu-1 gleich bzgl. Inhalt bedeutet (= gleiche MD5-sum)
und wenn
b) simples Löschen aller bis auf einer Datei aus einer Duplikatgruppe ok ist
- dann hab' ich eine Lösung! Denke ich... dh: wär' gut wenn's andere auch ausprobieren und Feedback geben könnten.

Ich persönlich bräuchte aber zusätzlich noch:
  • - "Duplikat" nicht basierend auf 1-zu-1 Inhaltsgleichheit sondern flexibler (-> ID3 tags, evtl. anytag?)

    - eine Art "Ranking-Funktion" die entscheided welche Datei aus einer Duplikat-Gruppe erhalten bleibt (zB. die mit der höchsten Bitrate)

    - statt einfach nur zu löschen eine .lnk Datei mit dem Originalnamen und an der gleichen Stelle wie das entfernte Duplikat, mit Ziel = erhaltenes Exemplar (woanders, mit anderem Namen)
Dafür hab' ich bislang keine Lösung.

Also, für jede und jegliche Art von Input oder Feedback wäre ich höchst dankbar :)
meisl
Member
Member
Posts: 171
Joined: 2013-12-17, 15:30 UTC

Post by *meisl »

Also, jetzt hab' ich mir auch mal TC 8.5ß13 angeschaut - was ich schon längst hätte tun sollen! :oops: Sorry.

Sowohl plugin-Werte für Gleichheit im Suchen-Dialog als auch der "Doppelte Dateien markieren" Dialog sind echt super. Vielen Dank dafür! :D
Diese beiden Verbesserungen bringen mich schon fast ans Ziel.

Nur zwei kleine Vorschläge/Wünsche hätte ich da noch...
Es geht darum (wcx) plugins in jedem der genannten Dialoge noch besser nutzbar zu machen bzw eine größere Klasse von Problemen zu adressieren, einmal bzgl "Gleichheit" bei Suchen und zweitens bzgl "Mind 1 Datei NICHT markieren".

Ich weiß daß das bestimmt nicht in TC 8.5 eingehen wird und fürchte auch ich hab' schon zuviel in diesem Thread rumgemüllt.

Deshalb meine Frage an die Moderatoren: wo sollte ich das am besten posten?
"TC suggestions (English)"?
oder "Plugins and addons: devel.+support (English)"
Diese hier kamen mir einigermaßen relevant vor:
[8.50b2a]Select duplicate files:not select at least 1 file
Does anyone use the new feature 8.50 for duplicate files?
+[8.50ß7]Select duplicates: 'newest' deselection is strange

EDIT: 1. Vorschlag hab' ich in "Suggestions" gepostet: Which to keep in a group of duplicates? (+general approach)

--
ps: Korrektur: statt .lnk will ich tatsächlich hardlinks, würde fsutil dafür benutzen (eg über button bar, also keine Sonderwünsche diesbzgl meinerseits).
Last edited by meisl on 2013-12-19, 22:19 UTC, edited 3 times in total.
User avatar
Dalai
Power Member
Power Member
Posts: 9963
Joined: 2005-01-28, 22:17 UTC
Location: Meiningen (Südthüringen)

Post by *Dalai »

[OT]
meisl wrote:ps: Korrektur: statt .lnk will ich tatsächlich hardlinks, würde fsutil dafür benutzen (eg über button bar, also keine Sonderwünsche diesbzgl meinerseits).
Nimm NTFS Lnks, das sich einfacher in den TC integrieren lässt, eine grafische Oberfläche hat und man sich zudem keine Gedanken machen muss, ob nun Hard Links oder Junctions erstellt werden, denn das wird automatisch entschieden, ob es eine Datei oder ein Verzeichnis ist.

[/OT]

MfG Dalai
#101164 Personal licence
Ryzen 5 2600, 16 GiB RAM, ASUS Prime X370-A, Win7 x64

Plugins: Services2, Startups, CertificateInfo, SignatureInfo, LineBreakInfo - Download-Mirror
meisl
Member
Member
Posts: 171
Joined: 2013-12-17, 15:30 UTC

Post by *meisl »

Danke Dalai für den tollen Tip!
Sowas hab' ich schon immer im TC gewollt :D

Weiß noch nicht genau wie ich's am besten für mein spezielles Vorhaben einsetze, weil nach dem ersten Lesen kommt mir die Hilfe ein bißchen "schwierig" vor, sagen wir mal... Bin aber zuversichtlich. DANKE nochmal!
ersteinmal
Junior Member
Junior Member
Posts: 5
Joined: 2014-08-01, 18:09 UTC

Post by *ersteinmal »

Hallo!
Irgendwie habe ich nicht erkennen können ob das Problem gelöst ist, ich möchte aber nicht extra einen Tread aufmachen.

Also fasse ich mein Problem zusammen.

Ich kann In Ordnern die Dateien vergleichen. Nur traue ich meine Dateiinhalten nicht, sodaß ich:
eine bitweise Vergleichen der gleichen Dateien in den ausgewählten Ordnern durchführen möchte.

Beim Button Datei Vergleichen muß ich ja die Dateien einzeln auswählen, das ist also nicht die Lösung.

Danke Carsten
User avatar
Dalai
Power Member
Power Member
Posts: 9963
Joined: 2005-01-28, 22:17 UTC
Location: Meiningen (Südthüringen)

Post by *Dalai »

@ersteinmal: Dafür bieten sich zwei Möglichkeiten an:
  • Prüfsummen (CRC, MD5, SHA1 etc) im Menü Dateien > Erzeuge Quersummen
  • Verzeichnissynchronisierung (Menü Befehle > Verzeichnisse synchronisieren) mit aktiviertem Vergleich nach Inhalt
MfG Dalai
#101164 Personal licence
Ryzen 5 2600, 16 GiB RAM, ASUS Prime X370-A, Win7 x64

Plugins: Services2, Startups, CertificateInfo, SignatureInfo, LineBreakInfo - Download-Mirror
ersteinmal
Junior Member
Junior Member
Posts: 5
Joined: 2014-08-01, 18:09 UTC

Post by *ersteinmal »

Jetzt verstehe ich das Programm langsam. macami de at tc.png
P.S:: Ich mußte ersteinmal das Ein fileserver einrichten, das Bild abspeichern, hochladen, ein binden.... Und dann darf ich das garnicht.

Mit <Markieren><Verzeichnis vergleichen> werden nur die "Dateinamen" verglichen.
Mit <Befehle><Verzeichnis Synchornisieren><Vergleichen> werden weiter Eigenschaften verglichen.
Nur warum habe ich nun vorher <Dateien><Erzeuge Quersumme> durchgeführt?

Carsten
Post Reply