Ist das mit xPDFSearch oder generell möglich ...

truecolor · Post by *truecolor » 2011-02-20, 22:18 UTC

Hallo,

ich habe hier eine Menge PDF-Dokumente, die aus reinen Bilddaten bestehen (eben als JPG eingescannte Dokumente).
Diese sind leider mit solchen PDF´s, die Text enthalten, zusammen in die gleichen Ordner abgelegt worden.

Jetzt hab ich die leidliche Aufgabe, diese wieder voneinander getrennt zu sortieren, damit die "Text-PDF´s" mittels dtSearch indexiert werden können.

Bei 50.000 PDF´s eine 100%ige Sisyphusarbeit.

Wie kann ich TC dazu bewegen, zumindest die Bild-PDF´s zu markieren oder zumindest umzubenennen, damit ich die "hochwertigeren" Text-PDF´s weiter nutzen kann.

Gruß ... truecolor

Lefteous · Post by *Lefteous » 2011-02-21, 06:47 UTC

Es ist halt die Frage wie man die Regel fur die Unterscheidung definiert. Ein "Enthält Text"-Feld gibt es derzeit nicht. Es einzubauen aber kein Problem. Wäre die Aufgabe aus deiner Sicht damit lösbar?

norfie² · Post by *norfie² » 2011-02-21, 06:55 UTC

Es ist wie so oft: man braucht fuer Sortieraufgaben ein ordentliches Kriterium. Mehrere Moeglichkeiten bieten mit xPdfsearch sich an: Suche nach Text mit einem Leerzeichen. Meist lassen sich PDF-Dateien auch nach "Ersteller" gut sortieren - es kommt dann darauf an, wie die gescannten PDFs erstellt worden sind.

truecolor · Post by *truecolor » 2011-02-21, 09:34 UTC

@Lefteous:

... Ein "Enthält Text"-Feld gibt es derzeit nicht. Es einzubauen aber kein Problem. Wäre die Aufgabe aus deiner Sicht damit lösbar?

Dazu müßte ich ja trotzdem jedes PDF öffnen (um zu schauen, ob Text oder Grafik).
Sollte ich es geschafft haben beide voneinander zu trennen, würde ich über den Dateinamen eindeutige Bezeichnungen vergeben.

@norfie²

Es ist wie so oft: man braucht fuer Sortieraufgaben ein ordentliches Kriterium. Mehrere Moeglichkeiten bieten mit xPdfsearch sich an: Suche nach Text mit einem Leerzeichen. Meist lassen sich PDF-Dateien auch nach "Ersteller" gut sortieren - es kommt dann darauf an, wie die gescannten PDFs erstellt worden sind.

Der Ansatz scheint mir brauchbar ... (natürlich mit der Voraussetzung, das fälschliche Leerzeichen in den Bilder-PDF´s ignoriert werden).

Dann werde ich mir mal xPDFSearch näher anschauen.

Ich gebe bei Ergebnis Rückmeldung ... ist ja für andere evtl. auch interessant ...

truecolor · Post by *truecolor » 2011-02-21, 09:50 UTC

Hier die Rückmeldung:

Hab in den Testordner PDF/IN 100 gemischte PDF´s rein kopiert.

xPDFSearch installiert und im TC-Suchfenster nach Text " " suchen lassen ... und habe exakt die Text-PDF´s angezeigt bekommen.

norfie²´s Methode scheint somit super zu funktionieren.

@Lefteous: mit Deinem Plugin xPDFSearch kann ich mir zwar mit norfie² Filteridee alle PDF´s anzeigen lassen, die ein Leerzeichen enthalten ... wie kann ich aber diese Dateiauswahl weiter bearbeiten (z.B. pipen zum MUT)?

Gruß ... truecolor

norfie² · Post by *norfie² » 2011-02-21, 10:02 UTC

Im Suchen-Dialog nach Finden der Dateien den Button "Anwenden" benutzen, mit STRG+A alles markieren, mit STRG+M MUT starten.

BTW: Bitte fuer Apostroph auch das Apostroph statt Akzent Akut verwenden. Zudem sind all Deine Apostrophe mehr als ueberfluessig und werden gern auch als Deppenapostroph tituliert.

truecolor · Post by *truecolor » 2011-02-21, 10:09 UTC

Ich Blindfisch

... steht bestimmt irgendwo erklärt ... hab mich schon ewig geärgert, dass ich im TC nach einer Dateisuche nix mit den Ergebnissen anfangen konnte (ausser auf eines draufklicken).

So macht es ja richtig Spass

Klasse, klasse, klasse !!!

Erfolgsmeldungen kommen weiter ...

truecolor · Post by *truecolor » 2011-02-21, 11:22 UTC

So,

Operation "Bad-PDF"

ist so gut wie abgeschlossen.

* Mit xPDFSearch alle PDF´s gesucht, die kein Leerzeichen enthalten.

* Mit dem Menüpunkt Anwenden zum MUT gepiped.

* Dort alle Dateienendungen in pdfx umbenannt.

* Mit Robocopy (YARG-GUI .. sorry, damit geht´s einfach besser) in einem seperaten Ordner eine gespiegelte Verzeichnisstruktur erstellt die die pdfx-Dateien dort einsortieren lassen.

* In MUT alle pdfx-Endungen wieder in pdf umbenannt.

Somit wurden alle PDF´s schön getrennt in PDF/Text- und PDF/Grafik-Verzeichnisse einsortiert.

Dalai · Post by *Dalai » 2011-02-21, 11:42 UTC

truecolor wrote:* Mit Robocopy (YARG-GUI .. sorry, damit geht´s einfach besser) in einem seperaten Ordner eine gespiegelte Verzeichnisstruktur erstellt die die pdfx-Dateien dort einsortieren lassen.

Das hättest du auch mit dem TC hinbekommen: F5 und "*.pdfx" in das Eingabefeld "Nur Dateien dieses Typs" eingeben. Alternativ kann man TreeCopyPlus verwenden.

MfG Dalai

truecolor · Post by *truecolor » 2011-02-21, 12:06 UTC

Kann TreeCopyPlus aus einem Verzeichnis mit beliebigen Verz.-Tiefen die Verz.-Struktur ohne Inhalte auf einem anderen Laufwerk erzeugen?

Quasi die Verz.-Struktur spiegeln.

Hab die Funktion im TC nicht gefunden.

norfie² · Post by *norfie² » 2011-02-21, 12:15 UTC

Quasi die Verz.-Struktur spiegeln. Hab die Funktion im TC nicht gefunden.

Die Funktion kann man nicht finden. Einfach F5 druecken, in den sich oeffnenden Dialog in "Nur Dateien dieses Typs" "irgendwelchen_groben_Unsinn" eingeben, Button "OK". Somit wird eine Verzeichnisstruktur mit dem TCmd gespiegelt.

truecolor · Post by *truecolor » 2011-02-21, 13:42 UTC

norfie² wrote:...Einfach F5 druecken, in den sich oeffnenden Dialog in "Nur Dateien dieses Typs" "irgendwelchen_groben_Unsinn" eingeben, Button "OK". Somit wird eine Verzeichnisstruktur mit dem TCmd gespiegelt.

Bin grad ein bissel beeindruckt, was man mit TC alles anstellen kann

Gruß ... truecolor