Ist das mit xPDFSearch oder generell möglich ...
Moderators: Hacker, Stefan2, white
Ist das mit xPDFSearch oder generell möglich ...
Hallo,
ich habe hier eine Menge PDF-Dokumente, die aus reinen Bilddaten bestehen (eben als JPG eingescannte Dokumente).
Diese sind leider mit solchen PDF´s, die Text enthalten, zusammen in die gleichen Ordner abgelegt worden.
Jetzt hab ich die leidliche Aufgabe, diese wieder voneinander getrennt zu sortieren, damit die "Text-PDF´s" mittels dtSearch indexiert werden können.
Bei 50.000 PDF´s eine 100%ige Sisyphusarbeit.
Wie kann ich TC dazu bewegen, zumindest die Bild-PDF´s zu markieren oder zumindest umzubenennen, damit ich die "hochwertigeren" Text-PDF´s weiter nutzen kann.
Gruß ... truecolor
ich habe hier eine Menge PDF-Dokumente, die aus reinen Bilddaten bestehen (eben als JPG eingescannte Dokumente).
Diese sind leider mit solchen PDF´s, die Text enthalten, zusammen in die gleichen Ordner abgelegt worden.
Jetzt hab ich die leidliche Aufgabe, diese wieder voneinander getrennt zu sortieren, damit die "Text-PDF´s" mittels dtSearch indexiert werden können.
Bei 50.000 PDF´s eine 100%ige Sisyphusarbeit.
Wie kann ich TC dazu bewegen, zumindest die Bild-PDF´s zu markieren oder zumindest umzubenennen, damit ich die "hochwertigeren" Text-PDF´s weiter nutzen kann.
Gruß ... truecolor
Es ist wie so oft: man braucht fuer Sortieraufgaben ein ordentliches Kriterium. Mehrere Moeglichkeiten bieten mit xPdfsearch sich an: Suche nach Text mit einem Leerzeichen. Meist lassen sich PDF-Dateien auch nach "Ersteller" gut sortieren - es kommt dann darauf an, wie die gescannten PDFs erstellt worden sind.
@Lefteous:
Sollte ich es geschafft haben beide voneinander zu trennen, würde ich über den Dateinamen eindeutige Bezeichnungen vergeben.
@norfie²
Dann werde ich mir mal xPDFSearch näher anschauen.
Ich gebe bei Ergebnis Rückmeldung ... ist ja für andere evtl. auch interessant ...
Dazu müßte ich ja trotzdem jedes PDF öffnen (um zu schauen, ob Text oder Grafik).... Ein "Enthält Text"-Feld gibt es derzeit nicht. Es einzubauen aber kein Problem. Wäre die Aufgabe aus deiner Sicht damit lösbar?
Sollte ich es geschafft haben beide voneinander zu trennen, würde ich über den Dateinamen eindeutige Bezeichnungen vergeben.
@norfie²
Der Ansatz scheint mir brauchbar ... (natürlich mit der Voraussetzung, das fälschliche Leerzeichen in den Bilder-PDF´s ignoriert werden).Es ist wie so oft: man braucht fuer Sortieraufgaben ein ordentliches Kriterium. Mehrere Moeglichkeiten bieten mit xPdfsearch sich an: Suche nach Text mit einem Leerzeichen. Meist lassen sich PDF-Dateien auch nach "Ersteller" gut sortieren - es kommt dann darauf an, wie die gescannten PDFs erstellt worden sind.
Dann werde ich mir mal xPDFSearch näher anschauen.
Ich gebe bei Ergebnis Rückmeldung ... ist ja für andere evtl. auch interessant ...
Last edited by truecolor on 2011-02-21, 11:42 UTC, edited 1 time in total.
Hier die Rückmeldung:
Hab in den Testordner PDF/IN 100 gemischte PDF´s rein kopiert.
xPDFSearch installiert und im TC-Suchfenster nach Text " " suchen lassen ... und habe exakt die Text-PDF´s angezeigt bekommen.
norfie²´s Methode scheint somit super zu funktionieren.
@Lefteous: mit Deinem Plugin xPDFSearch kann ich mir zwar mit norfie² Filteridee alle PDF´s anzeigen lassen, die ein Leerzeichen enthalten ... wie kann ich aber diese Dateiauswahl weiter bearbeiten (z.B. pipen zum MUT)?
Gruß ... truecolor
Hab in den Testordner PDF/IN 100 gemischte PDF´s rein kopiert.
xPDFSearch installiert und im TC-Suchfenster nach Text " " suchen lassen ... und habe exakt die Text-PDF´s angezeigt bekommen.
norfie²´s Methode scheint somit super zu funktionieren.
@Lefteous: mit Deinem Plugin xPDFSearch kann ich mir zwar mit norfie² Filteridee alle PDF´s anzeigen lassen, die ein Leerzeichen enthalten ... wie kann ich aber diese Dateiauswahl weiter bearbeiten (z.B. pipen zum MUT)?
Gruß ... truecolor
Im Suchen-Dialog nach Finden der Dateien den Button "Anwenden" benutzen, mit STRG+A alles markieren, mit STRG+M MUT starten.
BTW: Bitte fuer Apostroph auch das Apostroph statt Akzent Akut verwenden. Zudem sind all Deine Apostrophe mehr als ueberfluessig und werden gern auch als Deppenapostroph tituliert.
BTW: Bitte fuer Apostroph auch das Apostroph statt Akzent Akut verwenden. Zudem sind all Deine Apostrophe mehr als ueberfluessig und werden gern auch als Deppenapostroph tituliert.
Last edited by norfie² on 2011-02-21, 10:09 UTC, edited 1 time in total.
So,
Operation "Bad-PDF"
ist so gut wie abgeschlossen.
Operation "Bad-PDF"

- * Mit xPDFSearch alle PDF´s gesucht, die kein Leerzeichen enthalten.
* Mit dem Menüpunkt Anwenden zum MUT gepiped.
* Dort alle Dateienendungen in pdfx umbenannt.
* Mit Robocopy (YARG-GUI .. sorry, damit geht´s einfach besser) in einem seperaten Ordner eine gespiegelte Verzeichnisstruktur erstellt die die pdfx-Dateien dort einsortieren lassen.
* In MUT alle pdfx-Endungen wieder in pdf umbenannt.
Das hättest du auch mit dem TC hinbekommen: F5 und "*.pdfx" in das Eingabefeld "Nur Dateien dieses Typs" eingeben. Alternativ kann man TreeCopyPlus verwenden.truecolor wrote:* Mit Robocopy (YARG-GUI .. sorry, damit geht´s einfach besser) in einem seperaten Ordner eine gespiegelte Verzeichnisstruktur erstellt die die pdfx-Dateien dort einsortieren lassen.
MfG Dalai
#101164 Personal licence
Ryzen 5 2600, 16 GiB RAM, ASUS Prime X370-A, Win7 x64
Plugins: Services2, Startups, CertificateInfo, SignatureInfo, LineBreakInfo - Download-Mirror
Ryzen 5 2600, 16 GiB RAM, ASUS Prime X370-A, Win7 x64
Plugins: Services2, Startups, CertificateInfo, SignatureInfo, LineBreakInfo - Download-Mirror
Die Funktion kann man nicht finden. Einfach F5 druecken, in den sich oeffnenden Dialog in "Nur Dateien dieses Typs" "irgendwelchen_groben_Unsinn" eingeben, Button "OK". Somit wird eine Verzeichnisstruktur mit dem TCmd gespiegelt.Quasi die Verz.-Struktur spiegeln. Hab die Funktion im TC nicht gefunden.
"War is evil, in so far as it makes more bad people than it takes away."
Immanuel Kant in "Perpetual Peace"
Immanuel Kant in "Perpetual Peace"