Hallo,
Ich habe hier jede Menge gescannte Dokumente (Manuals, Quittungen, Rechnungen, Verträge etc.) , die direkt nach dem Scannen als PDF abgespeichert wurden.
Meine damalige OCR-Engine hat die PDF´s nicht zuverlässig in Text-PDF umgewandelt, so dass noch jede Menge unbearbeitete Bild-PDFs vorhanden sind.
Mein Problem besteht darin, dass ich von "außen" nicht erkennen kann, ob es sich um ein Bild- oder Text-PDF handelt.
Ich müßte jedes PDF öffnen und versuchen Text zu markieren. Nach rund 3000 PDFs ist die Amtszeit von Joe Biden bestimmt zur Hälfte vorbei.
Hier meine Fragen:
1) Wie bringe ich TC bei wonach er im PDF-Inhalt suchen soll, damit eindeutig Bild- von Text-PDF unterschieden werden kann?
2) Wie kann ich letztendlich nach Bild-PDFs suchen, damit ich diese in ein seperates Verzeichnis verschieben kann, damit eine OCR nachträglich alle Bild-PDFs in Text-PDF umwandeln kann?
Text-PDF(PDF/A) erkennen
Moderators: Hacker, Stefan2, white
Text-PDF(PDF/A) erkennen
MBP Mid12 (MacOS 10.13.6)
MBP M3 (MacOS 14.1)
TC 9.51 x64 (W10 / Parallels 11)
TC 11.03 (crossover)
MBP M3 (MacOS 14.1)
TC 9.51 x64 (W10 / Parallels 11)
TC 11.03 (crossover)
Re: Text-PDF(PDF/A) erkennen
Mittels TC in einer rohen Textsuche bzw. binär ein reines Bild-PDF zu erkennen, dürfte fast unmöglich sein.
Ich würde es deshalb mit diesem Plugin versuchen:
https://totalcmd.net/plugring/pdfOCR.html
Ich würde es deshalb mit diesem Plugin versuchen:
https://totalcmd.net/plugring/pdfOCR.html
TC plugins: PCREsearch and RegXtract