Text-PDF(PDF/A) erkennen

truecolor · Post by *truecolor » 2020-12-16, 17:20 UTC

Hallo,

Ich habe hier jede Menge gescannte Dokumente (Manuals, Quittungen, Rechnungen, Verträge etc.) , die direkt nach dem Scannen als PDF abgespeichert wurden.
Meine damalige OCR-Engine hat die PDF´s nicht zuverlässig in Text-PDF umgewandelt, so dass noch jede Menge unbearbeitete Bild-PDFs vorhanden sind.
Mein Problem besteht darin, dass ich von "außen" nicht erkennen kann, ob es sich um ein Bild- oder Text-PDF handelt.
Ich müßte jedes PDF öffnen und versuchen Text zu markieren. Nach rund 3000 PDFs ist die Amtszeit von Joe Biden bestimmt zur Hälfte vorbei.

Hier meine Fragen:

1) Wie bringe ich TC bei wonach er im PDF-Inhalt suchen soll, damit eindeutig Bild- von Text-PDF unterschieden werden kann?

2) Wie kann ich letztendlich nach Bild-PDFs suchen, damit ich diese in ein seperates Verzeichnis verschieben kann, damit eine OCR nachträglich alle Bild-PDFs in Text-PDF umwandeln kann?

milo1012 · Post by *milo1012 » 2020-12-16, 20:04 UTC

Mittels TC in einer rohen Textsuche bzw. binär ein reines Bild-PDF zu erkennen, dürfte fast unmöglich sein.

Ich würde es deshalb mit diesem Plugin versuchen:
https://totalcmd.net/plugring/pdfOCR.html

Total Commander

Text-PDF(PDF/A) erkennen

Text-PDF(PDF/A) erkennen

Re: Text-PDF(PDF/A) erkennen