Text-PDF(PDF/A) erkennen

German support forum

Moderators: Hacker, Stefan2, white

Post Reply
User avatar
truecolor
Junior Member
Junior Member
Posts: 76
Joined: 2010-02-18, 14:30 UTC
Location: Raum HD (BaWü)

Text-PDF(PDF/A) erkennen

Post by *truecolor »

Hallo,

Ich habe hier jede Menge gescannte Dokumente (Manuals, Quittungen, Rechnungen, Verträge etc.) , die direkt nach dem Scannen als PDF abgespeichert wurden.
Meine damalige OCR-Engine hat die PDF´s nicht zuverlässig in Text-PDF umgewandelt, so dass noch jede Menge unbearbeitete Bild-PDFs vorhanden sind.
Mein Problem besteht darin, dass ich von "außen" nicht erkennen kann, ob es sich um ein Bild- oder Text-PDF handelt.
Ich müßte jedes PDF öffnen und versuchen Text zu markieren. Nach rund 3000 PDFs ist die Amtszeit von Joe Biden bestimmt zur Hälfte vorbei.

Hier meine Fragen:

1) Wie bringe ich TC bei wonach er im PDF-Inhalt suchen soll, damit eindeutig Bild- von Text-PDF unterschieden werden kann?

2) Wie kann ich letztendlich nach Bild-PDFs suchen, damit ich diese in ein seperates Verzeichnis verschieben kann, damit eine OCR nachträglich alle Bild-PDFs in Text-PDF umwandeln kann?
MBP Mid12 (MacOS 10.13.6)
MBP M3 (MacOS 14.1)
TC 9.51 x64 (W10 / Parallels 11)
TC 11.03 (crossover)
User avatar
milo1012
Power Member
Power Member
Posts: 1158
Joined: 2012-02-02, 19:23 UTC

Re: Text-PDF(PDF/A) erkennen

Post by *milo1012 »

Mittels TC in einer rohen Textsuche bzw. binär ein reines Bild-PDF zu erkennen, dürfte fast unmöglich sein.

Ich würde es deshalb mit diesem Plugin versuchen:
https://totalcmd.net/plugring/pdfOCR.html
TC plugins: PCREsearch and RegXtract
Post Reply