Kann man PDF mit Texterkennung mit TC nach Text durchsuchen?

German support forum

Moderators: Hacker, Stefan2, white

Post Reply
User avatar
Kerstin83
Senior Member
Senior Member
Posts: 341
Joined: 2007-11-25, 10:18 UTC
Location: Hannover

Kann man PDF mit Texterkennung mit TC nach Text durchsuchen?

Post by *Kerstin83 »

Liebes Forum,

mit Acrobat kann man eingescannte Texte mit einer eingebauten OCR-Software (Texterkennung) bearbeiten. Dadurch wird der Text erkannt und sozusagen in das PDF integriert.
:D
Jetzt habe ich Ordner mit derartigen pdfs mal nach verschiedenen Texten durchsucht - aber TC findet sie so erstmal nicht :( . Gibt es eine Möglichkeit, TC beizubringen, dass er auch diese OCR-Texte durchsucht?

Liebe Grüße
User avatar
malungu
Member
Member
Posts: 130
Joined: 2003-11-23, 19:52 UTC

Post by *malungu »

Hi,

das müsste doch das xPDFSearch Plugin können:

https://plugins.ghisler.com/content/wdx_xpdfsearch.zip

Gruß,
malungu
User avatar
Kerstin83
Senior Member
Senior Member
Posts: 341
Joined: 2007-11-25, 10:18 UTC
Location: Hannover

Post by *Kerstin83 »

Hallo, vielen Dank für die schnelle Antwort. :D

Ich habs installiert, es klappt allerdings leider nicht.
Er findet die entsprechenden OCR Textstellen nicht.

Dafür werden pdfs ohne ocr gefunden, die die entsprechenden Textstellen überhaupt nicht enthalten :?: . Ob das vorher auch schon so war, weiß ich allerdings nicht.

Kerstin
CoolWater
Power Member
Power Member
Posts: 744
Joined: 2003-03-27, 16:33 UTC

Post by *CoolWater »

2Kerstin83

Hallo,

da hast du wohl falsch gemacht ;) Funktioniert hier 1a. Um in PDFs suchen zu können, drückst du Alt-F7, Suchen nach *.PDF z.b., dann auf die Registerseite "Plugins" wechseln, dort in der Liste unter Plugin xpdfsearch auswählen, bei Eigenschaft Text auswählen, bei OP enthält und bei Wert trägst du deinen Suchbegriff ein.

Damit funktioniert das :)

Gruß
Justin
User avatar
ghisler(Author)
Site Admin
Site Admin
Posts: 50567
Joined: 2003-02-04, 09:46 UTC
Location: Switzerland
Contact:

Post by *ghisler(Author) »

Ich glaube nicht, dass das xPDFSearch-Plugin mit solchem OCR-Text funktionien kann - das Plugin ist dafür gedacht, Text-Pdfs (z.B. Word - Drucken über Acrobat o.ä.) zu durchsuchen. OCR-Text steht wahrscheinlich in irgend einem komprimierten Extrafeld, dazu bräuchte es wohl ein eigenes Plugin...
Author of Total Commander
https://www.ghisler.com
User avatar
oompoop
Power Member
Power Member
Posts: 561
Joined: 2006-04-27, 11:44 UTC
Location: Kiel, Germanistan
Contact:

Post by *oompoop »

... evtl. bringt das Programm pdf2txt ja etwas?!
# 139213 Personal license, TC 9.12RC3, Windows 7 Ultimate, 32bit, Intel Core i3-4130, 4 GB RAM, Standard VGA
CoolWater
Power Member
Power Member
Posts: 744
Joined: 2003-03-27, 16:33 UTC

Post by *CoolWater »

2ghisler(Author)

Das was Acrobat als Text beim OCR-Scannen erkennt, findet auch xpdfSearch, sprich xpdfSearch kann diese Text-Objekte entpacken/auslesen.

Gruß
CoolWater
User avatar
Lefteous
Power Member
Power Member
Posts: 9537
Joined: 2003-02-09, 01:18 UTC
Location: Germany
Contact:

Post by *Lefteous »

Ich hoffe das User Interface für die Textsuche mittels Plugin wird endlich einmal verbessert - vielleicht in Version 8.
Der Benutzer möchte einfach nur ein Dokument finden. Warum also die Suche mittels Plugin nicht in die normale Suche nach Dateiinhalt integrieren?


XPDFSearch müsste die Dateien finden und wenn das tatsächlich ein spezielles Feld ist, könnte man das vielleicht noch ergänzen.
Andihoell
Junior Member
Junior Member
Posts: 7
Joined: 2012-11-06, 06:50 UTC

Post by *Andihoell »

Hallo,

ich habe gerade diese Plug-In Perle (xpdfsearch) entdeckt! Vielen Dank hierfür! Perfekt wäre es aber erst mit einer tieferen Integration in den TC (wie schon von Lefteous angeregt), z.B. einfach als Options-Häkchen in dem Abschnitt "Text suchen". Ich glaube viele kennen bzw. finden dieses Plug-In nicht und wenn man es dann installiert hat ist die Bedienung über den Plugins Reiter schon sehr "nerdig".

Viele Grüße
Andreas
Post Reply