Re: PS bzw. PDF auf inhaltliche Merkmale untersuchen und auslesen
Am Donnerstag, 8. Juli 2010 16:41:33 schrieb Jan Nagios:
> Hi,
>
> gibt es unter Debian ein Boardmittel, mit dessen Hilfe vorliegende PDF's
> bzw. PS Dateien untersucht werden können, ob in ihnen betsimmt Merkmale
> vorhanden sind, wie z.B. ein Kreuz oben rechts etc. ? Hintergrund ist,
> dass eingehende Faxe unter Hylafax an eben solch ein Programm übergeben
Faxe gehen aber nicht als Textdatei ein, sondern quasi als Bilder (TIFF-
Format).
> werden sollen, damit diese Faxe dann automatisch nach gewissen Kriterien
> sortiert etc. werden sollen oder eben auch Information ausgelesen werden
> können, um diese z.B. in eine Datenbank einzutragen. Wäre schon nett,
> wenn es das gäbe. Eine Suche mit aptitude hat leider nichts zu Tage
> gefördert.
Wie sehen Deine PS/PDF Dateien aus. Liegt dort das eingegangene Fax
Textdateien bereits als Textdatei vor?
Ein Kreuz an bestimmter Stelle wird man sicherlich mit Mustererkennung
in der Bilddatei finden. Die im Text stehende Information kann man
aber erst nach einem OCR Durchlauf erfassen.
> Gruss
>
> Jan
Michael
Reply to: