[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: PS bzw. PDF auf inhaltliche Merkmale untersuchen und auslesen



Am Donnerstag, 8. Juli 2010 16:41:33 schrieb Jan Nagios:
> Hi,
>
> gibt es unter Debian ein Boardmittel, mit dessen Hilfe vorliegende PDF's
> bzw. PS Dateien untersucht werden können, ob in ihnen betsimmt Merkmale
> vorhanden sind, wie z.B. ein Kreuz oben rechts etc. ? Hintergrund ist,
> dass eingehende Faxe unter Hylafax an eben solch ein Programm übergeben

Faxe gehen aber nicht als Textdatei ein, sondern quasi als Bilder (TIFF-
Format).

> werden sollen, damit diese Faxe dann automatisch nach gewissen Kriterien
> sortiert etc. werden sollen oder eben auch Information ausgelesen werden
> können, um diese z.B. in eine Datenbank einzutragen. Wäre schon nett,
> wenn es das gäbe. Eine Suche mit aptitude hat leider nichts zu Tage
> gefördert.

Wie sehen Deine PS/PDF Dateien aus. Liegt dort das eingegangene Fax 
Textdateien bereits als Textdatei vor?

Ein Kreuz an bestimmter Stelle wird man sicherlich mit Mustererkennung
in der Bilddatei finden. Die im Text stehende Information kann man
aber erst nach einem OCR Durchlauf erfassen.

> Gruss
>
> Jan

Michael


Reply to: