[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [OT] Fragebogen: Wie von Papier nach Daten umwandeln



Hallo Volker,
On 01.02.2015 15:21 Volker Wysk wrote:
Hallo!

In der Zeitschrift Linux User 8/2014 gab es einen Artikel über OCR unter
Linux:

"Der Traum ist so alt wie der PC auf dem Schreibtisch: Im papierlosen Büro
sollen Akten nur noch digital im Rechner vorliegen. Für das Verwalten des
totholzfreien Büros wurde Paperwork entwickelt. Karsten Günther" ; "Paperwork
ist ein neuer Versuch, das papierlose Büro umzusetzen, der ausschließlich auf
freie Software-Komponenten setzt. Inwieweit das funktioniert, verrät dieser
Artikel."; "Paperwork basiert im Wesentlichen auf vier Komponenten: Zum
Scannen der Unterlagen greift Paperwork auf Sane zurück. Die Texterkennung
übernehmen Tesseract oder Cuneiform. Whoosh û indiziert die per OCR
umgewandelten Texte, sodass sie sich gut durchsuchen lassen, zudem generiert
das Werkzeug automatisch Vorschläge für Schlüsselwörter. Das Ganze fasst
Paperwork dann in einer mit GTK/​Glade entwickelten grafischen Oberfläche
zusammen."; Bietet u.a. eine grafische Oberfläche für die zwei OCR-Maschinen;
Viele Hinweise auf Programme fürs Scannen, Indexieren und Umwandeln von
Schriftstücken

Hier kann das Heft bezogen werden:

http://shop.linux-magazin.de/zeitschriften/linuxuser/einzelhefte/eh10267.html
Das Formular selber ist dem System bekannt. Maschinengechriebene Texte müssen nicht mehr als lesbarer Text eingescannt werden. Und ich bezweifle, dass ein paar unter Zeitdruck erfolgte handschriftliche Ergänzungen (wie z.B. Name des Gesprächspartners) per OCR richtig gedeutet oder fehlerfrei gelesen werden können. Der Rest sind Begriffe (vielleicht auch Symbole), die angekreuzt, markiert oder unterstrichen werden o.ä. wenn sie zutreffen. Es muss also Angekreuztes oder Unterstriche (mit dem Kugelschreiber oder Bleistift) oder Markierungen (z.B. mit Textmarker) erkannt werden, weniger die Worte. Das, was auf dem Formular steht ist ja dem System schon bekannt. Die Frage ist, ob es bei diesem Gespräch zutrifft oder nicht. Ich sehe es also irgendwie nicht als typische Anwendung für Texterkennung und OCR. Handschriftenerkennung wäre für die wenigen, mit dem Stift dahingehudelten Worte eher interessant, aber das traue ich dem beschriebenen System nicht zu.
MfG
Hugo


Reply to: