[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Komandozeilenprogramm zur Nachbearbeitung von OCR



Hallo!

Ich habe ein Buch gescannt. Nach dem OCR der Scans mit tesseract-ocr
möchte ich noch automatisch die Zeileumbrüche (LF) entfernen und
getrennte Wörter zusammenfügen (und natürlich den Trennungsstrich
entfernen).

Meine Recherchen haben bisher nur ein Libreoffice-Plugin names
Pepito-Cleaner (der scheint aber nur auf Probleme hinzuweisen und
behebt sie nicht automatisch) und das Gnome-Programm gimagereader
zutage gefördert. Letzteres macht bei der Nachbearbeitung des Scanns
genau das was ich will, es kann u.a. die Umbrüche entfernen (Absätze
bleiben bestehen) und die getrennten Wörter wieder zusammenfügen.
Leider kann man das nicht automatisieren.

Gibt es ein Kommandozeilenprogramm das eine ähnliche Funktionalität
hat (damit ich es in ein Script packen kann)?

-- 
Mit freundlichen Grüßen 
Horst Felder  -  www.h-felder.de 
GNU/Linux; damit ich auch morgen noch vernünftig arbeiten kann!


Reply to: