[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Komandozeilenprogramm zur Nachbearbeitung von OCR



Sebastian Reinhardt schrieb am Montag, den 21. Januar 2019:

> Am 21.01.19 um 11:22 schrieb Horst Felder:
> > Hallo!
> > 
> > Ich habe ein Buch gescannt. Nach dem OCR der Scans mit tesseract-ocr
> > möchte ich noch automatisch die Zeileumbrüche (LF) entfernen und
> > getrennte Wörter zusammenfügen (und natürlich den Trennungsstrich
> > entfernen).
> > 
> > Meine Recherchen haben bisher nur ein Libreoffice-Plugin names
> > Pepito-Cleaner (der scheint aber nur auf Probleme hinzuweisen und
> > behebt sie nicht automatisch) und das Gnome-Programm gimagereader
> > zutage gefördert. Letzteres macht bei der Nachbearbeitung des Scanns
> > genau das was ich will, es kann u.a. die Umbrüche entfernen (Absätze
> > bleiben bestehen) und die getrennten Wörter wieder zusammenfügen.
> > Leider kann man das nicht automatisieren.
> > 
> > Gibt es ein Kommandozeilenprogramm das eine ähnliche Funktionalität
> > hat (damit ich es in ein Script packen kann)?
> > 
> Kommt ein Bisschen drauf an, was Du dann weiter machen willst. Ich würde mir
> mal "sed" ansehen.
> 
> Das kannst Du als Programm mit der Textdatei direkt nutzen (auf Komandozeile
> ohne extra Script):
> 
> sed -i 's/\n//g' datei.txt

Das funktioniert so nicht, weil sed die Eingabe zeilenweise verarbeitet. 
Um das zu machen, muss man erst sed überreden, den kompletten Input 
einzulesen und hinterher den Zeilenumbruch entfernen. So in etwa (Gnu 
sed):

sed ':a;N;$!ba;s/\n//g' file

Was das bedeutet, hatte ich mal hier beschrieben:
http://www.freiesmagazin.de/mobil/freiesMagazin-2010-03-bilder.html#10_03_sed
(ganz am Ende, bei den Beispielen).

Grüße
Christian
-- 
Alle reden von Umweltverschmutzung, wir machen sie!


Reply to: