Re: Komandozeilenprogramm zur Nachbearbeitung von OCR
Sebastian Reinhardt schrieb am Montag, den 21. Januar 2019:
> Am 21.01.19 um 11:22 schrieb Horst Felder:
> > Hallo!
> >
> > Ich habe ein Buch gescannt. Nach dem OCR der Scans mit tesseract-ocr
> > möchte ich noch automatisch die Zeileumbrüche (LF) entfernen und
> > getrennte Wörter zusammenfügen (und natürlich den Trennungsstrich
> > entfernen).
> >
> > Meine Recherchen haben bisher nur ein Libreoffice-Plugin names
> > Pepito-Cleaner (der scheint aber nur auf Probleme hinzuweisen und
> > behebt sie nicht automatisch) und das Gnome-Programm gimagereader
> > zutage gefördert. Letzteres macht bei der Nachbearbeitung des Scanns
> > genau das was ich will, es kann u.a. die Umbrüche entfernen (Absätze
> > bleiben bestehen) und die getrennten Wörter wieder zusammenfügen.
> > Leider kann man das nicht automatisieren.
> >
> > Gibt es ein Kommandozeilenprogramm das eine ähnliche Funktionalität
> > hat (damit ich es in ein Script packen kann)?
> >
> Kommt ein Bisschen drauf an, was Du dann weiter machen willst. Ich würde mir
> mal "sed" ansehen.
>
> Das kannst Du als Programm mit der Textdatei direkt nutzen (auf Komandozeile
> ohne extra Script):
>
> sed -i 's/\n//g' datei.txt
Das funktioniert so nicht, weil sed die Eingabe zeilenweise verarbeitet.
Um das zu machen, muss man erst sed überreden, den kompletten Input
einzulesen und hinterher den Zeilenumbruch entfernen. So in etwa (Gnu
sed):
sed ':a;N;$!ba;s/\n//g' file
Was das bedeutet, hatte ich mal hier beschrieben:
http://www.freiesmagazin.de/mobil/freiesMagazin-2010-03-bilder.html#10_03_sed
(ganz am Ende, bei den Beispielen).
Grüße
Christian
--
Alle reden von Umweltverschmutzung, wir machen sie!
Reply to: