Re: Komandozeilenprogramm zur Nachbearbeitung von OCR
Sebastian Reinhardt schrieb am 21. Jan um 12:23 Uhr:
> Am 21.01.19 um 11:22 schrieb Horst Felder:
> > Ich habe ein Buch gescannt. Nach dem OCR der Scans mit tesseract-ocr
> > möchte ich noch automatisch die Zeileumbrüche (LF) entfernen und
> > getrennte Wörter zusammenfügen (und natürlich den Trennungsstrich
> > entfernen).
> > Gibt es ein Kommandozeilenprogramm das eine ähnliche Funktionalität
> > hat (damit ich es in ein Script packen kann)?
> sed -i 's/\n//g' datei.txt
Mit sed über Zeilen hinweg zu arbeiten ist schwierig.
Wie wäre es mit:
~$ tr '\n' '@' < ocrtext | sed s%-@%%g | tr '@' '\n'
-->-- ocrtext ---
The quick brown Snow-
fox jumps over the Ter-
race, but somtimes
it simply doesn't
jump.
--<--<--
Gruß
Christian
--
*** Christian Knoke * 25541 Brunsbüttel * http://cknoke.de ***
Reply to: