[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Komandozeilenprogramm zur Nachbearbeitung von OCR



Sebastian Reinhardt schrieb am 21. Jan um 12:23 Uhr:
> Am 21.01.19 um 11:22 schrieb Horst Felder:

> > Ich habe ein Buch gescannt. Nach dem OCR der Scans mit tesseract-ocr
> > möchte ich noch automatisch die Zeileumbrüche (LF) entfernen und
> > getrennte Wörter zusammenfügen (und natürlich den Trennungsstrich
> > entfernen).

> > Gibt es ein Kommandozeilenprogramm das eine ähnliche Funktionalität
> > hat (damit ich es in ein Script packen kann)?

> sed -i 's/\n//g' datei.txt

Mit sed über Zeilen hinweg zu arbeiten ist schwierig.

Wie wäre es mit:

~$ tr '\n' '@' < ocrtext | sed s%-@%%g | tr '@' '\n'

-->-- ocrtext ---
The quick brown Snow-
fox jumps over the Ter-
race, but somtimes
it simply doesn't
jump.
--<--<--

Gruß
Christian

-- 
***   Christian Knoke  *  25541 Brunsbüttel  *  http://cknoke.de   ***


Reply to: