[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: PDF aus Images in einzelne Seiten zerlegen + OCR



Hallo Andreas,

vielen Dank für deine schnelle Antwort, die mir ein gutes Gerüst für
Experimente gegeben hat.

Nach einigem Rumprobieren skizziere ich die gefundene Lösung. Wie
beschrieben besteht das PDF aus gescannten Images eines englischen
Buches, pro Seite im PDF ist eine Doppelbuchseite gescannt.

Folgende Scanprogrammen habe ich angetestet:

- gocr: extrem langsam, wird nicht fertig nach Minuten für eine Seite
- tesseract: prima, siehe unten
- ocrad: liefert Ergebnisse, aber schlechte Erkennnung
- clara: scheint mächtig. Bedienung unintuitiv.
- (ocropus: basiert auf tesseract, von Google weiterentwickelt, am
  31.3.2007 erster Release)

Tesseract lieferte wirklich sehr akzeptable Ergebnisse.

Kurzes Beispiel für händische Konvertierung der Seite 18 des PDF:

1) PDF in einzelne Bildseiten zerlegen

pdfimages ca.pdf images (generiert pbm Files)

2) Gescannte Doppelseiten in einzelne Seiten splitten

unpaper -l double -op 2 images-018.pbm images-018-split%d.pnm

3) Ausgabeseiten in für Tesseract brauchbares Format wandeln

convert images-018-split1.pnm images-018-1.tif

4) OCR z.B. auf erste Seite anwenden, Ausgabe in images-018.txt

tesseract images-018-1.tif images-018


Dann werde ich das heute abend in ein Batchscript packen, das mir alle
Seiten automatisch konvertiert und als Ergebnis ein einziges Asciifile
erzeugt.

Freundliche Grüße,
Christoph



Reply to: