Re: PDF aus Images in einzelne Seiten zerlegen + OCR
Hallo Andreas,
vielen Dank für deine schnelle Antwort, die mir ein gutes Gerüst für
Experimente gegeben hat.
Nach einigem Rumprobieren skizziere ich die gefundene Lösung. Wie
beschrieben besteht das PDF aus gescannten Images eines englischen
Buches, pro Seite im PDF ist eine Doppelbuchseite gescannt.
Folgende Scanprogrammen habe ich angetestet:
- gocr: extrem langsam, wird nicht fertig nach Minuten für eine Seite
- tesseract: prima, siehe unten
- ocrad: liefert Ergebnisse, aber schlechte Erkennnung
- clara: scheint mächtig. Bedienung unintuitiv.
- (ocropus: basiert auf tesseract, von Google weiterentwickelt, am
31.3.2007 erster Release)
Tesseract lieferte wirklich sehr akzeptable Ergebnisse.
Kurzes Beispiel für händische Konvertierung der Seite 18 des PDF:
1) PDF in einzelne Bildseiten zerlegen
pdfimages ca.pdf images (generiert pbm Files)
2) Gescannte Doppelseiten in einzelne Seiten splitten
unpaper -l double -op 2 images-018.pbm images-018-split%d.pnm
3) Ausgabeseiten in für Tesseract brauchbares Format wandeln
convert images-018-split1.pnm images-018-1.tif
4) OCR z.B. auf erste Seite anwenden, Ausgabe in images-018.txt
tesseract images-018-1.tif images-018
Dann werde ich das heute abend in ein Batchscript packen, das mir alle
Seiten automatisch konvertiert und als Ergebnis ein einziges Asciifile
erzeugt.
Freundliche Grüße,
Christoph
Reply to: