Re: PDF aus Images in einzelne Seiten zerlegen + OCR

To: debian-user-german@lists.debian.org
Subject: Re: PDF aus Images in einzelne Seiten zerlegen + OCR
From: Christoph Conrad <nospam@spamgourmet.com>
Date: Wed, 28 Mar 2007 09:45:40 +0200
Message-id: <[🔎] 87hcs5hke6.fsf@ID-24456.user.uni-berlin.de>
Reply-to: Christoph Conrad <christoph.conrad@gmx.de>
References: <[🔎] 87ircmjqo9.fsf@ID-24456.user.uni-berlin.de> <[🔎] 20070328055012.GD4953@a-kretschmer.de>

Hallo Andreas,

vielen Dank für deine schnelle Antwort, die mir ein gutes Gerüst für
Experimente gegeben hat.

Nach einigem Rumprobieren skizziere ich die gefundene Lösung. Wie
beschrieben besteht das PDF aus gescannten Images eines englischen
Buches, pro Seite im PDF ist eine Doppelbuchseite gescannt.

Folgende Scanprogrammen habe ich angetestet:

- gocr: extrem langsam, wird nicht fertig nach Minuten für eine Seite
- tesseract: prima, siehe unten
- ocrad: liefert Ergebnisse, aber schlechte Erkennnung
- clara: scheint mächtig. Bedienung unintuitiv.
- (ocropus: basiert auf tesseract, von Google weiterentwickelt, am
  31.3.2007 erster Release)

Tesseract lieferte wirklich sehr akzeptable Ergebnisse.

Kurzes Beispiel für händische Konvertierung der Seite 18 des PDF:

1) PDF in einzelne Bildseiten zerlegen

pdfimages ca.pdf images (generiert pbm Files)

2) Gescannte Doppelseiten in einzelne Seiten splitten

unpaper -l double -op 2 images-018.pbm images-018-split%d.pnm

3) Ausgabeseiten in für Tesseract brauchbares Format wandeln

convert images-018-split1.pnm images-018-1.tif

4) OCR z.B. auf erste Seite anwenden, Ausgabe in images-018.txt

tesseract images-018-1.tif images-018


Dann werde ich das heute abend in ein Batchscript packen, das mir alle
Seiten automatisch konvertiert und als Ergebnis ein einziges Asciifile
erzeugt.

Freundliche Grüße,
Christoph

Reply to:

Follow-Ups:
- Re: PDF aus Images in einzelne Seiten zerlegen + OCR
  - From: Thomas Vollmer <thomas-ml@vollmeronline.de>

References:
- PDF aus Images in einzelne Seiten zerlegen + OCR
  - From: Christoph Conrad <nospam@spamgourmet.com>
- Re: PDF aus Images in einzelne Seiten zerlegen + OCR
  - From: Andreas Kretschmer <andreas.kretschmer@schollglas.com>

Prev by Date: Re: Guter Laptop für Debian etch?
Next by Date: Re: Umask
Previous by thread: Re: PDF aus Images in einzelne Seiten zerlegen + OCR
Next by thread: Re: PDF aus Images in einzelne Seiten zerlegen + OCR
Index(es):
- Date
- Thread