[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: archiviazione documenti con ocr per debian?



Con qualche software ed un po' di scripting riesci a fare quello che
cerchi. Io seguirei un procedimento del genere usando il formato DJVU[1]

- Scansionare i documenti o ricavarli da qualche altra fonte

- Usare imagemagick[2] per sistemare le immagini, regolando un po' il
contrasto ed eventualmente rendere il tutto in bianco e nero puro (2
colori, non in scala grigi)

- Con la suite djvulibre[3] convertire le immagini in file DJVU
ottenendo così dei documenti di piccolissime dimensioni ottimi (secondo
me) per essere archiviati

- Con tesseract[4] eseguire un riconoscimento OCR e nuovamente djvulibre
per unire il tutto con i file DJVU.

Se vuoi lavorare con file PDF esiste un tool (che non ho mai usato) di
nome pdfsandwich che appoggiandosi a tesseract, esegue e crea dei file
PDF con testo ricavato tramite OCR.

Non ho comandi già pronti da dare, dipende tutto dal tipo di file in tuo
possesso. Dovrai perdere un po' di tempo nel cercare le opzioni
migliori, la documentazione di djvulibre ed imagemagik[5] è molto buona,
non aver paura.

Imagemagik crea anche file PDF partendo dalle immagini, devi regolare
però tutte le opzioni del caso per evitare di ritrovarti con file di
dimensioni mostruose.


link utili

http://www.tobias-elze.de/pdfsandwich/index.html
http://en.wikisource.org/wiki/Help:DjVu_files
http://en.wikisource.org/wiki/Help:DjVu_files/OCR_with_Tesseract
http://infrid.com/blog/2011/04/02/appunti-sullo-scanrip.html

[1] http://it.wikipedia.org/wiki/DjVu
[2] https://packages.debian.org/wheezy/imagemagick
[3] https://packages.debian.org/wheezy/djvulibre-bin
[4] https://packages.debian.org/wheezy/tesseract-ocr
[5] http://www.imagemagick.org/Usage/

Infrid


Reply to: