Re: Programa para escanear textos (OCR) en Debian
Hola a todos,
y trabaja pero lastimosamente no al 100% (siendo objetivo trabaja entre un
70-80% bien).
¿tesseract-ocr 2.01 ?
¿Qué son las características del documento de origen? ¿Problema de
instalación de tesseract?
He aquí un ejemplo con un texto en francés. El documento es vago. Es una
imagen "pdf". Ella se parece a eso:
http://forum.ubuntu-fr.org/viewtopic.php?pid=1688790#p1688790 documento de
origen (forum ubuntu-fr)
Importación 300dpi con Gimp. Aumento del contraste (+55). Registro al
formato tiff sin compresión.
ocr con gscan2pdf+tesseract :
http://forum.ubuntu-fr.org/viewtopic.php?pid=1697930#p1697930 He aquí el
resultado
Documentación:
http://doc.ubuntu-fr.org/tesseract-ocr" En francés ;-)
¿O sea, mucho mejor,
http://www.guadalinex.org/participa/foros/hilo/17193/?orden=asc#88014 en
español? :D
Ahora, dos soluciones fáciles existen.
1°) xsane+xsane2tess+tesseract 2.01
2°) gscan2pdf+tesseract 2.01
paquetes deb están disponibles :
http://download.tuxfamily.org/guadausers/guadaV4/xsane2tess_1.0-1guadausers1_i386.deb
Descargar xsane2tess
http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.23_all.deb
Descaragar gscan2pdf-0.9.23
http://download.tuxfamily.org/xcfaudio/tesseract/tesseract_2.02-3_i386.deb
Descargar tesseract-2.01 (con dos idiomas - inglés y francés)
Añadir el idioma español es facil :
http://tesseract-ocr.googlecode.com/files/tesseract-2.00.spa.tar.gz
Descargar idioma_español
terminal :
tar -zxvf tesseract-2.00.spa.tar.gz
luego :
cd /home/usuario/Desktop/tessdata
luego :
sudo cp * /usr/share/tessdata
Saludos
--
View this message in context: http://www.nabble.com/Programa-para-escanear-textos-%28OCR%29-en-Debian-tp16364804p16834678.html
Sent from the debian-user-spanish mailing list archive at Nabble.com.
Reply to: