Re: OCR à documents écrits à la machine à écrire
(3ème envoi du même mail... je ne comprends pas que je n'arrive pas à
poster sur la liste...)
Le mardi 23 décembre de l'année 2008, vers 10 heures et 22 minutes,
Daniel Caillibaud écrivait:
> Gaëtan PERRIER a écrit :
>>> [...] je viens de prouver le *tesseract* français et le résultat a
>>> été désastreux. [...]
>>>
>>> Pouvez me recommander un outil un peu plus adéquate à cet tâche ?
>>
>> apt-get install tesseract-ocr
>
> C'est la blague du vendredi où il y a des cas où tesseract fonctionne
> ?
>
je viens de tester un document de 3 pages scanné en pdf
convert -density 300 image.pdf image.tif
tesseract image.tif essai -l fra
résultat: près de 1% d'erreurs!
par contre si j'utilise la commande:
convert image.pdf image.tif : 100% d'erreurs
convert -density 150 image.pdf image.tif : 50% d'erreurs
...
Donc tout dépend de la qualité du tif au départ.
--
---()()()----()()()----()()()--)()()(----)()()(----)()()(---
-()----()--()-()-----()----()--)(----)(-----)(-)(--)(----)(-
()----()----()()()----()()()----)()()(----)()()(----)(----)(
Reply to: