[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: OCR à documents écrits à la machine à écrire



(3ème envoi du même mail... je ne comprends pas que je n'arrive pas à
poster sur la liste...)

Le mardi 23 décembre de l'année 2008, vers 10 heures et 22 minutes,
Daniel Caillibaud écrivait:
> Gaëtan PERRIER a écrit :
>>> [...] je viens de prouver le *tesseract* français et le résultat a
>>> été désastreux. [...]
>>>
>>> Pouvez me recommander un outil un peu plus adéquate à cet tâche ?
>>
>> apt-get install tesseract-ocr
>
> C'est la blague du vendredi où il y a des cas où tesseract fonctionne
> ?
>
 
je viens de tester un document de 3 pages scanné en pdf

convert -density 300 image.pdf image.tif
tesseract image.tif essai -l fra
résultat: près de 1% d'erreurs!

par contre si j'utilise la commande:
convert image.pdf image.tif : 100% d'erreurs

convert -density 150 image.pdf image.tif : 50% d'erreurs
...


Donc tout dépend de la qualité du tif au départ.


-- 
---()()()----()()()----()()()--)()()(----)()()(----)()()(---
-()----()--()-()-----()----()--)(----)(-----)(-)(--)(----)(-
()----()----()()()----()()()----)()()(----)()()(----)(----)(


Reply to: