Re: OCR à documents écrits à la machine à écrire
Le Thu, 18 Dec 2008 23:20:17 +0100
Alain Vaugham <alain@vaugham.com> a écrit :
> Le jeudi 18 décembre 2008 18:03, Sever P A a écrit :
> | français et le résultat a été désastreux. La chose a pu millorer un peu en
> | utilisant le *GOCR*, mais le résultat obtenu a été également
> | inacceptable...
> |
> | Pouvez me recommander un outil un peu plus adéquate à cet tâche ?
>
> Je n'ai pas de réponse précise. Désolé.
> Juste un retour d'expérience. Peut-être HS.
tesseract sous ubuntu
>
> Avec des outils non libres, moi non plus je n'ai jamais eu de résultats
> satisfaisants même si les pièces à scanner ne comportaient que les
> cinquante/soixante caractères les plus utilisés de la langue anglaise.
>
> Les résulats les moins mauvais étaient obtenus si l'alignement horizontal
> des lignes à "OCRiser" était le plus horizontal possible par rapport à
> l'alignement du scanner. Le changement de graisse, les séquences avec des
> points ou des virgules était très mal reconnus ainsi que les documents
> ayant un faible contraste.
> Bref : totalement inexploitables.
>
> Mes tentatives se sont donc arrêtées mais récemment j'ai rencontré des gens
> qui traitaient des fax. Le traitement consistait à "OCRiser" une zone
> prédéfinie afin de repérer un identifiant précis à partir d'un numéro de
> fax commun. Le texte extrait permettait de rédiger automatiquement un email
> avec le fax en pièce jointe et de le transmettre à son seul destinataire.
>
> Si il est possible d'obtenir un très bon résultat à partir d'une
> reconnaissance sur une petite zone alors peut-être est-ce une voie de
> recherche?
>
> Je serai très intéressé par le résultat de tes futures recherches.
>
> --
> Cordialement,
>
> Alain Vaugham
> --------------------------------------------------------
> [PUB] Signature numérique GPG de ce courrier: 0xD26D18BC
Reply to: