[HS] OCR [était] Re: Re : [Résolu] Sane backports sur sarge pour lide 35 : qui marche pas .
Bonsoir,
Samedi 30 septembre 2006, 23:56:35 CEST, Baron Christophe a écrit :
>[...]
> Par contre (mais c'est une autre histoire) la reconnaissance avec
> 'gocr', pas trop
> 'h'~'In"
> 'u/n'~'ii'
> 'fi'~'6'
>
> Beaucoup de caractères sont ajoutés entre deux caractères
> qui se suivent.
> La police du texte est 'cm', c'est vrai que moi même, j'ai du mal
> à la lire (je trouve les "déliés" trop fins, aparemment gocr pense
> comme moi :) ).
Les OCR préfèrent les polices et les images simples : en noir et
blanc (pas en niveaux de gris, encore moins en couleur), avec une
résolution finalement assez faible (je crois me souvenir que gocr
préférait 100 à 200 ppp) sinon, il a trop de détails et ajoute des
lettres...
Computer Modern est sans doute une fonte trop complexe pour lui, cm
fait des ligatures (p.ex. fi est un seul caractère, d'où le « 6 »
résultant).
Il faut travailler l'image avant de la passer. Faire des tests. Puis
utiliser un correcteur orthographique pour automatiser les corrections.
Puis relire.
Bon courage,
--
Sylvain Sauvage
Reply to: