[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

[HS] OCR [était] Re: Re : [Résolu] Sane backports sur sarge pour lide 35 : qui marche pas .



Bonsoir,

Samedi 30 septembre 2006, 23:56:35 CEST, Baron Christophe a écrit :
>[...] 
> Par contre (mais c'est une autre histoire) la reconnaissance avec
> 'gocr', pas trop
> 'h'~'In"
> 'u/n'~'ii'
> 'fi'~'6'
> 
> Beaucoup de caractères sont ajoutés entre deux caractères 
> qui se suivent.
> La police du texte est 'cm', c'est vrai que moi même, j'ai du mal 
> à la lire (je trouve les "déliés" trop fins, aparemment gocr pense
> comme moi :)  ).

  Les OCR préfèrent les polices et les images simples : en noir et
blanc (pas en niveaux de gris, encore moins en couleur), avec une
résolution finalement assez faible (je crois me souvenir que gocr
préférait 100 à 200 ppp) sinon, il a trop de détails et ajoute des
lettres...

  Computer Modern est sans doute une fonte trop complexe pour lui, cm
fait des ligatures (p.ex. fi est un seul caractère, d'où le « 6 »
résultant).

  Il faut travailler l'image avant de la passer. Faire des tests. Puis
utiliser un correcteur orthographique pour automatiser les corrections.
Puis relire.

Bon courage,
-- 
 Sylvain Sauvage



Reply to: