Re: Télécopies [était : OCR à documents écrits à la machine à écrire]
Alain Vaugham a écrit, vendredi 19 décembre 2008, à 03:00 :
> Bonsoir la liste,
bonjour,
> Je cherche un outil qui regarderai le contenu d'un fichier .tiff provenant
> de Hylafax et qui analyserai son contenu.
>
> Si le contenu est principalement constitué de textes - même en tableaux -
> cela signifie que c'est peut-être un fax légitime.
>
> Si le contenu est principalement constitué de grandes zones noires ou
> blanches avec peu de textes cela signifie que c'est sûrement un fax non
> sollicité.
>
> Connaitriez-vous un tel outil qui me permettrait d'améliorer grandement mon
> système de filtrage sur les faxs indésirables ?
Faute de trouver un filtre tout fait, l'histogramme d'un texte noir sur
blanc doit être assez caractéristique ?
N.B. en essayant « identify », j'ai noté que celui de graphicsmagick est
/beaucoup/ plus rapide... Sinon, il y a aussi gmic, dont la ligne de
commande est un peu rugueuse, mais offre des possibilités de calculs.
http://gmic.sf.net/
--
Jacques L'helgoualc'h
Reply to: