[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Télécopies [était : OCR à documents écrits à la machine à écrire]



Alain Vaugham a écrit, vendredi 19 décembre 2008, à 03:00 :
> Bonsoir la liste,

bonjour,

> Je cherche un outil qui regarderai le contenu d'un fichier .tiff provenant 
> de Hylafax et qui analyserai son contenu.
> 
> Si le contenu est principalement constitué de textes - même en tableaux - 
> cela signifie que c'est peut-être un fax légitime.
> 
> Si le contenu est principalement constitué de grandes zones noires ou 
> blanches avec peu de textes cela signifie que c'est sûrement un fax non 
> sollicité.
> 
> Connaitriez-vous un tel outil qui me permettrait d'améliorer grandement mon 
> système de filtrage sur les faxs indésirables ?

Faute de trouver un filtre  tout fait, l'histogramme d'un texte noir sur
blanc doit être assez caractéristique ?

N.B. en essayant « identify », j'ai noté que celui de graphicsmagick est
/beaucoup/ plus  rapide... Sinon, il  y a aussi  gmic, dont la  ligne de
commande est un peu rugueuse, mais offre des possibilités de calculs.
http://gmic.sf.net/
-- 
Jacques L'helgoualc'h


Reply to: