[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Conversion de PDF en format texte



On Tue, Feb 22, 2005 at 12:09:30PM +0100, philippe L wrote:
> Bonjour,
> 
> Je cherche une appli qui transforme des PDF en fichier text, ou une
> norme standard le tous en ligne de commande ...
> çà existe ?

Ca depend beaucoup de l'origine du pdf. Le pdf gener'e par latex sera plus
difficile que celui gener'e par firefox->print. C'est li'e a des
consideratons de conception du module impression/conversion  l'appli d'origine, s'il supporte du postscript unicode ou pas , ou bien s'il inclut la police dans le code postscript gener'e ou l'int`egre sous forme d'images bitmaps de caracteres, ...

La "technique" garantie est de transformer le pdf en image 
(avec gs , device pbm), histoire de se liberer de son origine, 
et de faire passer un moteur OCR sur l'image. Ca depend quand meme de la precision de l'OCR en question.

Malheureusement, des OCRs sous linux, il y en a pas des milliers. Je connais gocr : http://jocr.sourceforge.net/

Nooks,



Reply to: