[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [un peu hs] Conversion PDF vers texte avec étiquetage des images



Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau <asseline@telecom-paristech.fr> a écrit :

> Bonjour,
> 
> Je cherche un moyen de convertir du PDF en texte tout en extrayant les
> images et en conservant des étiquettes à leur place dans le texte.  En
> d'autres termes je cherche à combiner les utilitaires pdftotext et
> pdfimages mais en incluant dans le texte produit par pdftotext les
> références vers les images extraites.
> 
> En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
> fichier de configuration xpdfrc mais je n'ai rein remarqué.  Peut-être
> faut-il combiner plusieurs paramètres pour obtenir cette
> fonctionnalités ?
> 
> En pratique il s'agit d'extraire des notations de parties d'échecs,
> lesquelles contiennent des figurines pour indiquer les pièces dans
> l'énoncé même des parties.  Ces figurines pourraient être assimilées à
> une fonte mais sans trop savoir comment m'y prendre.
>  
> Quelqu'un aurait-il l'expérience de ce type de traitement ?
> J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
> mais en vain.
> 
> dom


bonjour,



	voici mon idée :

	-a) pdftohtml  (obtenir les images)
	-b) ps2ascii   ( obtenir le texte )

	l'autre analyse consisterai à utiliser une feuille de style 
	xml et de basculer sur xmlto

	tout dépend de l'origine du document et comment il a été générer


	slt
	bernard



Reply to: