Re: [un peu hs] Conversion PDF vers texte avec étiquetage des images
Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau <asseline@telecom-paristech.fr> a écrit :
> Bonjour,
>
> Je cherche un moyen de convertir du PDF en texte tout en extrayant les
> images et en conservant des étiquettes à leur place dans le texte. En
> d'autres termes je cherche à combiner les utilitaires pdftotext et
> pdfimages mais en incluant dans le texte produit par pdftotext les
> références vers les images extraites.
>
> En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
> fichier de configuration xpdfrc mais je n'ai rein remarqué. Peut-être
> faut-il combiner plusieurs paramètres pour obtenir cette
> fonctionnalités ?
>
> En pratique il s'agit d'extraire des notations de parties d'échecs,
> lesquelles contiennent des figurines pour indiquer les pièces dans
> l'énoncé même des parties. Ces figurines pourraient être assimilées à
> une fonte mais sans trop savoir comment m'y prendre.
>
> Quelqu'un aurait-il l'expérience de ce type de traitement ?
> J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
> mais en vain.
>
> dom
bonjour,
voici mon idée :
-a) pdftohtml (obtenir les images)
-b) ps2ascii ( obtenir le texte )
l'autre analyse consisterai à utiliser une feuille de style
xml et de basculer sur xmlto
tout dépend de l'origine du document et comment il a été générer
slt
bernard
Reply to: