[un peu hs] Conversion PDF vers texte avec étiquetage des images
Bonjour,
Je cherche un moyen de convertir du PDF en texte tout en extrayant les
images et en conservant des étiquettes à leur place dans le texte. En
d'autres termes je cherche à combiner les utilitaires pdftotext et
pdfimages mais en incluant dans le texte produit par pdftotext les
références vers les images extraites.
En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
fichier de configuration xpdfrc mais je n'ai rein remarqué. Peut-être
faut-il combiner plusieurs paramètres pour obtenir cette
fonctionnalités ?
En pratique il s'agit d'extraire des notations de parties d'échecs,
lesquelles contiennent des figurines pour indiquer les pièces dans
l'énoncé même des parties. Ces figurines pourraient être assimilées à
une fonte mais sans trop savoir comment m'y prendre.
Quelqu'un aurait-il l'expérience de ce type de traitement ?
J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils mais
en vain.
dom
--
Reply to: