[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

[un peu hs] Conversion PDF vers texte avec étiquetage des images



Bonjour,

Je cherche un moyen de convertir du PDF en texte tout en extrayant les
images et en conservant des étiquettes à leur place dans le texte.  En
d'autres termes je cherche à combiner les utilitaires pdftotext et
pdfimages mais en incluant dans le texte produit par pdftotext les
références vers les images extraites.

En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
fichier de configuration xpdfrc mais je n'ai rein remarqué.  Peut-être
faut-il combiner plusieurs paramètres pour obtenir cette
fonctionnalités ?

En pratique il s'agit d'extraire des notations de parties d'échecs,
lesquelles contiennent des figurines pour indiquer les pièces dans
l'énoncé même des parties.  Ces figurines pourraient être assimilées à
une fonte mais sans trop savoir comment m'y prendre.
 
Quelqu'un aurait-il l'expérience de ce type de traitement ?
J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils mais 
en vain.

dom
-- 


Reply to: