[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [un peu hs] Conversion PDF vers texte avec étiquetage des images



Bernard Schoenacker wrote on Thu, Jan 27, 2011 at 08:50:49AM +0100
> Le Wed, 26 Jan 2011 23:25:20 +0100,
> Dominique Asselineau <asseline@telecom-paristech.fr> a écrit :
> 
> > Bonjour,
> > 
> > Je cherche un moyen de convertir du PDF en texte tout en extrayant les
> > images et en conservant des étiquettes à leur place dans le texte.  En
> > d'autres termes je cherche à combiner les utilitaires pdftotext et
> > pdfimages mais en incluant dans le texte produit par pdftotext les
> > références vers les images extraites.
> > 
> > En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
> > fichier de configuration xpdfrc mais je n'ai rein remarqué.  Peut-être
> > faut-il combiner plusieurs paramètres pour obtenir cette
> > fonctionnalités ?
> > 
> > En pratique il s'agit d'extraire des notations de parties d'échecs,
> > lesquelles contiennent des figurines pour indiquer les pièces dans
> > l'énoncé même des parties.  Ces figurines pourraient être assimilées à
> > une fonte mais sans trop savoir comment m'y prendre.
> >  
> > Quelqu'un aurait-il l'expérience de ce type de traitement ?
> > J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
> > mais en vain.
> > 
> > dom
> 
> 
> bonjour,
> 
> 
> 
> 	voici mon idée :
> 
> 	-a) pdftohtml  (obtenir les images)

J'avais bien essayé justement pdftohtml en vain.  En fait, les
figurines de pièces d'échecs incluses dans le texte, sont représentées
non pas par des images mais par une fonte spécifique non retranscrite
par pdftotext.

Il faut donc que je trouve le moyen de mapper cette fonte dans quelque
chose récupérable par pdftotext.  Il m'a semblé voir des pistes dans
ce sens dans le man du fichier de conf xpdfrc.

dom
--


Reply to: