Re: [un peu hs] Conversion PDF vers texte avec étiquetage des images

To: debian-user-french@lists.debian.org
Subject: Re: [un peu hs] Conversion PDF vers texte avec étiquetage des images
From: Bernard Schoenacker <bernard.schoenacker@free.fr>
Date: Thu, 27 Jan 2011 08:50:49 +0100
Message-id: <[🔎] 20110127085049.4ff3713a.bernard.schoenacker_free.fr@hamtaro>
In-reply-to: <[🔎] 20110126222520.GA5969@telecom-paristech.fr>
References: <[🔎] 20110126222520.GA5969@telecom-paristech.fr>

Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau <asseline@telecom-paristech.fr> a écrit :

> Bonjour,
> 
> Je cherche un moyen de convertir du PDF en texte tout en extrayant les
> images et en conservant des étiquettes à leur place dans le texte.  En
> d'autres termes je cherche à combiner les utilitaires pdftotext et
> pdfimages mais en incluant dans le texte produit par pdftotext les
> références vers les images extraites.
> 
> En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
> fichier de configuration xpdfrc mais je n'ai rein remarqué.  Peut-être
> faut-il combiner plusieurs paramètres pour obtenir cette
> fonctionnalités ?
> 
> En pratique il s'agit d'extraire des notations de parties d'échecs,
> lesquelles contiennent des figurines pour indiquer les pièces dans
> l'énoncé même des parties.  Ces figurines pourraient être assimilées à
> une fonte mais sans trop savoir comment m'y prendre.
>  
> Quelqu'un aurait-il l'expérience de ce type de traitement ?
> J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
> mais en vain.
> 
> dom


bonjour,



	voici mon idée :

	-a) pdftohtml  (obtenir les images)
	-b) ps2ascii   ( obtenir le texte )

	l'autre analyse consisterai à utiliser une feuille de style 
	xml et de basculer sur xmlto

	tout dépend de l'origine du document et comment il a été générer


	slt
	bernard

Reply to:

Follow-Ups:
- Re: [un peu hs] Conversion PDF vers texte avec étiquetage des images
  - From: Dominique Asselineau <asseline@telecom-paristech.fr>

References:
- [un peu hs] Conversion PDF vers texte avec étiquetage des images
  - From: Dominique Asselineau <asseline@telecom-paristech.fr>

Prev by Date: Re: PB APN nonreconnu
Next by Date: Re: PB APN nonreconnu
Previous by thread: [un peu hs] Conversion PDF vers texte avec étiquetage des images
Next by thread: Re: [un peu hs] Conversion PDF vers texte avec étiquetage des images
Index(es):
- Date
- Thread