[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [un peu hs] Conversion PDF vers texte avec étiquetage des images



Bonjour

peut-être une piste :
du temps ou je lisais beaucoup à propos de LaTex, il m'a semblé
croiser de la doc sur les polices "chess"
c'est surement l'une d'entre elles qui à été utilisée lors de la
génération de ton PDF

si tu as les sources de ces documents, ce sera sans pb

sinon, j'ai croisé quelques polices "chess" téléchargeables

et là, meme pas besoin de pdf2quelquechose, tu pourras sans doute
faire des chercher/remplacer avec OpenOffice

en espérant que ceci te donnera une piste

SC






Le 27 janvier 2011 13:07, Dominique Asselineau
<asseline@telecom-paristech.fr> a écrit :
> Bernard Schoenacker wrote on Thu, Jan 27, 2011 at 08:50:49AM +0100
>> Le Wed, 26 Jan 2011 23:25:20 +0100,
>> Dominique Asselineau <asseline@telecom-paristech.fr> a écrit :
>>
>> > Bonjour,
>> >
>> > Je cherche un moyen de convertir du PDF en texte tout en extrayant les
>> > images et en conservant des étiquettes à leur place dans le texte.  En
>> > d'autres termes je cherche à combiner les utilitaires pdftotext et
>> > pdfimages mais en incluant dans le texte produit par pdftotext les
>> > références vers les images extraites.
>> >
>> > En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
>> > fichier de configuration xpdfrc mais je n'ai rein remarqué.  Peut-être
>> > faut-il combiner plusieurs paramètres pour obtenir cette
>> > fonctionnalités ?
>> >
>> > En pratique il s'agit d'extraire des notations de parties d'échecs,
>> > lesquelles contiennent des figurines pour indiquer les pièces dans
>> > l'énoncé même des parties.  Ces figurines pourraient être assimilées à
>> > une fonte mais sans trop savoir comment m'y prendre.
>> >
>> > Quelqu'un aurait-il l'expérience de ce type de traitement ?
>> > J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
>> > mais en vain.
>> >
>> > dom
>>
>>
>> bonjour,
>>
>>
>>
>>       voici mon idée :
>>
>>       -a) pdftohtml  (obtenir les images)
>
> J'avais bien essayé justement pdftohtml en vain.  En fait, les
> figurines de pièces d'échecs incluses dans le texte, sont représentées
> non pas par des images mais par une fonte spécifique non retranscrite
> par pdftotext.
>
> Il faut donc que je trouve le moyen de mapper cette fonte dans quelque
> chose récupérable par pdftotext.  Il m'a semblé voir des pistes dans
> ce sens dans le man du fichier de conf xpdfrc.
>
> dom
> --
>
> --
> Lisez la FAQ de la liste avant de poser une question :
> http://wiki.debian.org/fr/FrenchLists
>
> Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
> vers debian-user-french-REQUEST@lists.debian.org
> En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
> Archive: [🔎] 20110127120737.GA19288@telecom-paristech.fr">http://lists.debian.org/[🔎] 20110127120737.GA19288@telecom-paristech.fr
>
>


Reply to: