[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Format libre pour document texte ????



On 2003-10-08 13:00:54 +0100, Yves Rutschle wrote:
> Donc effectivement ces accents là ne passent pas, par contre
> la structure est bonne. La version que j'ai est 1.00.

La version de pdftotext? J'ai la 2.02pl1 (provenant de xpdf-utils
version 2.02pl1-1, d'une distrib unstable mise à jour ce matin).

J'ai remarqué qu'il y avait une option -layout, ce qui donne:

test ´e`e^e¨e
test ^a^i^o^u
test `a`u¨i¸c




                 1

Je suppose que le PDF ne doit contenir aucune information
structurelle. Pour les accents, il n'y a peut-être pas de
caractères accentués dans la fonte ou quelque chose du genre,
ce qui expliquerait ce qui est généré. Ça se voit en Postscript:

TeXDict begin 1 0 bop 1179 1146 a Fa(test)54 b(\023)-86
b(e)-5 b(\022)-86 b(e)-5 b(^)-86 b(e)1771 1154 y(\177)1776
1146 y(e)1179 1372 y(test)59 b(^)-91 b(a)-20 b(^)-71
b(\020^)-91 b(o)5 b(^)-96 b(u)1179 1597 y(test)59 b(\022)-91
b(a)5 b(\022)-96 b(u)1705 1605 y(\177)1725 1597 y(\020\030)-81
b(c)3840 10451 y(1)p eop end

D'où la première ligne, correspondant à:

  (test)(\023)(e)(\022)(e)(^)(e)(\177)(e)

Je suppose qu'il doit aussi y avoir des problèmes pour y effectuer
une recherche de texte... Bref, le PDF (comme le Postscript) reste
essentiellement un format pour impression ou visualisation sur
écran graphique ou autres médias de ce genre. Le reste est plus ou
moins de la bidouille.

-- 
Vincent Lefèvre <vincent@vinc17.org> - Web: <http://www.vinc17.org/> - 100%
validated (X)HTML - Acorn Risc PC, Yellow Pig 17, Championnat International
des Jeux Mathématiques et Logiques, TETRHEX, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA



Reply to: