[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: problème avec locales



jipe, jeudi 12 mars 2009, 16:48:02 CET
> 
> Klaus Becker a écrit :
>[…]
> >>> Je crée avec OOo un petit fichier avec des accents français, et j'en fais
> >>> ensuite un fichier pdf. Problème : les lettres comme é,à,ç etc sont
> >>> affichées comme ���.
>[…]
> >>> Est-ce que le problème vient de pdftotext ? Que puis-je faire ?
>[…]
> > le problème n'est pas OO. Le fichier pdf est bon, c'est le fichier *txt 
> > résultant de pdftote où je trouve les ���.
>[…]
> ok, capito; mais pourquoi pas faire un fichier .txt directement à partir 
> du fichier .ods, dans ce cas ?

  Oui, hein, déjà ;o)

  Au passage, générer plusieurs locales ne change strictement
rien : pour qu’un terminal affiche correctement des caractères,
il faut qu’il soit dans le même charset que ces caractères (ou
alors le terminal est très malin) ; les locales correspondent aux
messages (discutailles, erreurs…) des programmes, pas aux
charsets, pas aux capacités du terminal.

  Bon, donc, tu es en utf-8 (sinon tu ne te plaindrais d’avoir
des ��� mais des é), et le texte généré par pdftotext est en
latin9 (ou pas loin). Je vois deux possibilités :
  1. le PDF lui-même ne contient que du latin9 (parce que c’est
plus simple que de l’unicode, parce que le texte ne contient
aucun autre caractère donc il colle au plus juste…), et
pdftotext ne donne que ce qu’il voit ;
  2. pdftotext fait tout seul la conversion des caractères dans
un charset qui n’est même pas le charset de la locale.

  Franchement, pour paraphraser Desproges, le 1. m’étonnerait un
peu, le 2. m’étonnerait quand même beaucoup (surtout que, chez
moi, pdftotext me sort bien de l’utf-8, en partant pourtant d’un
.tex en latin9).

  Quelqu’un a un 3 ?

-- 
 Sylvain Sauvage


Reply to: