[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

[HS] A la recherche d'un encodage



Bonjour la liste

J'ai récupéré un fichier en ".txt" dont je ne parviens pas à trouver l'encodage.

Extrait de la sortie de 'od -xc --endian=big'

0000000    5469    7472    6520    6f72    6967    696e    616c    0954
          T   i   t   r   e       o   r   i   g   i   n   a   l  \t   T
0000020    6974    7265    2066    7261    6e8d    6169    7309    528e
          i   t   r   e       f   r   a   n 215   a   i   s  \t   R 216
0000040    616c    6973    6174    6575    7209    436f    756c    6575
          a   l   i   s   a   t   e   u   r  \t   C   o   u   l   e   u
0000060    7220    6574    2046    6f72    6d61    7409    416e    6e8e
          r       e   t       F   o   r   m   a   t  \t   A   n   n 216
0000100    6520    6574    2050    6179    7309    5675    203f    2066
          e       e   t       P   a   y   s  \t   V   u       ?       f

Je suppose donc que le code "215" (8d) correspond au ç et le 216 (8e) au é

J'ai tenté quelques commandes :

file -> data

file -bi -> application/octet-stream; charset=binary

chardetect -> Windows-1254 with confidence 0.549694044361


Ne trouvant pas l'encodage j'ai tenté de faire un peu de brute force :

for f in $(iconv --list); do c=$(echo "$f" | cut -d'/' -f 1); iconv -f $c -t utf8 f.txt &> /dev/null | grep français && echo $c;done

donne rien, en revanche j'ai avec : for f in $(iconv --list); do c=$(echo "$f" | cut -d'/' -f 1); iconv -f $c -t utf8 f.txt &> /dev/null | grep franآچais && echo $c;done

franآچais
CP1256
franآچais
CP9448
franآچais
CSIBM9448
franآچais
IBM-9448
franآچais
IBM9448
franآچais
MS-ARAB
franآچais
WINDOWS-1256


Auriez-vous des pistes...




Reply to: