Bonjour la liste
J'ai récupéré un fichier en ".txt" dont je ne parviens pas à trouver l'encodage.
Extrait de la sortie de 'od -xc --endian=big'
0000000 5469 7472 6520 6f72 6967 696e 616c 0954 T i t r e o r i g i n a l \t T 0000020 6974 7265 2066 7261 6e8d 6169 7309 528e i t r e f r a n 215 a i s \t R 216 0000040 616c 6973 6174 6575 7209 436f 756c 6575 a l i s a t e u r \t C o u l e u 0000060 7220 6574 2046 6f72 6d61 7409 416e 6e8e r e t F o r m a t \t A n n 216 0000100 6520 6574 2050 6179 7309 5675 203f 2066 e e t P a y s \t V u ? f
Je suppose donc que le code "215" (8d) correspond au ç et le 216
(8e) au é
J'ai tenté quelques commandes :
file -> data
file -bi -> application/octet-stream; charset=binary
chardetect -> Windows-1254 with confidence 0.549694044361
Ne trouvant pas l'encodage j'ai tenté de faire un peu de brute force :
for f in $(iconv --list); do c=$(echo "$f" | cut -d'/' -f 1); iconv -f $c -t utf8 f.txt &> /dev/null | grep français && echo $c;done
donne rien, en revanche j'ai avec : for f in $(iconv --list); do
c=$(echo "$f" | cut -d'/' -f 1); iconv -f $c -t utf8 f.txt
&> /dev/null | grep franآچais && echo $c;done
franآچais
CP1256
franآچais
CP9448
franآچais
CSIBM9448
franآچais
IBM-9448
franآچais
IBM9448
franآچais
MS-ARAB
franآچais
WINDOWS-1256
Auriez-vous des pistes...