[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: sed: Problem mit Umlauten




Dann kamen die Osteuropäer, die Griechen, die Chinesen oder wen auch
immer Du für andere "exotische" Schriftzeichen als Schuldigen dazu
nehmen willst.  Deshalb wurde "utf-8" erfunden.  In "utf-8" werden
"exotische Zeichen" wie z.B. das "ä" in zwei oder mehr Bytes kodiert.
Ein bis vier Byte, wenn ich mich recht entsinne. Das höchste Bit gibt an,
ob das Zeichen noch ein weiteres Byte benötigt. Daher gehen ASCII-Zeichen
in einem Byte.

Jup:

martin@merkaba:~>  echo "a">  /tmp/a
martin@merkaba:~>  echo "ä">  /tmp/ä
martin@merkaba:~>  hd /tmp/a
00000000  61 0a                                             |a.|
00000002
martin@merkaba:~>  hd /tmp/ä
00000000  c3 a4 0a                                          |...|
00000003
martin@merkaba:~>
Vielleicht gibt man 7 utf-8 zusätzliche Erkenntnisse.


Reply to: