[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Umlaute



Mathias Brodala wrote:
Hallo Dawid.

welche kodierung sollte man nehmen utf-8?

Ich persönlich kann nur jedem dazu raten, ja. Diese Kodierung wird sich mit der
Zeit immer weiter verbreiten und uns noch recht lange begleiten.

wenn ich alle meine editoren
und browser in utf-8 habe werden dann alle zeichen dargestellt?

Ja. Alle Zeichen, die du eingibst.

und was
ist wenn jmd meine homepage anguckt und sein browser iso kodierung hat?
kommen dann auch fragezeichen?

Wenn jemand absichtlich die automatische Erkennung des Zeichensatzes bzw. der
Zeichenkodierung abschaltet und einen bestimmten Zeichensatz erzwingt, muss er
wissen, was er tut. Wenn es hier dann zu Fehldarstellungen (zum Beispiel in Form
des Ersatzzeichens [� – 0xfffd]) kommt, ist dies seine eigene Schuld.

Im Normalfall, wenn der korrekter Content-Type-Header vom Server versandt wurde
und mindestens eine Unicode-fähige Schriftart auf dem Client verfügbar ist,
sollte es zu keinen Problemen kommen.

Der Grund, warum die Nutzung von UTF-8 so scheinbar kompliziert erscheint, ist,
dass man hier im Gegensatz zum bisherigen Vorgehen nicht einfach nur den
Zeichensatz ändert.

Unter den üblichen Zeichensätzen sind die ersten 128 Zeichen identisch, weshalb
der Zeichensatz zumindest für diese Zeichen beliebig austauschbar ist. Erst ab
dem 129. Zeichen ist auch hier der korrekte Zeichensatz relevant, wenn die
jeweiligen Zeichen korrekt dargestellt werden sollen. Andernfalls wird ein
völlig anderes Zeichen angezeigt; eben das, was im jeweilig eingestellten
Zeichensatz für die jeweilige Bytesequenz festgelegt wurde. So ist das
„€“-Zeichen im ISO-8859-15-Zeichensatz ohne Probleme darstellbar. Doch schon
unter ISO-8859-1 wird daraus das allgemeine Währungssymbol „¤“.

Bei UTF-8 ist dies aber ganz anders. Hier werden erstmalig Multi-Bytesequenzen
eingeführt, womit ein um ein vielfaches größerer Raum an Zeichen abgedeckt wird.
Hierzu ist zwangsläufig eine von den gängigen Zeichensätzen gänzlich abweichende
Kodierung erforderlich. Aufgrund der Tatsache, dass einzelne Zeichen nun auch
mit mehreren Bytes abgespeichert werden, kommt es zu den üblichen
Fehlinterpretationen wie z. B. „Ä“ an Stelle von „Ä“, wenn das jeweilige
Dokument nicht korrekt als UTF-8 erkannt und ausgewertet wurde.

ok vielen dank genau das wollte ich wissen... am anfang von der debian installation kann man ja den zeichensatz auswählen g... wie kann ich das jetzt machen (wenn ich dort auf utf-8 umstelle übernehmen das dann auch die meisten anwendungen, oder?)? denn ich habe keine lust jedes einzelne programm auf utf8 umzustellen...

--
Mit freundlichen Grüßen
Dawid Szczepanski
----

    ASCII Ribbon Campaign
    against HTML email



Reply to: