Hallo Dawid. > welche kodierung sollte man nehmen utf-8? Ich persönlich kann nur jedem dazu raten, ja. Diese Kodierung wird sich mit der Zeit immer weiter verbreiten und uns noch recht lange begleiten. > wenn ich alle meine editoren > und browser in utf-8 habe werden dann alle zeichen dargestellt? Ja. Alle Zeichen, die du eingibst. > und was > ist wenn jmd meine homepage anguckt und sein browser iso kodierung hat? > kommen dann auch fragezeichen? Wenn jemand absichtlich die automatische Erkennung des Zeichensatzes bzw. der Zeichenkodierung abschaltet und einen bestimmten Zeichensatz erzwingt, muss er wissen, was er tut. Wenn es hier dann zu Fehldarstellungen (zum Beispiel in Form des Ersatzzeichens [� – 0xfffd]) kommt, ist dies seine eigene Schuld. Im Normalfall, wenn der korrekter Content-Type-Header vom Server versandt wurde und mindestens eine Unicode-fähige Schriftart auf dem Client verfügbar ist, sollte es zu keinen Problemen kommen. Der Grund, warum die Nutzung von UTF-8 so scheinbar kompliziert erscheint, ist, dass man hier im Gegensatz zum bisherigen Vorgehen nicht einfach nur den Zeichensatz ändert. Unter den üblichen Zeichensätzen sind die ersten 128 Zeichen identisch, weshalb der Zeichensatz zumindest für diese Zeichen beliebig austauschbar ist. Erst ab dem 129. Zeichen ist auch hier der korrekte Zeichensatz relevant, wenn die jeweiligen Zeichen korrekt dargestellt werden sollen. Andernfalls wird ein völlig anderes Zeichen angezeigt; eben das, was im jeweilig eingestellten Zeichensatz für die jeweilige Bytesequenz festgelegt wurde. So ist das „€“-Zeichen im ISO-8859-15-Zeichensatz ohne Probleme darstellbar. Doch schon unter ISO-8859-1 wird daraus das allgemeine Währungssymbol „¤“. Bei UTF-8 ist dies aber ganz anders. Hier werden erstmalig Multi-Bytesequenzen eingeführt, womit ein um ein vielfaches größerer Raum an Zeichen abgedeckt wird. Hierzu ist zwangsläufig eine von den gängigen Zeichensätzen gänzlich abweichende Kodierung erforderlich. Aufgrund der Tatsache, dass einzelne Zeichen nun auch mit mehreren Bytes abgespeichert werden, kommt es zu den üblichen Fehlinterpretationen wie z. B. „Ó an Stelle von „Ä“, wenn das jeweilige Dokument nicht korrekt als UTF-8 erkannt und ausgewertet wurde. So paradox es klingen mag: man muss einen höheren Aufwand (konsequente Verwendung) betreiben, um sich Aufwand (Umschreibung von Sonderzeichen) zu ersparen. Gruß, Mathias
Attachment:
signature.asc
Description: OpenPGP digital signature