Re: Umlaute

To: debian-user-german@lists.debian.org
Subject: Re: Umlaute
From: Mathias Brodala <info@noctus.net>
Date: Thu, 31 Aug 2006 17:53:15 +0200
Message-id: <[🔎] 44F705EB.6030104@noctus.net>
In-reply-to: <[🔎] 44F70034.5020808@gmail.com>
References: <[🔎] 44F4B89B.7000202@gmail.com> <[🔎] 200608300014.13186.lists@block-online.eu> <44F5B7F6.3040606@gmail.com> <[🔎] 200608310124.13334.lists@block-online.eu> <[🔎] 44F696FC.1050807@xsiteing.de> <[🔎] 44F6C253.6050400@noctus.net> <[🔎] 44F70034.5020808@gmail.com>

Hallo Dawid.

> welche kodierung sollte man nehmen utf-8?

Ich persönlich kann nur jedem dazu raten, ja. Diese Kodierung wird sich mit der
Zeit immer weiter verbreiten und uns noch recht lange begleiten.

> wenn ich alle meine editoren
> und browser in utf-8 habe werden dann alle zeichen dargestellt?

Ja. Alle Zeichen, die du eingibst.

> und was
> ist wenn jmd meine homepage anguckt und sein browser iso kodierung hat?
> kommen dann auch fragezeichen?

Wenn jemand absichtlich die automatische Erkennung des Zeichensatzes bzw. der
Zeichenkodierung abschaltet und einen bestimmten Zeichensatz erzwingt, muss er
wissen, was er tut. Wenn es hier dann zu Fehldarstellungen (zum Beispiel in Form
des Ersatzzeichens [� – 0xfffd]) kommt, ist dies seine eigene Schuld.

Im Normalfall, wenn der korrekter Content-Type-Header vom Server versandt wurde
und mindestens eine Unicode-fähige Schriftart auf dem Client verfügbar ist,
sollte es zu keinen Problemen kommen.

Der Grund, warum die Nutzung von UTF-8 so scheinbar kompliziert erscheint, ist,
dass man hier im Gegensatz zum bisherigen Vorgehen nicht einfach nur den
Zeichensatz ändert.

Unter den üblichen Zeichensätzen sind die ersten 128 Zeichen identisch, weshalb
der Zeichensatz zumindest für diese Zeichen beliebig austauschbar ist. Erst ab
dem 129. Zeichen ist auch hier der korrekte Zeichensatz relevant, wenn die
jeweiligen Zeichen korrekt dargestellt werden sollen. Andernfalls wird ein
völlig anderes Zeichen angezeigt; eben das, was im jeweilig eingestellten
Zeichensatz für die jeweilige Bytesequenz festgelegt wurde. So ist das
„€“-Zeichen im ISO-8859-15-Zeichensatz ohne Probleme darstellbar. Doch schon
unter ISO-8859-1 wird daraus das allgemeine Währungssymbol „¤“.

Bei UTF-8 ist dies aber ganz anders. Hier werden erstmalig Multi-Bytesequenzen
eingeführt, womit ein um ein vielfaches größerer Raum an Zeichen abgedeckt wird.
Hierzu ist zwangsläufig eine von den gängigen Zeichensätzen gänzlich abweichende
Kodierung erforderlich. Aufgrund der Tatsache, dass einzelne Zeichen nun auch
mit mehreren Bytes abgespeichert werden, kommt es zu den üblichen
Fehlinterpretationen wie z. B. „Ã„“ an Stelle von „Ä“, wenn das jeweilige
Dokument nicht korrekt als UTF-8 erkannt und ausgewertet wurde.

So paradox es klingen mag: man muss einen höheren Aufwand (konsequente
Verwendung) betreiben, um sich Aufwand (Umschreibung von Sonderzeichen) zu ersparen.


Gruß, Mathias

Attachment: signature.asc
Description: OpenPGP digital signature

Reply to:

Follow-Ups:
- Re: Umlaute
  - From: Dawid Szczepanski <virox1987@googlemail.com>

References:
- Umlaute
  - From: Dawid Szczepanski <virox1987@googlemail.com>
- Re: Umlaute
  - From: Oliver Block <lists@block-online.eu>
- Re: Umlaute
  - From: Oliver Block <lists@block-online.eu>
- Re: Umlaute
  - From: Joerg Zimmermann <j.zimmermann@xsiteing.de>
- Re: Umlaute
  - From: Mathias Brodala <info@noctus.net>
- Re: Umlaute
  - From: Dawid Szczepanski <virox1987@googlemail.com>

Prev by Date: Re: ssh und X funktionieren nicht
Next by Date: Re: ypbind auf NIS-Client
Previous by thread: Re: Umlaute
Next by thread: Re: Umlaute
Index(es):
- Date
- Thread