[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: UTF-8



Hugo Wau skribis:

> Du hast mir sehr geholfen. Ich danke Dir. Das hilft wieder einmal dem
> Mgmt. zu zeigen, dass alles mehr Arbeit und aufwendiger ist, als das
> Mgmt vermutet.

Falls du das brauchst: Ich habe beruflich seit acht Jahren mit Zeichensätzen
und ihren Trauerspielen zu tun.

Es gibt im Grunde nur vier gebräuchliche Familien:

Telex
ASCII + sehr zahlreiche Verwandte
EBCDIC + zahlreiche Verwandte
Unicode in verschiedenen Varianten

Konvertierungen innerhalb und zwischen den Familien sind an der Tagesordnung.

Die Idee, Unicode oder UTF-8 als Basis einzusetzen, ist schon einmal eine sehr
gute. Zu glauben, dass allein damit alle Probleme gelöst sind, ist sehr naiv.

1. Dateisysteme können nicht alles verarbeiten. UTF-8 ist dabei deutlich
erfolgreicher als Unicode in 16/32 Bit, aber Umlaute werden von den
Programmen in Dateinamen selten richtig en- oder dekodiert.

2. Ebenso können die Inhalte von Dateien beliebig interpretiert werden.
Manchmal ist dafür das Betriebssystem zuständig, häufig aber auch nur eine
Applikation.

3. Verschiedene Zeichen können schon mal zu eckigen Kästchen werden, weil der
Font das nicht hergibt. Fünfmal hintereinander, dann ist das Wort richtig
unleserlich.

4. Unschön ist ganz sicher der häufige Fall, dass man auf der Tastatur gar
nicht eingeben kann, was man als Dateiname sieht. Ich brauche gar nicht auf
Chinesich oder Arabisch zu verweisen - Türkisch und Polnisch tun es auch.
Sehr peinlich für den Admin, er wenn die Datei nicht gezielt anpacken kann,
weil die Tastatur es nicht hergibt.

5. DBs in UTF-8 aufbauen ist eine gute Idee, aber Oracle 8i kann nur Unicode
2.0, 4.0 ist aber aktuell. Viele große Firmen haben aber noch 8i, weil es so
schön läuft.

6. FTP und Samba geraten bei Türkisch oder gar Chinesisch im Dateinamen ganz
sicher unter Stress - oder zumindest der Anwender.

7. Ein Umlaut ist eigentlich nie ein Umlaut, sondern nur purer Stress.
Einbyte-Zeichensätze, Multibyte-Zeichensätze, Zeichensätze mit variabler
Länge, MIME-Kodierung, XML-Entitäten,... Die automatische Umformung muss
reibungslos klappen, sonst geht es sehr schnell heiß her.

8. Wenn man es endlich auf dem Monitor hat, kann man sehr glücklich sein. Denn
jetzt darf man sich Vollzeit den Druckern widmen.

9. Nachdem die Basis stimmt, kommen die Applikationen dran, die UTF-8 gut bis
gar nicht unterstützen. Freie Software ist hier etwas weiter als
kommerzielle, aber durch schnittlich kann ich noch nicht das Prädikat "gut"
vergeben.

10. Die Anwender können in der Regel keine 20 Sprachen.

Alles in allem empfehle ich, trotzdem auf UTF-8 zu wechseln, damit endlich ein
wirtschaftlicher Leidensdruck, der ja zunehmend existiert, in eine Richtung
gelenkt wird. Dennoch muss man sich von dem Gedanken verabschieden, dass mit
der Umstellung auf diesen internationalen Zeichensatz alle Probleme gelöst
sind - man hat dann gerade den ersten großen Schritt getan.



Reply to: