[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: UTF-8



On Mon, Aug 18, 2003 at 05:03:09PM +0200, Rüdiger Noack wrote:
> Wolfgang Bornath wrote:
> >freuen. Die alleinige Benutzung von UTF halte ich z.Zt. für suboptimal,
> >wenn es um die Kommunikation in größeren Gruppen geht.
> >
> >Es ist mir bewusst, das das kein idealer aber dafür ein pragmatischer
> >Standpunkt ist.
> >
> Sehe ich ebenso.
> Ganz simples Beispiel: Ich lese diese Liste auch über das Archiv [1], 
> weil NNTP an manchen (Arbeits-) Plätzen vom Proxy geblockt wird.
> Mein Browser bekommt nichts davon mit, dass ihm eine UTF-8-mail 
> angeboten wird. Ich hätte auch keine Idee, wie ich ihm das beibringen 
> soll, dass dieser oder jener Artikel eine _korrekt_ codierte UTF-8-mail 
> ist.
> Ich rede hier nicht von irgendeinem Outlook-Zeugs (auf das so gern als 
> Ursache für kaputte Darstellung verwiesen wird), sondern von *unseren* 
> mails in *unserem* Archiv.
> 
> Ich sagte neulich schon, dass ich Unicode auf Systemebene (meist) für 
> überflüssig halte. Ich denke mit Grausen an die Vorstellung, die Anzahl 
> der Zeichen in einer Unicode-Datei (Datei soll hier für einen 
> unformatierten, mit einem Editor erstellten einfachen Text, z.B. ein 
> Script, stehen) zu ermitteln. Neue Optionen für wc und Co.? Einerseits 
> sollen mails (IMHO aus gutem Grund) möglichst einfach (ASCII) erstellt 
> werden, andererseits denkt man über eine Systemumstellung nach Unicode 
> nach. Ziemlich paradox dies...
> 
> Gruß
> Rüdiger
> 

Hi all,

ich habe die Diskussion um die Zeichensätze mit regem Interesse
verfolgt. Ich finde die Problematik auch nicht unbedingt trivial.
Einerseits möchte man ökonomisch sein und mit 7 oder 8 bits pro
Zeichen so viel wie möglich abdecken, andererseits will man
sicher gehen, daß das Geschriebene auch gelesen werden kann.
Deshalb ist die Reihenfolge
us-ascii:iso-8859-1:iso-8859-15:iso-8859-2:utf-8 auch durchaus
sinnvoll und logisch. Irgendwo gibt es einen kleinsten
gemeinsamen Nenner. 

Es gibt aber trotzdem auch Probleme. Mein Problem sind die
ungarischen Zeichensätze. Normalerweise iso-8859-2.
Wo würde der denn in die Reihenfolge oben reinpassen?
Aber das Codieren der Mail mit iso-8859-2 nicht mal unbedingt das
schwierige. Ich habe mehr probleme iso-8859-2 codierte Mails zu
lesen. Mutt könnte die Mail zwar richtig darstellen, aber dafür
muss ich schon Xterm mit dem richtigen Zeichensatz gestartet
haben... Ist das jedoch der Fall, kann ich in der nächsten Mail,
die iso-8859-15 codiert ist das € (EUR)-Symbol nicht mehr darstellen.
Dafür müsste ich Xtem mit iso-8859-15 Zeichensatz starten.
Gott sei Dank  giebt es die .Xresources mit der schönen Möglichkeit
für Xterm verschiedene Zeichensätze zu definieren und je nach
Bedarf, also "on-the-fly" für Xterm den Zeichensatz zu ändern.

Also, wenn die ganze Thematik für die reinen Deutschsprachigen so
verwirrend ist, was sollen da Leute sagen, die neben deutsch auch
noch ne schöne Fremdschprach sprechen? Vielleicht Kyrillische
zeichensätze genauso oft benötigen wie us-ascii?

Deswegen wäre es schon wünschenswert, dass unicode sich mehr
verbreitet. Auch wenn manches vielleicht paradox ist...


-- 

Gerhard Hotz <gerhard.hotz@gmx.net>

Attachment: pgpFBpvIDUC6p.pgp
Description: PGP signature


Reply to: