[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Dateisysteme, Unicode, UTF-8 und Konvertierungsprobleme



Moin "Martin!
"Martin v. Löwis" schrieb am Friday, den 14. March 2003:

> >, kein
> >Dateisystem unterstützt Unicode, es gibt nicht mal eine interne
> >Zeichensatzdeklaration, die den Zeichensatz angibt. 
> 
> Falsch. Man kann gut UTF-8 in Dateinamen verwenden. In NFSv4 ist
> sogar festgelegt, dass Dateinamen in UTF-8 kodiert sind.

Doch. Mit Unterstützen meine ich richtige auf- und abwährtskompatible
Lösung. Das ist so nicht gegeben, der verwendete Zeichensatz wird
nirgendwo deklariert. Dass NFSv4 UTF-8 eindeutig vorschreibt ist dagegen
eine gute Tatsache.

> >Alphabete mit
> >nicht-lateinischen Zeichen wurden nach bestimmten Tabellen
> >(NLS-Zeichensätzen) in dem erweiterten (8-bit) ASCII verteilt. 
> 
> Falsch. Man kann sehr gut Multi-Byte-Zeichensätze in Dateisystemen 
> benutzen; davon wird auch intensive gebrauch gemacht.

Jain, sehr gut würde ich nicht dazu sagen, die Multi-Byte-Zeichensätze
verursachen im Prinzip die gleichen Probleme wie Unicode.

> >Während
> >Probleme mit Zeichensätzen den Windows-Usern spaetestens seit Win2k
> >fremd sind, müssen sich Linux-Benutzer noch lange Zeit damit plagen. 
> 
> Ich bin nicht sicher. Redhat 8 geht in die richtige Richtigung:
> Alle locales verwenden UTF-8, und das Problem ist gelöst.

Nur bedingt: was ist mit der Umwandlung der vorhandenen Dateinamen? Und
was ist mit Anwendungen, die nicht UTF-8-vorbereitet sind? Andererseits,
man kann den alten Kram aus der Distribution rausoperieren und das
Problem ist gelöst.

> >Man
> >ist in der Regel auf ein Zeichensatz beschränkt und muss die gesammte
> >Umgebung auf eine andere Locale umstellen (und ausserdem überall
> >händisch Fonts ändern, sofern das nicht durch Toolkits wie Gt
> >vereinheitlich ist), wenn man mit anderen Welten Kontakt aufnehmen will.
> 
> Falsch. Das hängt von der anderen Welt ab: In der Regel ist die Windows,
> und man kann für Dateisystemnamen die Mount-Optionen verwenden.

Doch. Um die Umstellung der Umgebung kommt man nicht herum. Wenn es
lediglich um die Dateinamen geht - die werden halt falsch angezeigt,
aber i.d.R. trotzdem angenommen.

> >Es gibt nähmlich keinen Mechanismus für Abwährtskompatiblität (wie in
> >Windows-XP), mit dem das System die Soll-Sprache einer Anwendung erkennt
> >und aus dem System-Internen Unicode automatisch mit der Soll-Sprache der
> >Anwendung kommuniziert.
> 
> Falsch. Es gibt verschiedene solcher Mechanismen, etwa das X-Clipboard.

Stimmt, das ist das wenigste.

> > - Bei nicht-lateinischen Zeichensätzen benötigen die Zeichen mehr
> >   Platz, somit schrumpft die maximale Stringlänge beim gleichbleibenden
> >   reelen Speicherplatz (z.B. in Dateinamen). Womit wir früher oder
> >   später auf ein anderes Problem zusteuern, Beschränkungen, die man
> >   z.B. von Joliet kennt (64Zeichen)
> 
> Falsch: Das hängt von den nicht-lateinischen Zeichen ab. Kyrillisch,
> Armenisch, Hebräisch usw. brauchen in UTF-8 geringfügig weniger Platz 
> als UCS-2 (wenn im Text Leerzeichen vorkommen).

Falsch. Z.B. kyrillische Zeichen verwenden andere Codes, auch wenn sie beinahe
identisch aussehen. Sieh selbst nach.

Gruss/Regards,
Eduard.
-- 
Wenn der Bauer das Schwein verhaut, hat es Scheiße wohl gebaut.



Reply to: