Re: Dateisysteme, Unicode, UTF-8 und Konvertierungsprobleme
Moin "Martin!
"Martin v. Löwis" schrieb am Friday, den 14. March 2003:
> >, kein
> >Dateisystem unterstützt Unicode, es gibt nicht mal eine interne
> >Zeichensatzdeklaration, die den Zeichensatz angibt.
>
> Falsch. Man kann gut UTF-8 in Dateinamen verwenden. In NFSv4 ist
> sogar festgelegt, dass Dateinamen in UTF-8 kodiert sind.
Doch. Mit Unterstützen meine ich richtige auf- und abwährtskompatible
Lösung. Das ist so nicht gegeben, der verwendete Zeichensatz wird
nirgendwo deklariert. Dass NFSv4 UTF-8 eindeutig vorschreibt ist dagegen
eine gute Tatsache.
> >Alphabete mit
> >nicht-lateinischen Zeichen wurden nach bestimmten Tabellen
> >(NLS-Zeichensätzen) in dem erweiterten (8-bit) ASCII verteilt.
>
> Falsch. Man kann sehr gut Multi-Byte-Zeichensätze in Dateisystemen
> benutzen; davon wird auch intensive gebrauch gemacht.
Jain, sehr gut würde ich nicht dazu sagen, die Multi-Byte-Zeichensätze
verursachen im Prinzip die gleichen Probleme wie Unicode.
> >Während
> >Probleme mit Zeichensätzen den Windows-Usern spaetestens seit Win2k
> >fremd sind, müssen sich Linux-Benutzer noch lange Zeit damit plagen.
>
> Ich bin nicht sicher. Redhat 8 geht in die richtige Richtigung:
> Alle locales verwenden UTF-8, und das Problem ist gelöst.
Nur bedingt: was ist mit der Umwandlung der vorhandenen Dateinamen? Und
was ist mit Anwendungen, die nicht UTF-8-vorbereitet sind? Andererseits,
man kann den alten Kram aus der Distribution rausoperieren und das
Problem ist gelöst.
> >Man
> >ist in der Regel auf ein Zeichensatz beschränkt und muss die gesammte
> >Umgebung auf eine andere Locale umstellen (und ausserdem überall
> >händisch Fonts ändern, sofern das nicht durch Toolkits wie Gt
> >vereinheitlich ist), wenn man mit anderen Welten Kontakt aufnehmen will.
>
> Falsch. Das hängt von der anderen Welt ab: In der Regel ist die Windows,
> und man kann für Dateisystemnamen die Mount-Optionen verwenden.
Doch. Um die Umstellung der Umgebung kommt man nicht herum. Wenn es
lediglich um die Dateinamen geht - die werden halt falsch angezeigt,
aber i.d.R. trotzdem angenommen.
> >Es gibt nähmlich keinen Mechanismus für Abwährtskompatiblität (wie in
> >Windows-XP), mit dem das System die Soll-Sprache einer Anwendung erkennt
> >und aus dem System-Internen Unicode automatisch mit der Soll-Sprache der
> >Anwendung kommuniziert.
>
> Falsch. Es gibt verschiedene solcher Mechanismen, etwa das X-Clipboard.
Stimmt, das ist das wenigste.
> > - Bei nicht-lateinischen Zeichensätzen benötigen die Zeichen mehr
> > Platz, somit schrumpft die maximale Stringlänge beim gleichbleibenden
> > reelen Speicherplatz (z.B. in Dateinamen). Womit wir früher oder
> > später auf ein anderes Problem zusteuern, Beschränkungen, die man
> > z.B. von Joliet kennt (64Zeichen)
>
> Falsch: Das hängt von den nicht-lateinischen Zeichen ab. Kyrillisch,
> Armenisch, Hebräisch usw. brauchen in UTF-8 geringfügig weniger Platz
> als UCS-2 (wenn im Text Leerzeichen vorkommen).
Falsch. Z.B. kyrillische Zeichen verwenden andere Codes, auch wenn sie beinahe
identisch aussehen. Sieh selbst nach.
Gruss/Regards,
Eduard.
--
Wenn der Bauer das Schwein verhaut, hat es Scheiße wohl gebaut.
Reply to: