Re: Dateisysteme, Unicode, UTF-8 und Konvertierungsprobleme

To: debian-user-german@lists.debian.org
Subject: Re: Dateisysteme, Unicode, UTF-8 und Konvertierungsprobleme
From: "Martin v. Löwis" <martin@v.loewis.de>
Date: Sat, 15 Mar 2003 01:28:05 +0100
Message-id: <[🔎] 3E727395.1090800@v.loewis.de>
In-reply-to: <20030314141027$00d6@gated-at.bofh.it>
References: <20030314141027$6ac5@gated-at.bofh.it> <20030314141027$7327@gated-at.bofh.it> <20030314141027$233d@gated-at.bofh.it> <20030314141027$4182@gated-at.bofh.it> <20030314141027$3e90@gated-at.bofh.it> <20030314141027$406b@gated-at.bofh.it> <20030314141027$2559@gated-at.bofh.it> <20030314141027$3ff3@gated-at.bofh.it> <20030314141027$00d6@gated-at.bofh.it>

Eduard Bloch wrote:

Ich bin nicht sicher. Redhat 8 geht in die richtige Richtigung:
Alle locales verwenden UTF-8, und das Problem ist gelöst.
Nur bedingt: was ist mit der Umwandlung der vorhandenen Dateinamen?

Die muss man konvertieren (durch Umbenennung). Gewisse Probleme mitmojibake wird man nicht vermeiden können - allerdings sind andereSysteme da auch nicht besser; unter Windows sind beispielsweise nach wievor *zwei* Zeichensätze in Verwendung: der Zeichensatz imTerminalfenster (OEMCP) ist ein anderer als der im Window-Teil (ACP).

Und
was ist mit Anwendungen, die nicht UTF-8-vorbereitet sind?


An welche denkst Du da genau? Alle meine Anwendungen, die irgendwie
mit Dateinamen zu tun haben, kommen gut mit beliebigen Kodierungen
derselben klar: Entweder ist es ihnen egal, weil sie die sowieso
nur weiterreichen (etwa /bin/ls), oder aber entsprechend der locale
darstellen (Gnome, etc).

Ein gewisses mojibake muss man vermutlich wiederum akzeptieren, bis
die restlichen Bugs gefixt sind: Auch unter Windows haben viele

Programme Schwierigkeiten mit Dateinamen, die in ACP nichtrepräsentierbar sind; diese Programme erhalten dann Fragezeichen

anstelle der eigentlichen Zeichen.

- Bei nicht-lateinischen Zeichensätzen benötigen die Zeichen mehr
 Platz, somit schrumpft die maximale Stringlänge beim gleichbleibenden
 reelen Speicherplatz (z.B. in Dateinamen). Womit wir früher oder
 später auf ein anderes Problem zusteuern, Beschränkungen, die man
 z.B. von Joliet kennt (64Zeichen)


Falsch: Das hängt von den nicht-lateinischen Zeichen ab. Kyrillisch,

Armenisch, Hebräisch usw. brauchen in UTF-8 geringfügig weniger Platzals UCS-2 (wenn im Text Leerzeichen vorkommen).



Falsch. Z.B. kyrillische Zeichen verwenden andere Codes, auch wenn sie beinahe
identisch aussehen. Sieh selbst nach.

Hab ich doch gemacht: Nehmen wir als Beispiel CYRILLIC CAPITAL LETTERZHE, U+0416. In UCS-2 ist das \x04\x16, in UTF-8 ist es \xd0\x96.

In beiden Fällen zwei Byte. An welches Zeichen dachtest Du?

Ciao,
Martin

Reply to:

Prev by Date: Re: up/downgrade Frage
Next by Date: Re: up/downgrade Frage
Previous by thread: Re: Dateisysteme, Unicode, UTF-8 und Konvertierungsprobleme
Next by thread: Debian-Perl-Module mit lokalem Perl verwenden
Index(es):
- Date
- Thread