[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: utf-8, Dateinamen, Umlaute, cddb



On 20.Apr 2005 - 15:39:23, Grischa Stegemann wrote:
> Ich habe mit Debian Sarge irgendwie nervige Probleme mit diesem ganzen
> utf-8-Kram:

Wer hat die nicht - wir müssen halt damit leben, dass nicht alle
Programme UTF-8 fähig sind.

> Zu einer neuen Audio-CD holt sich Kscd (grip, xmms, was auch immer) eine neue
> cddb-Datei und legt diese unter ~/.cddb ab. 
> Die jeweiligen Programme zeigen auch alle Umlaute in den cddb-Eintraegen richtig
> an. Doch weitere Anwendungen machen arge Probleme. Es faengt damit an, dass ich
> schon beim Anschauen oder Editieren so einer cddb-Datei (less, jmacs) die
> Umlaute nicht mehr sehen kann, sondern diese durch jeweils 2 unsinnige Zeichen
> ersetzt sind.

Für less gilt: Die Shell in der du less aufrufst, hat LANG!=*.UTF-8, ob
jmacs UTF-8 Unterstützung hat oder nicht weiss ich nicht. Wenn ja, dann
gilt für den dasselbe - die Umgebungsvariablen die beim Start des
Programms aktiv sind sind nicht passend gesetzt.

> Demzufolge kann auch Latex, aufgerufen von disc-cover mit so einem Input nichts
> mehr anfangen.

Oh doch, allerdings muss man IIRC dafür etwas bestimmtes in die
.tex-Datei einbinden (gab da irgendein Paket für)... Wenn disc-cover das
nicht macht, wende dich an den Autor des Programms, oder schreibe selbst
einen Patch.

> Auch von grip angelegte Dateien mit solchen Umlauten im Namen
> werden "verhunzt".
> Zumindestens in grip kann man immerhin die Kodierung fuer cddb einstellen, diese
> ist standartmaessig auf utf-8 eingestellt. Wenn ich sie auf ISO8859-1 setze,
> kann grip selbst wiederum die Umlaute nicht richtig anzeigen.
> 
> G_FILENAME_ENCODING=@locale
> Mag zumindestens fuer grip das Problem mit den Dateinamen beheben. Es bleibt
> aber das Problem der Kodierung in den cddb-Dateien zum Weiterverarbeiten in
> Anzeige, Editor, Latex....

Wie gesagt, less mit passender Umgebung zeigt UTF-8 kodierte Files
ordentlich an, jmacs kenn ich nicht, und Latex kann mitgeteilt werden,
dass der "Source" in utf-8 kodiert ist (wenn ich mich nicht irre).

Davon abgesehen fällt mir noch was ein: Manche Programme neigen dazu
jegliche Strings die sie bekommen erstmal in Unicode zu kodieren, so
dass bei einer Eingabe in UTF-8 und anschliessender Ausgabe in UTF-8
trotzdem Umlaute als 2 Zeichen dastehen (haben dann 4 Bytes). Auch da
gibts nur eines: Kontakt zum Autor aufnehmen...

> Falls die Info nuetzlich ist, meine locales stehen saemtlich auf en_US.

Ich hoffe doch du meinst en_US.UTF-8 - wenn nicht, hast du keine UTF-8
Umgebung!

Andreas

-- 
You dialed 5483.



Reply to: