[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Speciale tekens in bestandsnamen van oude files



Paul van der Vlis schreef op ma 10-11-2014 om 11:23 [+0100]:
> Op 09-11-14 om 23:53 schreef Jan Claeys:
> > cp850 wordt vziw nog steeds gebruikt in veel recentere Windows'en, als
> > default codepage (stdin/stdout) voor de commandline.  :)
> 
> Echt?  Dat lijkt me wel lastig.

Ik veronderstel dat het te maken heeft met "backwards compatibility" met
oudere programma's.  Modernere Windows console programma's kunnen
overigens zelf de "codepage" instellen naar een Unicode codering (en als
ik het goed begrijp doen de Win32 libraries dat in sommige
omstandigheden automatisch, dus het geldt vooral als je "ruwe" printf()
o.i.d. gebruikt in C).

> Nu ja, in Linux zijn er ook best veel programma's die nog oude encodings
> gebruiken. Eigenlijk wou ik dat nog eens gaan inventariseren.

Veel dergelijke programma's zijn 8-bit transparant, wat betekent dat
UTF-8 "gewoon werkt" in de meeste (maar niet alle) gevallen.  Het is
vooral als de tekst op één of andere manier geïnterpreteerd moet worden
dat er problemen kunnen zijn.

> Icedove stelt default zijn mailtjes op in Windows-1252 bijvoorbeeld. Heb
> dat laatst proberen te veranderen, maar dat lukte me niet zomaar. Dit
> mailtje is in UTF-8, maar dat komt omdat het een reply is op een UTF-8
> bericht van jou.

Ik gok dat er wel ergens een "about:config" instelling voor is, maar of
en waar die in de GUI beschikbaar is?
(Ik gebruik momenteel geen Thunderbird/Icedove.)

> Ook Apache en FTP-servers gebruiken nog vaak latin1 volgens mij.

De huidige HTTP/HTML-standaarden bepalen nog allemaal 'latin1' als
default indien er niks anders ingesteld is vziw; misschien dat de
default Apache config dit gewoon expliciet wil maken.  (HTML 5 bepaalt
utf-8 als default, dacht ik, maar dat is nog geen standaard...)


> > https://code.google.com/p/uchardet/
> > 
> > (Packages beschikbaar in Debian/Ubuntu, ook voor de Python, Ruby & Java
> > bindings of ports.)
> 
> Inderdaad interessant, maar ik zie jammergenoeg geen cp850 bij de
> ondersteunde encodings.

Misschien omdat het oorspronkelijk uit de mozilla source tree komt, en
dat geen "codepage" is die je vaak op internet tegenkomt...?  :-/

(Mogelijk wordt het ook wel herkend als iets anders wat "close enough"
is voor wat je wil?  Dat zou je moeten testen uiteraard.)

Ik had trouwens een paar tests gedaan (niet met cp8xx) en op korte
teksten zoals bestandsnamen is het niet altijd correct (maar hoe meer
non-ASCII/"speciale tekens" je hebt hoe accurater; twee of drie is soms
al genoeg).


-- 
Jan Claeys


Reply to: