Re: Speciale tekens in bestandsnamen van oude files
Op 11-11-14 om 01:24 schreef Jan Claeys:
> Paul van der Vlis schreef op ma 10-11-2014 om 11:23 [+0100]:
>> Op 09-11-14 om 23:53 schreef Jan Claeys:
>>> cp850 wordt vziw nog steeds gebruikt in veel recentere Windows'en, als
>>> default codepage (stdin/stdout) voor de commandline. :)
>>
>> Echt? Dat lijkt me wel lastig.
>
> Ik veronderstel dat het te maken heeft met "backwards compatibility" met
> oudere programma's. Modernere Windows console programma's kunnen
> overigens zelf de "codepage" instellen naar een Unicode codering (en als
> ik het goed begrijp doen de Win32 libraries dat in sommige
> omstandigheden automatisch, dus het geldt vooral als je "ruwe" printf()
> o.i.d. gebruikt in C).
>
>> Nu ja, in Linux zijn er ook best veel programma's die nog oude encodings
>> gebruiken. Eigenlijk wou ik dat nog eens gaan inventariseren.
>
> Veel dergelijke programma's zijn 8-bit transparant, wat betekent dat
> UTF-8 "gewoon werkt" in de meeste (maar niet alle) gevallen. Het is
> vooral als de tekst op één of andere manier geïnterpreteerd moet worden
> dat er problemen kunnen zijn.
>
>> Icedove stelt default zijn mailtjes op in Windows-1252 bijvoorbeeld. Heb
>> dat laatst proberen te veranderen, maar dat lukte me niet zomaar. Dit
>> mailtje is in UTF-8, maar dat komt omdat het een reply is op een UTF-8
>> bericht van jou.
>
> Ik gok dat er wel ergens een "about:config" instelling voor is, maar of
> en waar die in de GUI beschikbaar is?
In about:config werd het me niet duidelijk welke instelling het was.
Maar in de GUI vond ik hem uiteindelijk: "voorkeuren | weergave | opmaak
| knop geavanceerd".
> (Ik gebruik momenteel geen Thunderbird/Icedove.)
>
>> Ook Apache en FTP-servers gebruiken nog vaak latin1 volgens mij.
>
> De huidige HTTP/HTML-standaarden bepalen nog allemaal 'latin1' als
> default indien er niks anders ingesteld is vziw; misschien dat de
> default Apache config dit gewoon expliciet wil maken. (HTML 5 bepaalt
> utf-8 als default, dacht ik, maar dat is nog geen standaard...)
Volgens mij sinds kort wel: http://www.w3.org/TR/html5/
Maar ja, de meeste websites zijn nog geen html5.
>>> https://code.google.com/p/uchardet/
>>>
>>> (Packages beschikbaar in Debian/Ubuntu, ook voor de Python, Ruby & Java
>>> bindings of ports.)
>>
>> Inderdaad interessant, maar ik zie jammergenoeg geen cp850 bij de
>> ondersteunde encodings.
>
> Misschien omdat het oorspronkelijk uit de mozilla source tree komt, en
> dat geen "codepage" is die je vaak op internet tegenkomt...? :-/
>
> (Mogelijk wordt het ook wel herkend als iets anders wat "close enough"
> is voor wat je wil? Dat zou je moeten testen uiteraard.)
>
> Ik had trouwens een paar tests gedaan (niet met cp8xx) en op korte
> teksten zoals bestandsnamen is het niet altijd correct (maar hoe meer
> non-ASCII/"speciale tekens" je hebt hoe accurater; twee of drie is soms
> al genoeg).
cp850 is behoorlijk anders dan latin1, dat merk je snel genoeg.
Groet,
Paul.
--
Paul van der Vlis Linux systeembeheer, Groningen
http://www.vandervlis.nl
Reply to: