[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Speciale tekens in bestandsnamen van oude files



Op 11-11-14 om 01:24 schreef Jan Claeys:
> Paul van der Vlis schreef op ma 10-11-2014 om 11:23 [+0100]:
>> Op 09-11-14 om 23:53 schreef Jan Claeys:
>>> cp850 wordt vziw nog steeds gebruikt in veel recentere Windows'en, als
>>> default codepage (stdin/stdout) voor de commandline.  :)
>>
>> Echt?  Dat lijkt me wel lastig.
> 
> Ik veronderstel dat het te maken heeft met "backwards compatibility" met
> oudere programma's.  Modernere Windows console programma's kunnen
> overigens zelf de "codepage" instellen naar een Unicode codering (en als
> ik het goed begrijp doen de Win32 libraries dat in sommige
> omstandigheden automatisch, dus het geldt vooral als je "ruwe" printf()
> o.i.d. gebruikt in C).
> 
>> Nu ja, in Linux zijn er ook best veel programma's die nog oude encodings
>> gebruiken. Eigenlijk wou ik dat nog eens gaan inventariseren.
> 
> Veel dergelijke programma's zijn 8-bit transparant, wat betekent dat
> UTF-8 "gewoon werkt" in de meeste (maar niet alle) gevallen.  Het is
> vooral als de tekst op één of andere manier geïnterpreteerd moet worden
> dat er problemen kunnen zijn.
> 
>> Icedove stelt default zijn mailtjes op in Windows-1252 bijvoorbeeld. Heb
>> dat laatst proberen te veranderen, maar dat lukte me niet zomaar. Dit
>> mailtje is in UTF-8, maar dat komt omdat het een reply is op een UTF-8
>> bericht van jou.
> 
> Ik gok dat er wel ergens een "about:config" instelling voor is, maar of
> en waar die in de GUI beschikbaar is?

In about:config werd het me niet duidelijk welke instelling het was.

Maar in de GUI vond ik hem uiteindelijk: "voorkeuren | weergave | opmaak
| knop geavanceerd".

> (Ik gebruik momenteel geen Thunderbird/Icedove.)
> 
>> Ook Apache en FTP-servers gebruiken nog vaak latin1 volgens mij.
> 
> De huidige HTTP/HTML-standaarden bepalen nog allemaal 'latin1' als
> default indien er niks anders ingesteld is vziw; misschien dat de
> default Apache config dit gewoon expliciet wil maken.  (HTML 5 bepaalt
> utf-8 als default, dacht ik, maar dat is nog geen standaard...)

Volgens mij sinds kort wel:  http://www.w3.org/TR/html5/

Maar ja, de meeste websites zijn nog geen html5.

>>> https://code.google.com/p/uchardet/
>>>
>>> (Packages beschikbaar in Debian/Ubuntu, ook voor de Python, Ruby & Java
>>> bindings of ports.)
>>
>> Inderdaad interessant, maar ik zie jammergenoeg geen cp850 bij de
>> ondersteunde encodings.
> 
> Misschien omdat het oorspronkelijk uit de mozilla source tree komt, en
> dat geen "codepage" is die je vaak op internet tegenkomt...?  :-/
> 
> (Mogelijk wordt het ook wel herkend als iets anders wat "close enough"
> is voor wat je wil?  Dat zou je moeten testen uiteraard.)
> 
> Ik had trouwens een paar tests gedaan (niet met cp8xx) en op korte
> teksten zoals bestandsnamen is het niet altijd correct (maar hoe meer
> non-ASCII/"speciale tekens" je hebt hoe accurater; twee of drie is soms
> al genoeg).

cp850 is behoorlijk anders dan latin1, dat merk je snel genoeg.

Groet,
Paul.



-- 
Paul van der Vlis Linux systeembeheer, Groningen
http://www.vandervlis.nl


Reply to: