Re: Speciale tekens in bestandsnamen van oude files
Paul van der Vlis schreef op zo 09-11-2014 om 11:17 [+0100]:
> Na enig zoeken ben ik er achter gekomen wat dit nu is en hoe je het
> toch kunt converteren naar UTF8. Het blijkt om "cp850" te gaan, wat
> bijvoorbeeld nog gebruikt werd in de Nederlandse Windows 98. [1]
> Nooit eerder van gehoord, en echt wat anders dan Windows-1252 of
> ISO-8859-1.
cp850 wordt vziw nog steeds gebruikt in veel recentere Windows'en, als
default codepage (stdin/stdout) voor de commandline. :)
> Het probleem is eigenlijk dat er vaak oude en nieuwe bestanden door
> elkaar staan in een archief, waarbij die enkele bestanden met speciale
> tekens in de bestandsnaam niet zo opvallen. Wat je eigenlijk zou willen
> is een test met bijvoorbeeld find of het zo'n oud bestand is, en zo ja
> daar een conversie op loslaten.
> Dat is misschien iets voor een volgende keer...
Dit lijkt me nuttig als je ooit daartoe komt:
https://code.google.com/p/uchardet/
(Packages beschikbaar in Debian/Ubuntu, ook voor de Python, Ruby & Java
bindings of ports.)
--
Jan Claeys
Reply to: