[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: sed e accentate...



Il giorno gio, 22/03/2012 alle 08.12 +0100, bodrato@mail.dm.unipi.it ha
scritto:
[...]
> Mi resterebbe la curiosità di capire perché per sed, se LANG=C
> l'espressione regolare ".*" include senza problemi anche un carattere
> accentato in una codifica sbagliata, mentre altrimenti no...

Ad esempio, se a tua locale attuale è multibyte, come ad esempio UTF-8,
ci sono dei caratteri di iso-8859-1 che non sono validi in utf-8. Nel
senso che che se la loro codifica binaria prevede che il bit più alto
sia a 1, allora in iso-8859-1 si passa tranquillamente al byte
successivo per interpretare il successivo carattere, mentre in UTF-8 si
prende il byte successivo per interpretare lo stesso carattere
(multibyte) e la coppia di byte deve essere una valida sequenza UTF-8.

Difatti mi pare di ricordare che il bit più alto nel primo byte di una
sequenza multibyte UTF-8, indiche che la sequenza continua con il byte
successivo.

Ciao,
G.


Reply to: