[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Fwd: Romanizare conform cu regulile Aceademiei Romane



On Mon, 30 May 2005 15:08:11 +0200
Ionel Mugurel Ciobica <tgakic@chem.tue.nl> wrote:

> On 30-05-2005, at 14h 34'05", Dan Damian wrote about "Re: Fwd: Romanizare conform cu regulile Aceademiei Romane"
> > În data de Lu, 30-05-2005 la 12:35 +0200, Ionel Mugurel Ciobica a scris:
> > > Verificarea se poate face cu file. Pe un text 8biţi rezultatul este
> > > "ISO-8859 text" iar pe UTF-8 rezultatul este "UTF-8 Unicode text".
> > 
> > In general, verificarea cu file nu-i "reliable" pt. ca file considera
> > doar o portiune de inceput a fisierului. Mi s-a intamplat la unele
> > fisiere sa nu am diacritice de la inceput si mi-l detecta ca "ASCII
> > text" in loc de "UTF-8 Unicode text".
> > 
> 
> Ai dreptate, alte idei cum se poate deosebi UTF-8 de ISO-8859-x?
> (x=2,16)
> 
> Aş putea să-l pun să facă grep după diacritice, şi dacă găseşte măcar
> una să ia hotărîrea în funcţie de aia. Cel mai sigur ar fi "ă" căci
> şţ pot fi cu sedilă sau virgulă, î conţine Ă in varianta UTF-8, şi
> ghilimelele conţin â.
> 
> Vedeţi noua variantă.
lipseşte conversia la utf-8, sed face substituţia pe iso-8859-x, cea
ce nu e corect, în plus (iconv -f ISO-8859-x -t UTF-8 $1 -o $1.bak) face
şi testarea validitaţii.

eu rămân la părerea mea că comenzile sed trebuie puse într-un fişier sed
şi transmis cu sed -f ... pt conversie, face scriptul mai lizibil.



Reply to: