[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Basque spellcheckers (GPL!!)



On Fri, May 16, 2008 at 01:02:40AM +0200, Agustin Martin wrote:
> Tengo que pensarme que sería mejor, a lo mejor pongo todas las fuentes
> en un único paquete fuente llamado xuxen, a partir del que se crearían
> los diccionarios necesarios. 

Estoy probando a poner todo en un único paquete fuente llamado
xuxen-eu-spell, que contiene los diccionarios de myspell y hunspell y el
fichero xuxenedbl.txt, que es el xuxenedbl.pdf pasado a texto de forma
automática con pdftotxt, al que he añadido la empresa que ha hecho el
diccionario y el copyright. Adjunto el fichero por si el automático ha
colado alguna barbaridad (yo no hablo vasco)

La estructura del paquete fuente sería

./hunspell/eu-ES.aff
./hunspell/eu-ES.dic
./myspell/eu-ES.aff
./myspell/eu-ES.dic
./xuxenedbl.txt

y generaría diccionarios aspell y hunspell y, para sistemas antiguos, un
diccionario myspell.

Por cierto, pedí que rechazaran la versión anterior para evitar trabajo a
los ftp-masters, ya que ésta otra tendría también elementos nuevos y no me
parecía bien hacerles tocar el mismo paquete dos veces en una semana. Lo
envío de nuevo en cuanto esté listo.

Así que, por favor, comentadme cuanto antes qué os parece la estructura
anterior, de forma que pueda hacer las últimas pruebas y mandarlo cuanto
antes a la cola de los paquetes nuevos.

> Sería bueno que se pasara lo importante del fichero pdf (el que hay en
> la página a la que me envió Piarres explicando cosas del diccionario)
> a un fichero de texto simple y que se añadiera un README en inglés con la
> misma información para incluirlos como información del diccionario.

Os recuerdo también que esto último me vendría muy bien.

Saludos,

-- 
Agustin
                           XUXEN III. bertsioa

Bertsio honen zehaztasunak:

Xuxen IIIk Xuxen IIk zuen guztia barne hartzen du, jakina, baina ordutik izan dira
aldaketak. Bertsio honetan aurreko bertsioaren akatsak zuzentzeaz gain ondoren
zerrendatuko ditugun berrikuntzak gehitu ditugu:

  * Euskaltzaindiaren Hiztegi Batuko zerrenda guztiak egiaztatu dira eta 2004ko
       abendura bitartean onartutako arau guztiak hartu ditugu kontuan (138.a
       azkena,"2. itzulia: b-berriz"). Adib.: atomismo, audiometria, asuratu, bainutoki.

  * EAEko erroldako izen-abizen usuenak: abizenak 500 baino maiztasun
       handiagokoak eta izenak 100 baino maiztasun handiagokoak. Normalizazioari
       dagokionez, ez dugu inongo irizpiderik aplikatu eta ez dugu bereizi euskal eta
       erdal grafiaren artean, izen bat zuzena ala okerra den erabakitzerakoan. Adib.:
       Carlos, Karlos, Javier, Jabier, Xabier, Arroyo, Urruticoechea, Urrutikoetxea
       guztiak eman ditugu ontzat.

  * Egunkariko corpuseko leku eta erakunde izenak. Adib.: Amann, Asegarce.

  * Elhuyarko Zientzia eta Teknika Corpuseko terminologia ere (estandar zein ez-
       estandarrak). Adib: biomediko, supramolekula.

  * Erabiltzaileengandik jasotako zuzenketak; aipatzekoak Elhuyarretik jaso ditugun
       zerrendak. Adib.: espaziuntzi* ez-estandarra eta bere estandarra espazio-ontzi.

Bestalde ondorengo arazo hauek ere konpondu dira:

  *    ":" eta komatxoen aurretik idazten zena okertzat ematen zuen beti.


                         XUXEN EDBL 3

       8.860 izen arrunt berri                            1.446 izen berezi berri


Guztira 85.000 sarrera inguru daude, hiztegi-sarrera, adizki eta morfema ez-askeetan
banatuak.

 Eleka Ingeniaritza Linguistikoa S.L. // www.eleka.net

Euskararentzako Myspell hiztegirako affix fitxategia
GNU General Public License (GPL) 2. bertsioa
lizentziapean argitaratua

Reply to: