[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Basque spellcheckers (GPL!!)



On Mon, May 12, 2008 at 12:00:50PM +0200, pi wrote:
> 
> Tras luchar contra los elementos durante largo tiempo (pelear con las instituciones es un tanto exasperante) al fin
> se ha conseguido que se libere el diccionario ortográfico de Euskera bajo la licencia GPL. Siento haber dejado el
> tema como lo deje hace un año pero priorice otras cosas ante este tema al no conseguir una licencia aceptable tanto
> para Debian como para mi.

Enhorabuena por las buenas noticias,

> Esto quiere decir que los diccionarios de Euskera ya no tienen porque estar en non-free cosa que al menos para mi es
> una gran alegría (realmente hubo momentos que pensé que nunca podría decir esto).
> 
> Donde esta la nueva versión:
> 
> http://www.euskara.euskadi.net/r59-20660/es/contenidos/informacion/euskarazko_softwarea/es_9568/xuxen.html
> 
> La petición:
> 
> Nos ayudarías a volver a recrear (si hace falta) los diccionarios con la nueva licencia?
> Hace falta algún bug para su inclusión quitando los que ya hay ?
> Crees que dara tiempo para incluirlos en Lenny?
> Se me olvida algo?

Empaquetado y enviado. Como antes estaba en non-free y ahora no, se
considera como un paquete nuevo, por lo que está a la espera de ser
autorizado, en la lista NEW. Si todo va bien en unos días estará en sid.

> Acabo de darme cuenta que han puesto una versión myspell aparte de la de hunspell, supongo que esto facilitara tu
> labor aunque no estoy seguro.

Lo que empaqueté es realmente la versión de myspell, porque así se podía
utilizar la misma fuente tanto para myspell/hunspell como para aspell. No sé
si el Euskera es de los idiomas para los que es muy conveniente el uso de
una versión específica de hunspell, pero de momento vamos probando con éste.
Como aspell va incluyendo algunas de las características de hunspell, cuando
se pueda migraremos todo al de hunspell.

Quería comentarte varias cosas. Al construir el dictionario de aspell, aspell
hace una verificación de consistencia del diccionario y ha dado un montón de
mensajes del tipo

Warning: Removing invalid affix 'q' from word ahopean.
Warning: Removing invalid affix 'S' from word dakiela.

causados porque los afijos 'q' y 'S' no existen en eu-ES.aff, y otros del
tipo

Warning: Removing inapplicable affix 'f' from word ahopildu.
Warning: Removing inapplicable affix 'V' from word BAME.
Warning: Removing inapplicable affix 'E' from word nahuatl.
Warning: Removing inapplicable affix 'e' from word zuzki.

que quiere decir que no hacen nada para la palabra correspondiente. Entre
ambos tipos de mensaje son más de 9000 (sic).

Hay otra cosa que da mensajes, palabras con guión bajo (como 'ageri_izan') y
palabras con guión final (como 'katen-'). Por favor, decidme si son
correctas o no y las permito en el eu.dat. De momento las he inhabilitado
para aspell.

Aparte de las cosas anteriores, hay unas cuantas cosas más que me han
sorprendido, por una parte, el nuevo diccionario está completamente
desordenado y por otra no hay una dirección de correo electrónico para que
los usuarios comuniquen problemas y propongan soluciones.

Otra es bastante más curiosa,

$ echo Euskera | hunspell -l -d eu-ES
Euskera
$ echo Euskera | aspell list -l eu
Euskera

¡No aceptan Euskera!

También estoy preparando un diccionario oficial de aspell para ser generado
desde las mismas fuentes que el paquete Debian. De momento esperaré a ver
que pasa con las cosas que he mencionado más arriba.

Saludos,

-- 
Agustin


Reply to: