[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Basque spellcheckers (GPL!!)



On Thu, May 15, 2008 at 12:36:37PM +0200, dooteo wrote:
> El corrector ortográfico Xuxen en estos momentos está basado en los
> motores Hunspell y Myspell. Hay dos archivos, uno para cada motor. si no
> me equivoco Xuxen _no_ funciona sobre Aspell debido a las complejas
> reglas que requiere el idioma Euskara.

aspell utiliza los mismos ficheros de afijos que myspell, por lo que creo
que deben funcionar de una forma muy similar, salvo en que los algoritmos
de sugerencia de palabras son distintos, aspell usa uno propio y el de
myspell está basado en ispell.

Kevin Atkinson, la persona que mantiene aspell, ha introducido algunas de
las características de hunspell en su versión experimental, por lo que
espero que en un futuro se pueda utilizar el diccionario hunspell para 
crear diccionarios aspell. De momento sólo puede hacerse con diccionarios
myspell. En non-free está el diccionario aspell antiguo que debiera
funcionar de forma comparable al de myspell.

En mi experiencia hay una cosa muy interesante en tratar de crear
diccionarios aspell a partir de los de myspell. myspell se traga todo y si
no le vale no lo usa, pero no dice nada. aspell valida los datos y si
encuentra algo que no le gusta se queja a la hora de hacer el hash,
avisando de los errores. Así se localizan y se corrigen mejor. Ya comenté en
mi anterior mail unas cuantas cosas de las que se queja aspell y que he
chapuceado de momento para que sea más silencioso (eso implica que el
diccionario aspell contiene menos raíces que el diccionario myspell, pero no
importa, myspell no las usa porque son erróneas). Creo que en cualquier caso
sería bueno que le echárais un vistazo a ésto.

> La intención de la comuninad de soft-libre vasco es la de integrar Xuxen
> tanto dentro de las distribuciones GNU/Linux (Debian sobre todo), asi
> como integrarlo dentro de OpenOffice.org (para que también pueda ser
> usado en sistemas como MacOS X y Windows).
> 
> En la comunidad de desarrolladores de OOo me han comentado que la mejor
> forma de introducir Xuxen es creando una extension (ver siguiente
> enlace):
> 
> http://wiki.services.openoffice.org/wiki/Extension_Dictionaries
> 
> En cuanto a integrarlo en Debian, ¿como se suele hacer para que no haya
> una duplicidad de paquetes (el otro estaría como extensión dentro de
> OOo)?

En Debian los diccionarios van en paquetes aparte, aunque estén en las
fuentes de OpenOffice.org, por lo que no habría problema. Realmente no sé
lo que hace la extensión, pero por lo que sé OpenOffice.org utiliza hunspell.
 
> Un detalle que desconozco es la razón por la que Xuxen está basado en
> dos motores: hunspell y myspell (para OOo y thunderbird
> respectivamente). En cuyo caso, ¿habría que incluir 2 xuxen dentro de
> Debian, 1 para cada motor? ¿o usando 1 solo xuxen sería suficiente?

Si no me equivoco, ninguno de los Moz* y derivados en Debian 'unstable' usa
ya myspell sino hunspell, al igual que OpenOffice.org.

Por comodidad de momento he metido sólo el de myspell (que también vale
para hunspell) y también he creado un diccionario aspell a partir de él.

Si me decís que el Euskera (por cierto, ¿Euskera o Euskara?) es de los
idiomas que se benefician netamente de hunspell intentaré eliminar el de
myspell y crear uno nuevo de hunspell, dejando las fuentes de myspell
únicamente para el diccionario de aspell.

Tengo que pensarme que sería mejor, a lo mejor pongo todas las fuentes
en un único paquete fuente llamado xuxen, a partir del que se crearían
los diccionarios necesarios. 

[PS]
Sería bueno que se pasara lo importante del fichero pdf (el que hay en
la página a la que me envió Piarres explicando cosas del diccionario)
a un fichero de texto simple y que se añadiera un README en inglés con la
misma información para incluirlos como información del diccionario.

Saludos,

-- 
Agustín


Reply to: