Re: DebConf "l10n and i18n BoF" - sobre compendio /compendios /compendia
Hola
El 19/7/25 a las 7:00, Igor Támara escribió:
Hola, recién veo este mensaje.
aspell se está preparando también para dar soporte a memory o ayuda
con IA, creo que el extender los comentarios va en ese sentido.
https://www.gnu.org/software/gettext/manual/html_node/PO-File-Format-Evolution.html
Tuve oportunidad de mirar algo ponton y está muy interesante la
pretraducción que están ofreciendo.
En particular me sorprendió muy gratamente ver que Mozilla ofrece un
servicio de traducción localmente con wasm. Hay bastante oportunidad
de mejor y se reconoce que el trabajo de traducción por ahora requiere
intervención humana para hacerlo con calidad.
Tal vez ya ha habido un esfuerzo para generar a partir de las
traducciones que se han hecho en Debian la generación de conjuntos de
traducción para hacer "fine-tuning" afinación del modelo? A
propósito, esa sería una traducción adecuada? o tal vez vemos otra
mejor?
En Debian tenemos un script que diariamente genera los compendios
https://salsa.debian.org/l10n-team/compendia
que es, para cada idioma, una fusión de todos los archivos .po que hay
en Debian, y se puede usar como memoria de traducción en los clientes de
traducción.
El archivo en cuestión, para español, está aquí
https://i18n.debian.org/compendia/es/
He de decir que el script es muy antiguo y está poco mantenido, y de
hecho el log que recibimos algunas personas de resultado del script
siempre dice que ha fallado, pero la realidad es que genera un archivo,
y como es de texto supongo que se podrá aprovechar (y si alguien tiene
tiempo y habilidad, informar sobre los errores que tenga para irlos
arreglando).
Yo no sé muy bien cómo funciona todo esto (desde la perspectiva del
traductor) pero hice lo siguiente:
* He descargado el archivo compendium-es-LATEST.po y veo que está "mal"
codificado, en ISO-8859-15 (probablemente tendremos que decirle al
Apache de i18n.debian.org que lo sirva como UTF-8, ya gestionaré ese
tema), así que lo he convertido a UTF-8 con la orden:
iconv -f ISO-8859-15 -t UTF-8 < compendium-es-LATEST.po >
compendium-es-LATEST-utf8.po
* Luego he abierto POEdit y he ido a Preferencias > pestaña MT. Yo tenía
marcada la opción "Usar memoria de traducción" y tenía 614 traducciones
almacenadas (supongo que de ediciones anteriores). Si no me equivoco,
eso se almacena en ~/.local/share/poedit/TranslationMemory - No me
importa mucho conservar lo que haya, así que le he dado a Gestionar y le
he dicho que cargue el archivo compendium-es-LATEST-utf8.po
* Ha tardado varios minutos y ha generado algunos errores, todos del
tipo "Cabecera con formato incorrecto: «#-#-#-#-# 4digits_1.1.4-1_es.po
(4digits) #-#-#-#-#»", que me ha permitido guardarlos en un archivo, y
al aceptar me ha dicho que ahora tengo en la memoria de traducción
575193 traducciones almacenadas.
* Para probar he abierto un archivo .po que tenía bastantes cadenas
pendientes de traducir (el manual de dpkg), y cuando le doy a una cadena
pendiente (por ej "Comments") en la parte de la derecha me salen
bastantes sugerencias de traducción. He probado con varias cadenas y
puedo decir que las sugerencias son relativamente "malas" en general,
por ej con la cadena "Multiple restrictions can be chained." las
sugerencias son "Los valores múltiples se pueden separar", "No se puede
usar con varios objetos", "No se puede manejar archivos múltiples", "No
se puede tener múltiples sensibilidades", "Puede separar múltiples URI
con espacios" (y varias de esas sugerencias, mal codificadas las
tildes). Pero puede servir para tener una idea a la hora de elegir entre
varios vocablos, ver cuál es más frecuente en las traducciones ya hechas
en Debian (aunque creo que Poedit no permite búsquedas en la MT, o yo no
sé hacerlo. Quizá otros programas sí lo permitan). Por ejemplo para
"fine tuning" que preguntaba Igor, yo lo que he hecho al final es
cat compendium-es-LATEST-utf8.po | grep -A 10 "ine tuning"
y mirando manualmente la salida, he visto quelo más usado es "ajuste fino".
Eso es todo lo que he podido averiguar por ahora.
Nota: la discusión sobre los fallos del script "compendia" y el servidor
i18n.debian.org y los comentarios sobre utilidad o no de estas
herramientas (bastante antiguas y probablemente ya anticuadas) la haré
en la lista debian-i18n (cc debian-l10n-devel a no ser que me digan que
esa otra lista no procede), si alguien está interesado/a en la
maquinaria de todo esto, que se suscriba allá o eche un ojo a los
archivos de la lista vía web de cuando en cuando.
Saludos
--
Laura Arjona Reina
https://wiki.debian.org/LauraArjona
Reply to: