Re: DebConf "l10n and i18n BoF" - sobre compendio /compendios /compendia
Hola, gracias por toda esta valiosa información, respondo entre líneas
El sáb, 19 jul 2025 a las 6:04, Laura Arjona Reina
(<larjona@debian.org>) escribió:
>
> En Debian tenemos un script que diariamente genera los compendios
>
> https://salsa.debian.org/l10n-team/compendia
>
> que es, para cada idioma, una fusión de todos los archivos .po que hay
> en Debian, y se puede usar como memoria de traducción en los clientes de
> traducción.
>
> El archivo en cuestión, para español, está aquí
> https://i18n.debian.org/compendia/es/
>
> He de decir que el script es muy antiguo y está poco mantenido, y de
> hecho el log que recibimos algunas personas de resultado del script
> siempre dice que ha fallado, pero la realidad es que genera un archivo,
> y como es de texto supongo que se podrá aprovechar (y si alguien tiene
> tiempo y habilidad, informar sobre los errores que tenga para irlos
> arreglando).
>
Si tienes tal vez un enlace para darle una mirada, que parece
que es un hoyo de conejo :P. Porque podría tal vez generarse
bugs a diversos paquetes para que se apunten a cambiar el
encoding en cuestión. Y bueno, entender cómo podríamos
aprovecharlo.
> Yo no sé muy bien cómo funciona todo esto (desde la perspectiva del
> traductor) pero hice lo siguiente:
>
> * He descargado el archivo compendium-es-LATEST.po y veo que está "mal"
> codificado, en ISO-8859-15 (probablemente tendremos que decirle al
> Apache de i18n.debian.org que lo sirva como UTF-8, ya gestionaré ese
> tema), así que lo he convertido a UTF-8 con la orden:
>
> iconv -f ISO-8859-15 -t UTF-8 < compendium-es-LATEST.po >
> compendium-es-LATEST-utf8.po
>
> * Luego he abierto POEdit y he ido a Preferencias > pestaña MT. Yo tenía
> marcada la opción "Usar memoria de traducción" y tenía 614 traducciones
> almacenadas (supongo que de ediciones anteriores). Si no me equivoco,
> eso se almacena en ~/.local/share/poedit/TranslationMemory - No me
> importa mucho conservar lo que haya, así que le he dado a Gestionar y le
> he dicho que cargue el archivo compendium-es-LATEST-utf8.po
>
> * Ha tardado varios minutos y ha generado algunos errores, todos del
> tipo "Cabecera con formato incorrecto: «#-#-#-#-# 4digits_1.1.4-1_es.po
> (4digits) #-#-#-#-#»", que me ha permitido guardarlos en un archivo, y
> al aceptar me ha dicho que ahora tengo en la memoria de traducción
> 575193 traducciones almacenadas.
>
> * Para probar he abierto un archivo .po que tenía bastantes cadenas
> pendientes de traducir (el manual de dpkg), y cuando le doy a una cadena
> pendiente (por ej "Comments") en la parte de la derecha me salen
> bastantes sugerencias de traducción. He probado con varias cadenas y
> puedo decir que las sugerencias son relativamente "malas" en general,
> por ej con la cadena "Multiple restrictions can be chained." las
> sugerencias son "Los valores múltiples se pueden separar", "No se puede
> usar con varios objetos", "No se puede manejar archivos múltiples", "No
> se puede tener múltiples sensibilidades", "Puede separar múltiples URI
> con espacios" (y varias de esas sugerencias, mal codificadas las
> tildes). Pero puede servir para tener una idea a la hora de elegir entre
> varios vocablos, ver cuál es más frecuente en las traducciones ya hechas
> en Debian (aunque creo que Poedit no permite búsquedas en la MT, o yo no
> sé hacerlo. Quizá otros programas sí lo permitan). Por ejemplo para
> "fine tuning" que preguntaba Igor, yo lo que he hecho al final es
>
> cat compendium-es-LATEST-utf8.po | grep -A 10 "ine tuning"
>
> y mirando manualmente la salida, he visto quelo más usado es "ajuste fino".
>
Respecto a esa traducción, estoy entendiendo que en el mundo de los
modelos de lenguaje usan "afinamiento" parecido a como se hace con
un instrumento musical. Tal vez esa sea la mejor opción para usarse
de ahora en adelante si no hay unas mejores razones para hacerlo
de forma distinta.
> Eso es todo lo que he podido averiguar por ahora.
>
Gracias por esta explicación, facilita mucho el poder pensar en darle uso de
alguna forma. Estuve mirando y hacer afinamiento de una herramienta de
traducción es un proceso costoso. Estaba pensando en afinar un modelo,
pero se requiere mucho más poder de cómputo del que imaginaba, varias
GPUs con varios Gigas de RAM para correr en varios días.
> Nota: la discusión sobre los fallos del script "compendia" y el servidor
> i18n.debian.org y los comentarios sobre utilidad o no de estas
> herramientas (bastante antiguas y probablemente ya anticuadas) la haré
> en la lista debian-i18n (cc debian-l10n-devel a no ser que me digan que
> esa otra lista no procede), si alguien está interesado/a en la
> maquinaria de todo esto, que se suscriba allá o eche un ojo a los
> archivos de la lista vía web de cuando en cuando.
>
Vale, estoy echando ojo a esa lista para ver si de pronto hay alguien
que se anime a apuntarle a ese trabajo o si tal vez tienen algunas
experiencias previas al respecto para ver por dónde podría continuarse.
> Saludos
>
> --
> Laura Arjona Reina
> https://wiki.debian.org/LauraArjona
>
Saludos, seguimos :)
--
http://igor.tamarapatino.org
Reply to: