[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

[Nuevo proyecto "hermano"] & [Inicio del Thesaurus]



On Thu, Aug 16, 2001 at 09:20:22PM +0200, Lluis Vilanova wrote:
> El jue, 16 de ago de 2001, a las 06:13:25 +0200, Javier Fernández-Sanguino Peña dijo:
> > 	Respecto a la búsqueda de software con palabras clave, esta puede
> > ser en gran medida automatizada. Diseñé el año pasado una prueba de concepto
> > que se llama "dpkg-iasearch", utiliza una librería de algoritmos de indexación
> > estadísticos basados en vectorización de documentos. Pruebalo a ver qué te parece,
> > funciona más o menos.

Pues me ha gustado mucho. En un principio hasta me he emocionado, pero cuando quería encontrar algo en concreto, pues en muchos casos no he sido capaz de dar con el paquete a pesar de saber que existe y su nombre. Es util, pero a su vez excesivamente mecánico.

Si en un momento casi me convences de que mi idea perdia por completo el objetivo, despues he pensado que sino llega a ser porque el autor del programa me dice que existe no lo hubiese encontrado nunca y eso es lo que quiero evitar. Cada uno de nosotros tenemos acceso a miles de programas, la mayoria de los cuales nos ayudarian en nuestros quehaceres y (por lo meno en mi caso) solo conocemos unos pocos y gracias a consejos de terceras personas.

Entiendo que no se puede hacer ni una labor de chinos todo a mano y con redondeo en el decimo decimal, ni una selección totalmente automatizada en la que toda decisión se hace en binario.

Una preselección automatica de los terminos clave de un paquete puede ser de gran ayuda, pero la posterior revisión por una persona, o varias, o miles (segun el uso que se le de) lo hace verdaderamente util.

Por ejemplo ese mismo programa pero utilizando como base de busqueda el thesaurus (del que tanto se habla) con algunas jerarquias internas, podría ayudar a clasificar los programas. Y luego en posteriores revisiones humanas se eliminaran errores y se añadiran datos que falten.

Por cierto he empezado por mi cuenta (y riesgo) a hacerme unos listados de palabras-clave los teneís en:

http://urreta.hn.org/catalogo-debian/

> > 	La ventaja es que, al coger la base de paquetes instalada, el soporte
> > multilingue es inmediato en el momento que haya traducciones de las descripciones
> > de los paquetes (que son las que indexa).

Si en esto tienes razón, pero yo lo que hecho de menos en la pagina debian.org es un listado por categorias de los programas incluidos, no por nombres de paquete, sino por lo que hacen, con que, para que.... en resumen algo ameno de navegar y que si tienes tiempo puedas sin más darte un paseo y maravillarte con la de cosas que hay...

Tambien ten en cuenta que cuando hablo de traducción de palabras-clave estoy hablando de un listado que como mucho puede llegar a 200, 300, 500 palabras y de las cuales la mayoria son terminologia tan especifica que no se traduce, PCI es PCI en todos los idiomas.

> otra forma seria 
> apt-cache search HTTP > busca.http
> apt-cache search SSL > busca.ssl
> apt-cache search otracosa > busca.otracosa

Si este metodo tambien sería util a la hora de hacer un script para la preseleccion de las palabras-clave asociadas.

Por ejemplo:
apt-cache search player > datos.txt
apt-cache search cd >> datos.txt
sort datos.txt | uniq -d > resultado.txt

Pero obtenemos como resultado un listado de paquetes que a) no sabemos si estan todos los reproductores de CD y b) aparecen programas que no son lo que buscabamos. No es triste que tengamos el mejor sistema operativo del mundo y no seamos capaces de "asegurar" cuantos reproductores de CD tenemos a nuestra disposición en una distribución Debian.

> > Razones para automatizarla y no hacerla de forma manual:
> > 
> > a) se da soporte multilingue de forma inmediata

Si, pero no es el mayor problema desde mi punto de vista. Porque al final lo que se obtendría es una base de datos que relaciona un paquete X con unas palabras-clave A,B,C que según el idioma del usuario se traducirían esas palabras clave.

> > b) el ritmo de crecimiendo de paquetes es salvaje, de 2500 en potato a 5000+ en woody
> > en ~1 año, nadie puede categorizar tan rápido sin dedicarle mucho tiempo

Cierto y en dos años vista pongamos que tenemos entre 10.000 y 15.000 paquetes, sin un catalogo util no seremos capacez de encontrar entre esa masa los paquetes que nos puedan interesar. Sería algo parecido a lo que pasa con google, puedes encontrar muchas cosas, incluso interesantes, dependiendo de las palabras que pongas y de su orden, pero seguramente haya muchisimo contenido de mejor calidad que nunca veras porque ..... hay muchiiiiiisimo.

Si el ritmo de creación de paquetes va mucho más rápido que el de categorización, pues no pasa nada, pero sabemos que un porcentaje esta en zona conocida y el resto ya se ira sumando, desde luego no planteo esto como una herramienta a desarrollar por una persona, o la desarrolla la comunidad que la va a utilizar o no la desarrolla nadie.

> > c) independencia de las personas, es muy fuerte, pero así no hace falta dedicarle
> > recursos.

Cierto, pero hoy en día cada vez somos más (o por lo menos por la cantidad de revistas linux que aparecen en el kiosko eso parece) y un usuario normal puede sin mayor dificultad clasificar gran parte del software que utiliza.

Hay que economizar recursos, no digo que esta estructura la tenga que mantener el grupo de desarrolladores debian, vosotros ya teneís suficiente trabajo, pero a nosotros hacer este tipo de colaboraciones que posteriormente van a ser revisadas por el resto de gente que utilice la herramienta (y por lo tanto corregida en caso de error) pues no creo que nos suponga gran esfuerzo.

> > Es mejor hacer que las descripciones sean completas y contengan estas palabras que
> > rehacer el trabajo uno mismo, en mi opinión.

Si, pero no ;)

Me explico, que es más facil reescribir 5000 descripciones de paquetes para que contengan los terminos de busqueda que un futuro usuario vaya a introducir.

O crear una estructura de palabras-clave (pongamos 400) que se asignan a los paquetes y desde ese momento en adelante ese paquete ya esta fichado para el resto de su vida, con derecho a revisión para añadir, modificar su contenido en caso de que sea necesario.

Por no mencionar que la segunda opción puede nacer totalmente independiente de Debian y para la primera hay que estar muy metido en Debian para rehacer todo ese trabajo.

> > PD: Con esto no quiero decir que una persona no pueda hacer mejor el trabajo, sino que
> > es más costoso...

Cierto, pero hay que buscar un equilibrio entre costoso y util que podamos soportar y disfrutar entre todos.

Saludos a todos y perdonar la extensión del mensaje...
-- 
======================================================================
=  "Dicen.." es ya media mentira.                    -Thomas Fuller- =
======================================================================
= Arquitectura-Linux-Japón               Debian GNU/Linux 2.2 Potato =
= http://urreta.hn.org                            Linux User #142642 =
======================================================================



Reply to: