[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Proyecto ayuda



El Mié 22 Ago 2001 18:03, Antonio Castro escribió:
> On Wed, 22 Aug 2001, Javier Viñuales Gutiérrez wrote:
> > > cuando no se tiene en cuenta y más adelante se quiere cambiar. Por
> > > experiencia, se convierte en un problema "dificilísimo" de manejar.
> >
> > Has resumido lo que yo traté de explicar mcuho mejor que yo, gracias :)
> > Totalmente de acuerdo con este punto de vista, esa era mi idea inicial.
>
> Entonces todo claro y todos de acuerdo. En mi opinión el sistema debería
> ser capaz de trabajar en cualquier idioma desde el primer momento pero
> inicialmente empezaremos procesando documnentación española y si vemos
> que el invento está maduro animaremos a otros grupos para que empiecen
> a hacerlo en otros idiomas.
>
> He estado dandole vueltas a la parte que va a suponer más carga de
> trabajo. Tengo claro que la elección de claves es una tarea para seres
> humanos pero tengo una idea y salvo que Maribel lo vea de otra forma
> quizás no resulte imprescindible leerse todo un documento para sacar un
> buen conjunto de palabras claves disponiendo de cierta ayuda automatizada.
>
> No se trataría de sustituir el criterio de una persona por el criterio
> de una máquina o programa.
>
> Leer todo un documento lleva mucho tiempo y conviene trabajar en la
> generación de herramientas de ayuda para que la labor de los
> documentalistas resulte lo menos dura posible.
>

 En principio una persona que domine el tema del que trate un documento
> puede elegir unas pocas palabras clave bastante buenas simplemente
> sabiendo de que trata el documento . Si el documento es largo como
> por ejemplo una guía, esto resultará insuficiente, porque convendría
> incluir un buen número de palabras clave relativas a todos los temas
> tratados en ese amplio documento.
>

Precisamente es de lo que quiero huir, no quiero que lo lea gente que 
controle el tema de lo que trata el documento, no, al contrario, no quiero 
ningun vicio de lectura. El motor de busqueda tiene que ser lo mas facil 
posible, las palabras o frases indexadas tienen que corresponder con el 
"alma" del documento, daros cuenta que es posible que algunos documentos solo 
se definiran por una palabra nada mas, ya que estos son bastante monotematicos
> Mediante técnicas de hash es posible confeccionar un listado de palabras
> y su frecuencia de uso en el conjunto de todos los documentos.
>

Su frecuencia de uso podria no corresponder con lo que define el documento 
puesto que por ejemplo en un documento, pongamos, sobre sonido la palabra 
"kernel" aparecera muchas veces, y sin embargo, la palabra "kernel" no define 
el documento, es más, esta palabra no deberia aparecer como definidora del 
documento. Es solo un ejemplo
> Posteriormente analizado un documento en particular se puede poner de
> relieve la existencia de palabras usadas con una frecuencia
> comparativamente mayor en ese documento en particular. Este sistema
> permitiría destacar la presencia de palabras especialmente significativas
> en un documento.
>
Se trata de que al usuario que busca un tema concreto le aparezcan SOLO los 
documentos que respondan a su busqueda y que no se tenga que leer mil 
documentos para afinar en lo que realmente este interesado


> Si en el listado inicial relativo al uso de palabras en todos los
> documentos incluimos el procesado de textos no técnicos se conseguirá
> que cualquier palabra técnica resalte muchísimo más con el uso de esta
> herramienta.
>
> Ni que decir que las palabras que aparecen con demasiada frecuencia en
> una gran variedad de documentos serían desechadas de forma automática
> como candidatas a claves sin riesgo alguno. (artículos, pronombres,
> palabras de uso muy frecuente, no pasarían esa barrera)
>
> Ignoro si con este planteamiento se puede lograr un ahorro de tiempo del
> 80% o solo del 5% pero en cualquier caso merecerá la pena porque no me
> parece dificil de hacer y es susceptible de mejoras mediante los
> refinamientos que su uso aconseje a criterio de los documentalistas.
>
> Soy el primero en admitir que los procedimientos 100% automáticos no son
> buenos pero siempre hay que procurar automatizar todo aquello que sea
> posible. La elección de buenas claves es una labor para humanos pero
> hay que facilitar esa tarea y creo que podría merecer mucho la pena hacer
> algún experimento en la dirección que acabo de indicar.
>
>

Mirar, haced una prueba, poner en varios buscadores de internet la palabra 
"reloj" me apuesto lo que querais que entre los resultados aparecera algo 
como esto "Zidane, este futbolista blablablabla se quita su reloj de pulsera 
para dormir porque blablablabla". Me lo acabo de inventar, pero estamos 
hartos de encontrarnos textos que no tienen nada que ver con lo que realmente 
buscamos, y eso nos hace perder mucho tiempo.
Sigo diciendo lo mismo, el principio sera duro porque habra que leer mucho, 
pero, una vez hecho,actualizarlo sera "cosa de niños" porque no se genera 
tanta documentacion sobre linux 
>
>
Tal vez me repita mucho, pero lo seguire haciendo hasta que TODOS pilleis mi 
idea
Un saludo :-)
-- 
Maribel magaly@alboris.net                 
http://www.alboris.net                          
----------------------------



Reply to: