[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Proyecto ayuda



On Fri, 24 Aug 2001, Fermín Manzanedo wrote:

> Maribel, de manera acertada creo yo, propone que esas palabras clave las elijamos los humanos y no las máquinas.
> Pero ahora llega Antonio y dice que se podría tener una ayudita para poder determinar esas palabras clave, ¿no?.
> Esto último no me parece mal, ya lo he dicho, sobre todo si son documentos muy largos; 

Exacto. Estoy casi seguro de que ningún tipo de herramienta automática va 
a generar claves principales (de alto peso) mejores que las de un humano 
pero si podría sugerir algunas claves secundarias en importancia que de
otra forma podrían pasar desapercibidas. 

Tampoco descarto que la herramienta tuviera una utilidad muy limitada y 
resultara poco interesante (espero que no termine en el cubo de la basura). 

Eso lo decidiran los usuarios de la misma que son los documentalistas. 
A pesar de este riesgo, yo creo que merece la pena intentarlo porque lo
veo sencillo de hacer.

Espero que por lo menos sirva de algo y que surjan mejoras sobre la marcha.

Voy a intentar explicar en detalle todo el proceso en base a cinco pasos:


------------------------------------------------------------------------
1) Se alimenta la herramienta con una enorme cantidad de documentos,
técnicos y no técnicos. Interesa gran variedad y gran cantidad.

2) Se obtiene un fichero con un listado de palabras y el número de veces
que aparece cada una. También se guarda el numeró total de palabras 
procesadas, porque el valor que interesa es la propabilidad de aparicion
de cada palabra expresado como (número de veces que aparece/ número total
de palabras procesadas). Lo llamaré P_GLOB.

3) Se extraen un montón de palabras que se sabe jamás serán eljidas como
clves. Hay que localizarla entre aquellas que tienen un P_GLOB mayor y
resultarán ser artículos, pronombres, y palabras poco significativas.
Todas estas se separan en un fichero independiente como palabras ignorables.

4) Analisis individual de un documento se realizará obteniento un listado
de palabras no ignorables ordenadas por su C_INT (Cociente de interés) que
no es otra cosa que P_DOC/P_GLOB donde P_DOC que será el número de veces 
que aparece una palabra en ese documento dividido por el número de palabras
total del documento.

5) Obtención de las palabras que la herramienta señala como más interesantes
que serían aquellos que tengan un C_INT de valor más alto.

-------------------------------------------------------------------------

Para resaltar la importancia de los términos técnicos frente a los términos
no técnicos interesará calcular P_GLOB no solo en base a documentación
técnica sino que convendría añadir un porcentaje de documentación variada
de origen nó técnico. Esto hará que palabras comunmente empleadas en argot
técnico resalten más simplemente por esta razón lo cual es muy deseable. 

Desde el punto de vista técnico es usar una gran tabla Hash.


Un saludo

Antonio Castro

+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+
        /\     /\      Ciberdroide Informática (Tienda de Linux)
          \\W//            <<< http://www.ciberdroide.com >>>
	 _|0 0|_                                                    
+-oOOO--(___o___)--OOOo----------------------------------------------------+ 
|  . . . . U U . . . . Antonio Castro Snurmacher  acastro@ciberdroide.com  |  
|  . . . . . . . . . .                                                     | 
+()()()----------()()()----------------------------------------------------+
| *** 1.700 sitios clasificados por temas sobre Linux en ***Donde_Linux*** |
| <<< http://www.ciberdroide.com/misc/donde/dondelinux.html >>>            |
+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+




Reply to: