[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: keywords Linux-Tips [Proyecto ayuda]



On Sat, 25 Aug 2001, Fermín Manzanedo wrote:

Voy a jugar a documentalista que no lo soy pero así me
divierto yo también un poquito. :-)

En mi nada experta opinión:

> Hola, 
> a ver que os parece (a mi me parece que me he pasado un poco):
> 
> * Trucos. 
Puede valer
> * Consejos.
Puede valer
> * Ahorrar tiempo.
Muy dudosa
> * Fácil.
Creo que no es un término excesivamente corriente
> * Ayuda. (<-- ¿de qué me suena esto? ;-)
Creo que no es un término excesivamente corriente
> * Mover.
Creo que no es un término excesivamente corriente
> * Directorios.
Creo que no es un término excesivamente corriente

Seguramente si valdría usar 'Mover directorios' todo junto.
> * VPATH.
Puede valer

> * make 3.70
Puede valer
> * fsck
Puede valer
> * arrancar.
Creo que no es un término excesivamente corriente
> * device busy.
Puede valer
> * imprimir.
Dudosa, habrá muchos documentos que cuadren mejor con esta clave
> * margen.
Creo que no es un término excesivamente corriente
> * limpiar.
Creo que no es un término excesivamente corriente
> * ficheros.
Creo que no es un término excesivamente corriente
> * comprimir.
Creo que no es un término excesivamente corriente
> * compartir.
Creo que no es un término excesivamente corriente
> * particiones.
Creo que no es un término excesivamente corriente
> * swap.
Puede valer
> * xdm.
Puede valer
> * host.
Puede valer
> 
> Bueno, pues ahí están mis palabras clave.

Bueno no todo van a ser críticas a los demás. Este ejemplo me viene 
de perlas para poner a prueba mi programa.

He realizado un programita en C que cuenta el número de ocurrencias
de cada palabra. Está basada en el uso de una tabla hash y lo cierto
es que ni recordaba bien como se hacía. Lo que yo he echo seguramente
no es muy eficiente pero basta y sobra para hacer pruebas.

He tomado como muestra de referencia el conjunto de los siguientes 
ficheros:

FIPS-Como, Fuente-ISO-Como, Gravis-UltraSound-Como, Guia_del_enROOTador.txt
InfoSheet-Como, Infovia-Como, JAZ-Como, Kernel-Como, LIPP-1.0, LUCAS-COMO
LUCAS-HOWTO, Linux-DOS-Win95-OS2.Como, Linux-Tips-Como, Linuxdoc-Como.sgml
Linuxdoc-Ejemplo.sgml, Lscolor-Como, MetaFaq-Como, NIS-Como, Noticias-Como
PPP-Como, Printing-COMO, RDSI-Como, Raton_3_botones-Como, Samba-Como
Sonido-Como, Spanish-Como, Term-Como, UUCP-Como, Umsdos-Como, lilo,
Uso-Impresion-Como, XFree86-Como, ZIP-Como, bios, fsstnd12, guiadef099
fuente_ISO-2-COMO, garl-0.12, gulp-0.11.txt, indice, lpr, metaFaq-INSFLUG, 
quake, rapido-plip sendmail-minicomo.txt, slip, termserie, xf86quake-COMO

El programa ha procesado 491669 palabras.
Ha obtenido un total de 25245 palabras distintas.

De estas 25245 palabras la didtribución es como sigue:

10149 aparecen una sola vez. (Algunas son muy raras o son erratas)
 4245 aparecen 2 veces.
 1968 aparecen 3 veces.
 1328 aparecen 4 veces.
  860 aparecen 5 veces.
...  ... ... ... ... 

La palabra EN aparece 11744 veces.
La palabra LA aparece 11953 veces.
La palabra EL aparece 14851 veces.
La palabra DE aparece 18789 veces.



Después he procesado unicamente 'Linux-Tips-Como'. 


El programa ha procesado 1106 palabras.
Ha obtenido un total de 524 palabras distintas.

No tengo desarrollada la parte que me permita comprobar automáticamente
ambos resultados y por ello he tenido que fijarme en unas cuantas
palabras y clacular manualmente.

              N1        NT      (N1/1106)/(NT/491669) = Interes
             ----     ----      ---------------------  --------
FICHEROS      12      1511      .01085 / .0030732   = 3.5305219
LINUX         10      3895      .00904 / .0079219   = 1.1411403
COMO          10      3279      .00904 / .0066691   = 1.3555052
PARTICION      8        23      .00723 / .0000467   = 154.8179871
SWAP           8       127      .00723 / .0002583   = 27.9907084
TIPS           7        17      .00633 / .0000345   = 183.4782608

Observaciones:
1) Se ha de descartar siempre las palabras 'EN', 'LA', 'EL', 'DE' y un
largo etc como palabras no significativas. (Está por hacer)

2) La muestra no es buena. Debería ser mayor y no solo relativa a un 
tipo de documentos. Las palabras LINUX y COMO aparecen como palabras
de uso muy frecuente cuando en realidad eso se debe a la muestra.

3) De la seleccion de palabras que hemos tomado para comparar
su frecuencia en relación a su frecuencia en la muestra destacan
la palabra TIPS, la palabra PARTICION y en menor medida la palabra
SWAP. 

Conclusiones:
La prueba no es completa solo se han comparado unas pocas palabras
y no precisamente al azar,  pero ya ha servido para ver como unas
palabras pueden ser destacadas más que otras.

Solo ha sido una prueba.
Quizas el perl sea mucho más adecuado para estas cosas. 

> Como lo he hecho: me he puesto en el pellejo de alguien que quiera saber algo de lo que aparecía, pensando en que palabras introduciría para buscar la información.
> 
> Buffff si de 5 páginas me salen 21... no quiero pensar cuando el HOWTO sea más largo :-\ Lo bueno es que también será menos variado.

Esa es precisamente la cuestión. Cualquier ayudita por pobre que sea
va a venir bien para esto. Creo para documentos cortos no va a merecer
la pena obtener supuestas palabras interesantes por medios automáticos
pero para documentos largos quizás si.



Un saludo

Antonio Castro

+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+
        /\     /\      Ciberdroide Informática (Tienda de Linux)
          \\W//            <<< http://www.ciberdroide.com >>>
	 _|0 0|_                                                    
+-oOOO--(___o___)--OOOo----------------------------------------------------+ 
|  . . . . U U . . . . Antonio Castro Snurmacher  acastro@ciberdroide.com  |  
|  . . . . . . . . . .                                                     | 
+()()()----------()()()----------------------------------------------------+
| *** 1.700 sitios clasificados por temas sobre Linux en ***Donde_Linux*** |
| <<< http://www.ciberdroide.com/misc/donde/dondelinux.html >>>            |
+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+--+




Reply to: