[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: keywords Linux-Tips [Proyecto ayuda]



El sáb, día 25 de ago de 2001, a las 11:38:51 +0200, Antonio Castro decía:

> > 
> > * Mover.
> Creo que no es un término excesivamente corriente
> > * Directorios.
> Creo que no es un término excesivamente corriente
> 
> Seguramente si valdría usar 'Mover directorios' todo junto.

Hombre yo consideraba la suma: mover + directorios = mover directorios

> > * VPATH.
> Puede valer
> 
Una pregunta, ¿a qué te refieres con "> Creo que no es un término excesivamente corriente"? Me parece que o yo me he equivocado o no te entiendo. A ver, por lo que yo he entendido se pretende sacar las palabras clave de ESTE documento, no hacer el thesauro. No se si irás por ahí.

> Bueno no todo van a ser críticas a los demás. Este ejemplo me viene 
> de perlas para poner a prueba mi programa.
> 
Constructivas ;-)

> He tomado como muestra de referencia el conjunto de los siguientes 
> ficheros:
> 
> FIPS-Como, Fuente-ISO-Como, Gravis-UltraSound-Como, Guia_del_enROOTador.txt
> InfoSheet-Como, Infovia-Como, JAZ-Como, Kernel-Como, LIPP-1.0, LUCAS-COMO
> LUCAS-HOWTO, Linux-DOS-Win95-OS2.Como, Linux-Tips-Como, Linuxdoc-Como.sgml
> Linuxdoc-Ejemplo.sgml, Lscolor-Como, MetaFaq-Como, NIS-Como, Noticias-Como
> PPP-Como, Printing-COMO, RDSI-Como, Raton_3_botones-Como, Samba-Como
> Sonido-Como, Spanish-Como, Term-Como, UUCP-Como, Umsdos-Como, lilo,
> Uso-Impresion-Como, XFree86-Como, ZIP-Como, bios, fsstnd12, guiadef099
> fuente_ISO-2-COMO, garl-0.12, gulp-0.11.txt, indice, lpr, metaFaq-INSFLUG, 
> quake, rapido-plip sendmail-minicomo.txt, slip, termserie, xf86quake-COMO
> 
> El programa ha procesado 491669 palabras.
> Ha obtenido un total de 25245 palabras distintas.
> 
> De estas 25245 palabras la didtribución es como sigue:
> 
> 10149 aparecen una sola vez. (Algunas son muy raras o son erratas)
>  4245 aparecen 2 veces.
>  1968 aparecen 3 veces.
>  1328 aparecen 4 veces.
>   860 aparecen 5 veces.
> ...  ... ... ... ... 
> 
> La palabra EN aparece 11744 veces.
> La palabra LA aparece 11953 veces.
> La palabra EL aparece 14851 veces.
> La palabra DE aparece 18789 veces.
> 
> 
> 
> Después he procesado unicamente 'Linux-Tips-Como'. 
> 
> 
> El programa ha procesado 1106 palabras.
> Ha obtenido un total de 524 palabras distintas.
> 
> No tengo desarrollada la parte que me permita comprobar automáticamente
> ambos resultados y por ello he tenido que fijarme en unas cuantas
> palabras y clacular manualmente.
> 
>               N1        NT      (N1/1106)/(NT/491669) = Interes
>              ----     ----      ---------------------  --------
> FICHEROS      12      1511      .01085 / .0030732   = 3.5305219
> LINUX         10      3895      .00904 / .0079219   = 1.1411403
> COMO          10      3279      .00904 / .0066691   = 1.3555052
> PARTICION      8        23      .00723 / .0000467   = 154.8179871
> SWAP           8       127      .00723 / .0002583   = 27.9907084
> TIPS           7        17      .00633 / .0000345   = 183.4782608
> 
Hoy estoy espeso. ¿N1=número de veces que aparece en Linux-Tips? ¿NT=Total muestra? El resto ¿calcula el peso? 

> 
> Esa es precisamente la cuestión. Cualquier ayudita por pobre que sea
> va a venir bien para esto. Creo para documentos cortos no va a merecer
> la pena obtener supuestas palabras interesantes por medios automáticos
> pero para documentos largos quizás si.
> 
Me parece bien, pero siempre hay que leer. Un ejemplo, en la tabla que hay arriba: partición swap aparece más veces que, por ejemplo, device busy, y sin embargo para mi definen igualmente el documento. ¿Por qué aparece una más que otra?, porque "partición swap" está dentro de lo que son las ayudas largas y "device busy" entre las ayudas cortas.

De todas formas, como tu dices esto es una prueba. Poco a poco, y con ayuda me Maribel, iremos mejorando (confieso que es la primera vez que saco palabras clave de un documento; esquemas y resúmenes si había hecho pero esto, nunca).

Un saludo
-- 
Fermín Manzanedo Guzmán  |  Badajoz - Spain
http://www.terra.es/personal/fmg4647/home.html | Usuario Linux #184967
Desde Toshiba2140CDS | Debian GNU/Linux 2.2 
mail -s "gpg public key" fmangu@teleline.es < /dev/null 

Attachment: pgpy0otrZUElh.pgp
Description: PGP signature


Reply to: