El sáb, día 25 de ago de 2001, a las 11:38:51 +0200, Antonio Castro decía: > > > > * Mover. > Creo que no es un término excesivamente corriente > > * Directorios. > Creo que no es un término excesivamente corriente > > Seguramente si valdría usar 'Mover directorios' todo junto. Hombre yo consideraba la suma: mover + directorios = mover directorios > > * VPATH. > Puede valer > Una pregunta, ¿a qué te refieres con "> Creo que no es un término excesivamente corriente"? Me parece que o yo me he equivocado o no te entiendo. A ver, por lo que yo he entendido se pretende sacar las palabras clave de ESTE documento, no hacer el thesauro. No se si irás por ahí. > Bueno no todo van a ser críticas a los demás. Este ejemplo me viene > de perlas para poner a prueba mi programa. > Constructivas ;-) > He tomado como muestra de referencia el conjunto de los siguientes > ficheros: > > FIPS-Como, Fuente-ISO-Como, Gravis-UltraSound-Como, Guia_del_enROOTador.txt > InfoSheet-Como, Infovia-Como, JAZ-Como, Kernel-Como, LIPP-1.0, LUCAS-COMO > LUCAS-HOWTO, Linux-DOS-Win95-OS2.Como, Linux-Tips-Como, Linuxdoc-Como.sgml > Linuxdoc-Ejemplo.sgml, Lscolor-Como, MetaFaq-Como, NIS-Como, Noticias-Como > PPP-Como, Printing-COMO, RDSI-Como, Raton_3_botones-Como, Samba-Como > Sonido-Como, Spanish-Como, Term-Como, UUCP-Como, Umsdos-Como, lilo, > Uso-Impresion-Como, XFree86-Como, ZIP-Como, bios, fsstnd12, guiadef099 > fuente_ISO-2-COMO, garl-0.12, gulp-0.11.txt, indice, lpr, metaFaq-INSFLUG, > quake, rapido-plip sendmail-minicomo.txt, slip, termserie, xf86quake-COMO > > El programa ha procesado 491669 palabras. > Ha obtenido un total de 25245 palabras distintas. > > De estas 25245 palabras la didtribución es como sigue: > > 10149 aparecen una sola vez. (Algunas son muy raras o son erratas) > 4245 aparecen 2 veces. > 1968 aparecen 3 veces. > 1328 aparecen 4 veces. > 860 aparecen 5 veces. > ... ... ... ... ... > > La palabra EN aparece 11744 veces. > La palabra LA aparece 11953 veces. > La palabra EL aparece 14851 veces. > La palabra DE aparece 18789 veces. > > > > Después he procesado unicamente 'Linux-Tips-Como'. > > > El programa ha procesado 1106 palabras. > Ha obtenido un total de 524 palabras distintas. > > No tengo desarrollada la parte que me permita comprobar automáticamente > ambos resultados y por ello he tenido que fijarme en unas cuantas > palabras y clacular manualmente. > > N1 NT (N1/1106)/(NT/491669) = Interes > ---- ---- --------------------- -------- > FICHEROS 12 1511 .01085 / .0030732 = 3.5305219 > LINUX 10 3895 .00904 / .0079219 = 1.1411403 > COMO 10 3279 .00904 / .0066691 = 1.3555052 > PARTICION 8 23 .00723 / .0000467 = 154.8179871 > SWAP 8 127 .00723 / .0002583 = 27.9907084 > TIPS 7 17 .00633 / .0000345 = 183.4782608 > Hoy estoy espeso. ¿N1=número de veces que aparece en Linux-Tips? ¿NT=Total muestra? El resto ¿calcula el peso? > > Esa es precisamente la cuestión. Cualquier ayudita por pobre que sea > va a venir bien para esto. Creo para documentos cortos no va a merecer > la pena obtener supuestas palabras interesantes por medios automáticos > pero para documentos largos quizás si. > Me parece bien, pero siempre hay que leer. Un ejemplo, en la tabla que hay arriba: partición swap aparece más veces que, por ejemplo, device busy, y sin embargo para mi definen igualmente el documento. ¿Por qué aparece una más que otra?, porque "partición swap" está dentro de lo que son las ayudas largas y "device busy" entre las ayudas cortas. De todas formas, como tu dices esto es una prueba. Poco a poco, y con ayuda me Maribel, iremos mejorando (confieso que es la primera vez que saco palabras clave de un documento; esquemas y resúmenes si había hecho pero esto, nunca). Un saludo -- Fermín Manzanedo Guzmán | Badajoz - Spain http://www.terra.es/personal/fmg4647/home.html | Usuario Linux #184967 Desde Toshiba2140CDS | Debian GNU/Linux 2.2 mail -s "gpg public key" fmangu@teleline.es < /dev/null
Attachment:
pgpy0otrZUElh.pgp
Description: PGP signature