[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: la comodidad de /usr/share/doc



Ha! por cierto..

Felices Pascuas


Quisiera seguir expandiendo el tema por si alguien lo implementa y choca
con las piedras que yo estoy chocando, ya tenga una solucion de
antemano.

Al que no le interese el tema por favor NO siga leyendo este
correo pues esta bastante largo.

Como esto es sobre "mnogosearch" me parece que deberia ser OT en
el asunto; pero bueno. Aqui voy aver que pasa. Si este tema no va de
acorde con la lista, por favor aganmelo saber.
De acuerdo?
Para no seguir posteando fuera de asunto y pasar una pena.


En indexer.conf se definen los MINEs. Los comentario han de ser
retirados segun tengamos instalados los programas indicados para hacer
las converciones de MINEs. Pero como diria el forense...
"ballamos por partes"

En..
#Section 2" 
#URL control configuration

Tenemos una gran lista de Disallows que deberan ser comentarizados (o
borrados) segun se balla estableciendo la disponibilidad de las
converciones de MINE. Por lo que entiendo mnogosearch solo procesa dos
mines estandar:

"text/plain" y "text/html" asique para poder indexar el contenido de los
ficheros PDF debemos hacer una convercion de MINE. Entonces para evitar
que mnogoserch pruebe toooooooooooooooodos los ficheros que encuentre
por el camino; yo borro todos los "Disallow" y lo dejo de la siguiente
manera.

Allow *.html *.htm *.txt *.ps *.pdf *.sh *.pl *.py */ NoCase
Disallow *

El parametro NoCase indica que no se distinga minusculas de MAYUSCULAS
asi no tenemos que declarar las extensiones dos veces (.ext .EXT)

Como yo tengo 300 Mhz de microprocesador le digo con esas dos lineas que
solo escanee por las extenciones especificadas arriba y el resto
(Disallow *) que lo omita para hacer mas rapido el proceso.

Ahora declaremos los MINEs en.

#Section 3.
#Mime types and external parsers.

AddType	text/plain  *.txt  *.pl *.sh *.py README INSTALL NoCase

y declaramos que los script's y los README's e INTALL's son texto
para evitar un RTFM como respuesta algun dia.

AddType	text/html *.html *.htm NoCase

esto se "cae de la mata"(cubanismo para expresar que algo es muy logico)
que es para declarar los html's son mine HTML

Pero ahora "mucho ojo" declaramos los MINES que deben ser convertidos

AddType application/pdf  *.pdf NoCase
AddType text/x-postscript  *.ps NoCase

Pero eso NO puedes ser procesado. Hay que convertirlo. Mas abajo pero en
la misma seccion, esta el "<from_mime> and <to_mime>" y ahi es donde
esta el "meoyo" del asunto. Estan comentarizado y lo descomentarizamos
segun tengamos el programa para convertirlo. En debian no estoy seguro
si estan todos ya instalados. Pero creo que para los pdf (pdftotext)
necesitamos instalar un paquete llamado "pdftools" o algo parecido
NO ESTOY MUY SEGURO. Para el que ya tenga ps2ascii (creo que biene con
debian) y para el que ya alla instalado "pdftotext" la convercion le
quedaria asi.

Mime text/x-postscript  text/plain   "ps2ascii"
Mime application/pdf    text/plain   "pdftotext $1 -"

Note que tambien se puede hacer con otras formatos como DOC XLS PPT y
creo que hasta troff o man; algo como eso. Lo que seria bien bueno
indexar las paginas de "man" tambien.

Para terminar les diria que si corren el comando

indexer -Eblob
Le optimiza MUCHO la velocidad de busqueda.

Tambien...

indexer -C
Borra todo el contenido de la base de datos. Util para cuando cambiamos
la configuracion

indexer -Ecreate
Crea una nueva estructura vacia en la base de datos. Util para cuando
metemos la pata.

Disculpen por el periodico.

con el asunto > Re: la comodidad de /usr/share/doc
Juan Lavieri <jlavieri@gmail.com> escribio:
>
> Hola Lázaro, lista.
> 
> Lazaro escribió:
> > lo que tenemos que hacer los Cubanos Sin internet es:
> >
> > instalar mnogosearch y agregarle la ruta /usr/share/doc en el
> > indice. Eso los hacemos de la siguiente manera (sencillo)
> >
> >   echo 'Server file:///usr/share/doc/' >>
> >   /etc/mnogosearch/indexer.conf
> >
> > Despues corremos el comando 
> >
> > indexer
> >
> > para crear la base de datos con el indice de busqueda (facilito) y
> > en debian la base de datos se crea con un asistente durante la
> > instalacion. Puede ser de "MySQL", "PgSQL" y hasta "sqlite" para los
> > mas necesitados.
> >
> > Cuando el proceso termine abrimos un navegador y apuntamos a la
> > direccion.
> >
> > http://localhost/cgi-bin/search.cgi
> >
> > Nos econtraremos un buscador con el contenido de /usr/share/doc
> > indexado y listo para una consulta. Entonces antes de postear algo
> > en la lista los buscamos alli. Esa es una forma de usar
> > /usr/share/doc un poco mas comoda. Ademas; yo pongo toda la
> > documentacion que me van dando en una carpeta y la indexo tambien,
> > seria algo como.
> >
> > Server file:///usr/share/doc/
> > Server file:///home/leviatan/Documentacion/
> >
> >
> > Asi me aseguro de explotar todos mis
> > recursos antes de prguntar en la lista. No estoy muy seguro pero
> > creo que bien configurado tambien puede indexar paginas de man.








____________________________________________
(\__/)  Este es Conejo.
(='.'=) Copia a Conejo en tu firma y ayudale
(")_(") en sus planes de conquista mundial.



Reply to: