[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Utidad para indizar contenidos



2008/8/29 L. Paz <rpz011@gmail.com>:
> Hola.
>
> Expongo mi problema.
> Necesitaría que me recomendarais un programa/utilidad que permitiera
> la indexación del contenido de varios directorios residentes en varias
> particiones de varios discos duros de un servidor. Estos directorios
> contienen colecciones de ficheros en varios formatos. La mayor parte
> -más de un 95%- son ficheros de texto (ascii crudo, documentos de
> varias versiones del viejo WordPerrect, documentos de casi todas la
> versiones de MsWord, pdf, odt). También hay algunas ficheros de
> presentaciones, hojas de calculo, sonido y video. Son ficheros
> generados desde mediados de los 80, que estaban dispersos por
> diferentes servidores y que estamos tratando de reunir en una sola
> máquina para construir una especie de archivo digital. Se trata de
> unos 310.000 archivos y, por supuesto, no tenemos recursos para darles
> ningún tratamiento documental (p.ej., asignarles metadatos),
> organizarlos en colecciones y contruir un repositorio digital al
> estilo de los gestionados por DSpace, CDS-Invenio, Archon y similares.
>  Lo que buscamos es una herramienta que nos permita realizar búsquedas
> de texto en el título y/o contenido de los ficheros (para los de
> sonido y video, me conformaría que los localizara por el título) y que
> tuviera una interfaz de interrogación/presentación de resultados lo
> más amigable posible para usuarios finales (no informáticos, ni
> documentalistas). Los ideal sería que las consultas se pudieran
> realizar a través de una página web.
>
> Saludos a todo/as, y gracias anticipadas.
>
> RPZ
>

Saludos!

Es un trabajo enorme, pero se puede ir construyendo. No se si exista
un software que haga esto, pero si existen las herramientas que te
permiten hacerlo de manera mas o menos practica.

Lo que deberias de hacer es construir un base de datos con los
metadatos que tu estas buscando, por ejemplo:

Servidor, PathAbsoluto, NombredelArchivo, TipoDeArchivo, Titulo, Contenido

Y realizar una pequeña "araña", las arañas son algoritmos de busqueda
que indexan tus datos. Tampoco son complicados de programar, te
podrias chutar una araña en unas 10 lineas de codigo. Cuando encuentre
un archivo, revise de que tipo es y despues lo meta en la db.

Ya teniendo la db, ahora, cada vez que alguien busque algo, no lo hara
sobre tu sistema de archivo, sino sobre tu db. Asi sera rapidisimo, el
problema es el contenido, pues tardaras algo de tiempo para poder
buscar contenido en una base de datos enorme. Por eso google me sigue
sorprendiendo con sus bajisimas tazas de busqueda. Ellos implementan
listas ordenadas de tal forma que las busquedas sean casi constantes.
Recordando, google tiene un indexador de archivos, entre sus
aplicaciones, solo que funciona unicamente en windows (la ultima vez
que lo vi). Y me sigue sorprendiendo, en tu desktop puedes encontrar
practicamente cualquier cosa en un instante. Hasta el dato mas oscuro.

Haber deja reviso..., wow, google ya saco su Google Desktop para
linux, igual y lo puedes intentar:

http://desktop.google.com/es/linux/

Suerte!


-- 
Atte

ItZtLi

¤º°°º¤ø,¸¸,ø¤º°°º¤ø,¸¸,ø¤º°`°º¤ø,¸
 Nahui Tonalli Icniuhtli.
¤º°°º¤ø,¸¸,ø¤º°°º¤ø,¸¸,ø¤º°`°º¤ø,¸


Reply to: