[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Logiciels d'indexage (was: BTS)



On Mon, Aug 11, 2003 at 08:56:52 +0200, Nicolas Ledez wrote:
> Dans index, il falait bien comprendre :
> J'ai un paquet de fichiers (je simplifie) et quand je lance en
> grep-indexé, il me trouve plus facillement les résultats.

sauf qu'on ne fait pas un grep, car un grep, ça rame. Il faudrait
un algo par arbre de recherche ou similaire, et dans l'idéal indexer
tous les suffixes des textes (et pouvoir faire une recherche par
préfixe). Enfin, quelque chose du genre.

Pour namazu2, il semble qu'il soit assez mauvais: d'après la doc,
on ne peut rechercher rapidement que des mots complets.

> Si c'est rechercher dans les entêtes, l'index est relativement facile à
> faire. Mais quand il faut chercher dans le corps du message ? A-t-on
> vraiment un gain en utilisant un index ?

Sans index, c'est en temps linéaire en fonction de la taille totale
des documents (e.g. 100 Mo pour mes archives de mail). Avec un bon
index (mais qui risque de prendre de la place), ça se fait en temps
constant (en fait, en temps linéaire en fonction de la longueur du
terme recherché). Il y a certainement un compromis entre ces deux
solutions pour avoir un index qui ne prend pas énormément de place
et une recherche assez rapide (de l'ordre de la seconde).

-- 
Vincent Lefèvre <vincent@vinc17.org> - Web: <http://www.vinc17.org/> - 100%
validated (X)HTML - Acorn Risc PC, Yellow Pig 17, Championnat International
des Jeux Mathématiques et Logiques, TETRHEX, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA



Reply to: