[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Logiciels d'indexage



On Tue, Aug 12, 2003 at 00:57:43 +0200, Vincent Bernat wrote:
> OoO En cette fin de matinée radieuse du lundi 11 août 2003, vers
> 11:06, Nicolas Ledez <debianfr_ml01@les-ledez.com> disait:
> 
> > C'est bien ce que je disait, il faut extraire tout les mots et le
> > mettres dans une struture de recherche rapide (arbre, hash, ...), leurs
> > faire correspondre les ID des messages,...
> > Donc pour 10Mo de mails, tes index vont faire 10-15 Mo
> 
> J'indexe 500 Mo de mails avec swish++, la recherche est de l'ordre de
> la seconde et l'index fait 17 Mo. Tu as des mails où chaque mot est
> distinct ?

Tu peux aussi rechercher des sous-mots, avec une recherche de l'ordre
de la seconde? C'est important pour rechercher à la fois le singulier
et le pluriel, ou l'ensemble des formes d'un verbe ou quand on a des
mots composés, ou quand quelqu'un écrit "mettres" au lieu de "mettre"
:), etc.

Ça ne pose pas de problème avec les mots accentués (la FAQ dit que
swish++ ne marche pas bien pour les langues autres que l'anglais).

-- 
Vincent Lefèvre <vincent@vinc17.org> - Web: <http://www.vinc17.org/> - 100%
validated (X)HTML - Acorn Risc PC, Yellow Pig 17, Championnat International
des Jeux Mathématiques et Logiques, TETRHEX, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA



Reply to: