Re: Анонс: легковесная система полнотекстового поиска

To: debian-russian@lists.debian.org
Subject: Re: Анонс: легковесная система полнотекстового поиска
From: Alexey Pechnikov <pechnikov@mobigroup.ru>
Date: Fri, 5 Feb 2010 19:03:57 +0300
Message-id: <[🔎] 201002051903.57779.pechnikov@mobigroup.ru>
Reply-to: pechnikov@sandy.ru
In-reply-to: <[🔎] hkhduf$p6q$2@ger.gmane.org>
References: <[🔎] 201002032348.34970.pechnikov@mobigroup.ru> <[🔎] 201002051818.57497.pechnikov@mobigroup.ru> <[🔎] hkhduf$p6q$2@ger.gmane.org>

Hello!

On Friday 05 February 2010 18:47:19 Serhiy Storchaka wrote:
> > On Friday 05 February 2010 18:13:24 Serhiy Storchaka wrote:
> >> Можно проверять дату последней модификации файла до вычисления хэша и
> >> определения типа mime. Это значительно ускорит повторное сканирование.
> > 
> > Проверка по mtime имхо совершенно ненадежна, предпочитаю по хэшу.
> 
> Можно ещё размер проверять (всё равно хранится). Или, для параноиков,
> idev:inode.

А вот это не годится. Данные могут быть перемещены на другой диск или даже на
другой компьютер, это не повод их переиндексировать.

> >> И разве в tcllib нет реализации md5, что дёргается внешний бинарник?
> > 
> > Покамест tcllib не использую, ради md5 не хочется лишнюю зависимость
> > тянуть. А так в моей сборке sqlite есть функция вычисления md5 для файла,
> > но это не всем удобно будет.
> 
> Ещё меня удивляет, зачем там утилиты на C. Ведь на том же тикле можно
> записать проще и понятнее.

Можно, только время запуска тиклевого интерпретатора на порядок больше. И если
логика индексации достаточна сложная и требует времени, то поиск должен быть
максимально ускорен. Раньше у меня в веб-портал была встроена работа с БД
поискового индекса, а теперь использую вызов внешних утилит - на коре квадро
порядка 1000 поисковых запросов в секунду отрабатывает, что значительно 
превышает мои потребности (насколько помню, у яху пиковая нагрузка несколько лет
назад составляла около 15 000 запросов в секунду).

Собственно, сейчас делаю вариант, где и листинг директорий шелловским скриптом 
генерируется. Накладные расходы выше, зато легко можно индексировать и архивы,
причем как распаковывая их, так и монтируя через fusе и т.п. Потом можно 
оптимизировать, переписав требуемые скрипты на тикле и включая их в индексатор
лишь единожды при запуске.

Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Reply to:

Follow-Ups:
- Re: Анонс: легковесная система полнотекстового поиска
  - From: Victor Wagner <vitus@wagner.pp.ru>
- Re: Анонс: легковесная система полнотекстового поиска
  - From: Artem Chuprina <ran@ran.pp.ru>

References:
- Анонс: легковесная система полнотекстового поиска
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Re: Анонс: легковесная система полнотекстового поиска
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Re: Анонс: легковесная система полнотекстового поиска
  - From: Serhiy Storchaka <storchaka@gmail.com>

Prev by Date: Re: Управление иксами по Alt-Ctrl-...
Next by Date: Re: Подошва сапога
Previous by thread: Re: Анонс: легковесная система полнотекстового поиска
Next by thread: Re: Анонс: легковесная система полнотекстового поиска
Index(es):
- Date
- Thread