[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Mail archive indexing (for gnus/nnir or just standalone)



On 2003.07.04 at 17:38:38 +0300, Dmitry Astapov wrote:

> 
> Добрый день,
> 
> Хочу поискать чужого опыта в области индексирования/поиска по большим
> объемам почты. Что есть: XEmacs/Gnus для чтения/манипуляций с почтой. Все
> замечательно, не хватает только возможности быстро (за единицы секунд)
> перелопатить много (около гига) почты и найти там нужные сообщения. Чего не
> хочется: перегонять почту в html через mhonarc и напускать на результат
> какой-либо html search engine. Причина - результатом поиска является некое
> множество почты, и с ним хочется работать привычным способом, т.е. через
> Gnus.
> 
> Для Gnus есть nnir, который предоставляет как раз такую функциональность -
> использовать результаты command line full-text search tool для построения
> виртуального фолдера с найденой почтой. Nnir умеет работать с glimpse,
> namazu, swish-e и swish++. У них у всех есть проблемы: 1)с русским, 2)с
> MIME вообще и QP/base64 в частности.
> 
> Кто может указать начало дороги к счастью? :)

Насчет начала дороги не скажу, а пару дорожных указателей выставлю:

1. Всякие web-овские искалки, например mnogosearch (рекомендую всячески)
умеют индексировать не только html. Plain text (каковым является
содержимое Maildir) он тоже прекрасно отиндексирует. И даже можно
научить его это делать без использования http, хотя немного
нетривиально.

2. Результаты индексирования хранятся в базе данных, лазить в которую
можно не только через родную CGI-шку. А можно, например, напрямую с
помощью командно-строчнго sql-клиента или перлового скрипта. 

Собственно в Communiware  примерно так и делалось - индексировались не
веб-страницы, а итемы content-management-системы, которые отдавались
индексатору по очень специальному шаблону. А искалка была встроена в
саму CMS.

3. Даже если пользоваться родной CGI-шкой, никто не мешает написать
скриптик на shell с использованием wget или на Perl с использованием
LWP, который будет предоставлять командно-строчный интерфейс,
удовлетворяющий nnir. Хотя, собственно, зачем тут вообще HTTP?
Собственно чем данный скрипт хуже апача - может и сам CGI-шку запустить
и ее stdout прочитать. Для почты отсутствие лишних сетевизмов может
оказаться очень даже полезным.  



Reply to: