[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Фильтры документов для системы полнотекстового поиска



Hello!

On Friday 06 November 2009 02:43:42 Michael Shigorin wrote:
> > Хотелось бы что-то без такого количества зависимостей.
> 
> Посмотрите конверторы от recoll (а возможно, и вся софтина
> подойдёт, 

Не знал такого, посмотрел. Реализовано не совсем криво, хотя выбран явно
не лучший вариант многих конверторов. Имхо оптимально преобразовывать
офисные документы в html, а потом в txt с помощью w3m - на мой вкус 
получается почти идеально. Например, с помощью catppt результат, мягко 
говоря, неадекватный, до уровня ppthtml+w3m абсолютно не дотягивает.

Смотрел не очень внимательно, но, похоже, индексируют по расширению,
а не по mime-типу. Установки пониженного приоритета для фильтров
не нашел... Мета-тэги засовываются в head, а тело документа, 
преобразованное в текст, в body/pre... xattr, видимо,  не поддерживаются, 
и то хорошо - иначе даже боюсь подумать, куда бы их могли засунуть...

Что интересно, обещана интересная фича - переключение стеммера на 
уровне поискового запроса. Получается, стеммер только для запроса 
используют, а при индексировании - нет?

> либо захочется станцевать от xapian-core -- движок
> очень достойный, локально даёт фору гуглю при работе по почтовому
> архиву даже в его публичной части).

В чем именно дает фору? Из достойных движков я для себя только один
нашел - FTS3 в SQLite. Но это именно движок, а фильтры, морфология,
словари стоп-слов и синонимов и проч. - на совести пользователей. Можно
к нему еще zlib прикрутить, тесты я недавно в рассылку SQLite посылал.

> BTW кое-кто вроде RFP вешал с год тому, нет? ;-)

А это кому вопрос?

P.S. Кстати, я что-то не понимаю, или ни один из индексаторов не предусматривает
способа запретить индексирование директории, положив туда файлик вида
.noindex?

Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Reply to: