Re: Фильтры документов для системы полнотекстового поиска
Hello!
On Friday 06 November 2009 02:43:42 Michael Shigorin wrote:
> > Хотелось бы что-то без такого количества зависимостей.
>
> Посмотрите конверторы от recoll (а возможно, и вся софтина
> подойдёт,
Не знал такого, посмотрел. Реализовано не совсем криво, хотя выбран явно
не лучший вариант многих конверторов. Имхо оптимально преобразовывать
офисные документы в html, а потом в txt с помощью w3m - на мой вкус
получается почти идеально. Например, с помощью catppt результат, мягко
говоря, неадекватный, до уровня ppthtml+w3m абсолютно не дотягивает.
Смотрел не очень внимательно, но, похоже, индексируют по расширению,
а не по mime-типу. Установки пониженного приоритета для фильтров
не нашел... Мета-тэги засовываются в head, а тело документа,
преобразованное в текст, в body/pre... xattr, видимо, не поддерживаются,
и то хорошо - иначе даже боюсь подумать, куда бы их могли засунуть...
Что интересно, обещана интересная фича - переключение стеммера на
уровне поискового запроса. Получается, стеммер только для запроса
используют, а при индексировании - нет?
> либо захочется станцевать от xapian-core -- движок
> очень достойный, локально даёт фору гуглю при работе по почтовому
> архиву даже в его публичной части).
В чем именно дает фору? Из достойных движков я для себя только один
нашел - FTS3 в SQLite. Но это именно движок, а фильтры, морфология,
словари стоп-слов и синонимов и проч. - на совести пользователей. Можно
к нему еще zlib прикрутить, тесты я недавно в рассылку SQLite посылал.
> BTW кое-кто вроде RFP вешал с год тому, нет? ;-)
А это кому вопрос?
P.S. Кстати, я что-то не понимаю, или ни один из индексаторов не предусматривает
способа запретить индексирование директории, положив туда файлик вида
.noindex?
Best regards, Alexey Pechnikov.
http://pechnikov.tel/
Reply to: