Re: Фильтры документов для системы полнотекстового поиска
On Fri, Nov 06, 2009 at 05:21:53PM +0300, Alexey Pechnikov wrote:
> > > Хотелось бы что-то без такого количества зависимостей.
> > Посмотрите конверторы от recoll (а возможно, и вся софтина
> > подойдёт,
> Не знал такого, посмотрел. Реализовано не совсем криво, хотя выбран явно
> не лучший вариант многих конверторов. Имхо оптимально преобразовывать
> офисные документы в html, а потом в txt с помощью w3m - на мой вкус
> получается почти идеально. Например, с помощью catppt результат, мягко
> говоря, неадекватный, до уровня ppthtml+w3m абсолютно не дотягивает.
>
> Смотрел не очень внимательно, но, похоже, индексируют по расширению,
> а не по mime-типу. Установки пониженного приоритета для фильтров
> не нашел... Мета-тэги засовываются в head, а тело документа,
> преобразованное в текст, в body/pre... xattr, видимо, не поддерживаются,
> и то хорошо - иначе даже боюсь подумать, куда бы их могли засунуть...
См. тж. mimeconf, mimemap в комплекте или ~/.recoll/; насчёт nice
-- резонно (на линуксе ещё бы и ionice при возможности заюзывать).
> Что интересно, обещана интересная фича - переключение стеммера на
> уровне поискового запроса. Получается, стеммер только для запроса
> используют, а при индексировании - нет?
Простите за "оперативный" ответ -- Вас не затруднит связаться
с автором, если софтинка пригодилась? Он *очень* адекватный,
один из моих любимых апстримов.
Себе в архив отложил, но не уверен, что успею оперативно:
- перевести-отослать
- отхэндлить дальнейшую переписку
> > либо захочется станцевать от xapian-core -- движок очень
> > достойный, локально даёт фору гуглю при работе по почтовому
> > архиву даже в его публичной части).
> В чем именно дает фору?
В результативности. Порой находится то, что по гуглю не
находится вообще (причём потом откапывается руками в /pipermail);
как правило, релевантность _для меня_ также не хуже или заметно
лучше.
> > BTW кое-кто вроде RFP вешал с год тому, нет? ;-)
> А это кому вопрос?
К dottedmag@ IIRC.
> P.S. Кстати, я что-то не понимаю, или ни один из индексаторов
> не предусматривает способа запретить индексирование директории,
> положив туда файлик вида .noindex?
recoll умеет множественные исключения (как и множественные
toplevel dirs).
--
---- WBR, Michael Shigorin <mike@altlinux.ru>
------ Linux.Kiev http://www.linux.kiev.ua/
Reply to: