[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Фильтры документов для системы полнотекстового поиска



On Fri, Nov 06, 2009 at 05:21:53PM +0300, Alexey Pechnikov wrote:
> > > Хотелось бы что-то без такого количества зависимостей.
> > Посмотрите конверторы от recoll (а возможно, и вся софтина
> > подойдёт, 
> Не знал такого, посмотрел. Реализовано не совсем криво, хотя выбран явно
> не лучший вариант многих конверторов. Имхо оптимально преобразовывать
> офисные документы в html, а потом в txt с помощью w3m - на мой вкус 
> получается почти идеально. Например, с помощью catppt результат, мягко 
> говоря, неадекватный, до уровня ppthtml+w3m абсолютно не дотягивает.
> 
> Смотрел не очень внимательно, но, похоже, индексируют по расширению,
> а не по mime-типу. Установки пониженного приоритета для фильтров
> не нашел... Мета-тэги засовываются в head, а тело документа, 
> преобразованное в текст, в body/pre... xattr, видимо,  не поддерживаются, 
> и то хорошо - иначе даже боюсь подумать, куда бы их могли засунуть...

См. тж. mimeconf, mimemap в комплекте или ~/.recoll/; насчёт nice
-- резонно (на линуксе ещё бы и ionice при возможности заюзывать).

> Что интересно, обещана интересная фича - переключение стеммера на 
> уровне поискового запроса. Получается, стеммер только для запроса 
> используют, а при индексировании - нет?

Простите за "оперативный" ответ -- Вас не затруднит связаться
с автором, если софтинка пригодилась?  Он *очень* адекватный,
один из моих любимых апстримов.

Себе в архив отложил, но не уверен, что успею оперативно:
- перевести-отослать
- отхэндлить дальнейшую переписку

> > либо захочется станцевать от xapian-core -- движок очень
> > достойный, локально даёт фору гуглю при работе по почтовому
> > архиву даже в его публичной части).
> В чем именно дает фору?

В результативности.  Порой находится то, что по гуглю не
находится вообще (причём потом откапывается руками в /pipermail);
как правило, релевантность _для меня_ также не хуже или заметно
лучше.

> > BTW кое-кто вроде RFP вешал с год тому, нет? ;-)
> А это кому вопрос?

К dottedmag@ IIRC.

> P.S. Кстати, я что-то не понимаю, или ни один из индексаторов
> не предусматривает способа запретить индексирование директории,
> положив туда файлик вида .noindex?

recoll умеет множественные исключения (как и множественные
toplevel dirs).

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


Reply to: