Re: Анонс: легковесная система полнотекстового поиска
Hello!
On Thursday 04 February 2010 17:36:32 Artem Chuprina wrote:
> Alexey Pechnikov -> debian-russian@lists.debian.org @ Thu, 4 Feb 2010 16:28:42 +0300:
>
> >> Тогда уж exec cat — ещё 20% выигрыша.
>
> AP> А можете подробнее рассказать? Я не в курсе, что с exec может быть быстрее.
>
> На самом деле быстрее - вряд ли. Это потеря скорее в памяти. exec -
> запуск без fork, с заменой бинаря по месту. В результате запустивший
> процесс не ждет завершения запущенной команды, оставаясь шеллом и тратя
> память, а сам ею становится.
Попробую.
> >> От untex, unrtf и т.п. зависимость должна быть мягкой.
>
> AP> Это можно, поправлю.
>
> >> А кое где даже
> >> вариативной — wv и unrtf можно заменить catdoc, antiword или word2x, для
> >> w3m тоже куча альтернатив (включая w3mmee).
Recommends и depends нынче эквивалентны. Разве что в Suggests поставить.
> AP> Нельзя заменить - форматирование слетит.
>
> Зато, возможно, начнут читаться документы от доюникодного ворда - catdoc
> это умеет, а wv, помнится, нет. У тебя там как раз в примерах был файл,
> title у которого, судя по выводу, еще с тех времен тянется :-)
Метаинформация утилитой extract из одноменного пакета обрабатывается,
фильтры здесь ни при чем. А наибольшие проблемы с pdf возникают.
> AP> А при указанных сейчас зависимостях полученный plain text сохраняет
> AP> даже вордовские таблички, так что можно оригинальный документ и
> AP> вовсе не скачивать, обходясь без опенофиса и малой толикой
> AP> интернет-трафика.
>
> Ну, собственно, если сделать зависимости мягкими, то все станет гораздо
> лучше. Ибо если уперлось, то подсунуть фильтром catdoc, я думаю,
> реально - исходник-то есть...
Suggests придется ручками доставлять, а мне бы хотелось автоматизма.
Best regards, Alexey Pechnikov.
http://pechnikov.tel/
Reply to: