[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Анонс: легковесная система полнотекстового поиска



Hello!

On Thursday 04 February 2010 17:36:32 Artem Chuprina wrote:
> Alexey Pechnikov -> debian-russian@lists.debian.org  @ Thu, 4 Feb 2010 16:28:42 +0300:
> 
>  >> Тогда уж exec cat — ещё 20% выигрыша.
> 
>  AP> А можете подробнее рассказать? Я не в курсе, что с exec может быть быстрее.
> 
> На самом деле быстрее - вряд ли.  Это потеря скорее в памяти.  exec -
> запуск без fork, с заменой бинаря по месту.  В результате запустивший
> процесс не ждет завершения запущенной команды, оставаясь шеллом и тратя
> память, а сам ею становится.

Попробую.

>  >> От untex, unrtf и т.п. зависимость должна быть мягкой.
> 
>  AP> Это можно, поправлю.
> 
>  >> А кое где даже
>  >> вариативной — wv и unrtf можно заменить catdoc, antiword или word2x, для
>  >> w3m тоже куча альтернатив (включая w3mmee).

Recommends и depends нынче эквивалентны. Разве что в Suggests поставить.

>  AP> Нельзя заменить - форматирование слетит.
> 
> Зато, возможно, начнут читаться документы от доюникодного ворда - catdoc
> это умеет, а wv, помнится, нет.  У тебя там как раз в примерах был файл,
> title у которого, судя по выводу, еще с тех времен тянется :-)

Метаинформация утилитой extract из одноменного пакета обрабатывается,
фильтры здесь ни при чем. А наибольшие проблемы с pdf возникают.

>  AP> А при указанных сейчас зависимостях полученный plain text сохраняет
>  AP> даже вордовские таблички, так что можно оригинальный документ и
>  AP> вовсе не скачивать, обходясь без опенофиса и малой толикой
>  AP> интернет-трафика.
> 
> Ну, собственно, если сделать зависимости мягкими, то все станет гораздо
> лучше.  Ибо если уперлось, то подсунуть фильтром catdoc, я думаю,
> реально - исходник-то есть...

Suggests придется ручками доставлять, а мне бы хотелось автоматизма.

Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Reply to: