Re: Анонс: легковесная система полнотекстового поиска
Alexey Pechnikov -> debian-russian@lists.debian.org @ Thu, 4 Feb 2010 16:28:42 +0300:
>> Тогда уж exec cat — ещё 20% выигрыша.
AP> А можете подробнее рассказать? Я не в курсе, что с exec может быть быстрее.
На самом деле быстрее - вряд ли. Это потеря скорее в памяти. exec -
запуск без fork, с заменой бинаря по месту. В результате запустивший
процесс не ждет завершения запущенной команды, оставаясь шеллом и тратя
память, а сам ею становится.
>> От untex, unrtf и т.п. зависимость должна быть мягкой.
AP> Это можно, поправлю.
>> А кое где даже
>> вариативной — wv и unrtf можно заменить catdoc, antiword или word2x, для
>> w3m тоже куча альтернатив (включая w3mmee).
AP> Нельзя заменить - форматирование слетит.
Зато, возможно, начнут читаться документы от доюникодного ворда - catdoc
это умеет, а wv, помнится, нет. У тебя там как раз в примерах был файл,
title у которого, судя по выводу, еще с тех времен тянется :-)
AP> А при указанных сейчас зависимостях полученный plain text сохраняет
AP> даже вордовские таблички, так что можно оригинальный документ и
AP> вовсе не скачивать, обходясь без опенофиса и малой толикой
AP> интернет-трафика.
Ну, собственно, если сделать зависимости мягкими, то все станет гораздо
лучше. Ибо если уперлось, то подсунуть фильтром catdoc, я думаю,
реально - исходник-то есть...
--
The Eclipse Platform is an open and extensible platform
for anything and yet nothing in particular.
-- apt-cache show eclipse-platform
Reply to: