[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Анонс: легковесная система полнотекстового поиска



Alexey Pechnikov -> debian-russian@lists.debian.org  @ Thu, 4 Feb 2010 16:28:42 +0300:

 >> Тогда уж exec cat — ещё 20% выигрыша.

 AP> А можете подробнее рассказать? Я не в курсе, что с exec может быть быстрее.

На самом деле быстрее - вряд ли.  Это потеря скорее в памяти.  exec -
запуск без fork, с заменой бинаря по месту.  В результате запустивший
процесс не ждет завершения запущенной команды, оставаясь шеллом и тратя
память, а сам ею становится.

 >> От untex, unrtf и т.п. зависимость должна быть мягкой.

 AP> Это можно, поправлю.

 >> А кое где даже
 >> вариативной — wv и unrtf можно заменить catdoc, antiword или word2x, для
 >> w3m тоже куча альтернатив (включая w3mmee).

 AP> Нельзя заменить - форматирование слетит.

Зато, возможно, начнут читаться документы от доюникодного ворда - catdoc
это умеет, а wv, помнится, нет.  У тебя там как раз в примерах был файл,
title у которого, судя по выводу, еще с тех времен тянется :-)

 AP> А при указанных сейчас зависимостях полученный plain text сохраняет
 AP> даже вордовские таблички, так что можно оригинальный документ и
 AP> вовсе не скачивать, обходясь без опенофиса и малой толикой
 AP> интернет-трафика.

Ну, собственно, если сделать зависимости мягкими, то все станет гораздо
лучше.  Ибо если уперлось, то подсунуть фильтром catdoc, я думаю,
реально - исходник-то есть...

-- 
The Eclipse Platform is an open and extensible platform
for anything and yet nothing in particular.
 -- apt-cache show eclipse-platform


Reply to: