Re: Продолжение [вопрос с библиотекой решен]

To: debian-russian@lists.debian.org
Subject: Re: Продолжение [вопрос с библиотекой решен]
From: Alexey Pechnikov <pechnikov@mobigroup.ru>
Date: Tue, 9 Feb 2010 22:20:54 +0300
Message-id: <[🔎] 201002092220.54961.pechnikov@mobigroup.ru>
Reply-to: pechnikov@sandy.ru
In-reply-to: <[🔎] 20100209180959.GC6167@nano.ioffe.rssi.ru>
References: <[🔎] 201002032348.34970.pechnikov@mobigroup.ru> <[🔎] 201002091803.02010.pechnikov@mobigroup.ru> <[🔎] 20100209180959.GC6167@nano.ioffe.rssi.ru>

Hello!

On Tuesday 09 February 2010 21:09:59 Иван Лох wrote:
> > Да вот не хотелось бы в базу _встраивать_ xslt-процессор, который в таком 
> 
> А чего та встраивать-то? Это маленькая библиотека.

Тоже верно - на фоне libICU, необходимой для поддержки юникода..

> Ну если парсер быстрый и один и тот-же то фрагмент один и тот-же будет получаться.
> Только страницу надо запоминать, чтобы все не преобразовывать.

Вот как пример поиска:

sqlite> select counter(1), snippet(file_text) from file_text where file_text match 'london';
1|<b>...</b>, Chem. and Ind., <b>London</b>, 16, 647—651,<b>...</b>
...
7|<b>...</b>The ancient Empires of the East, <b>London</b>, 1883. 4 Мищенко Ф.<b>...</b>
8|<b>...</b>Encyclopedia of Photography, Desk Edition, <b>London</b>: Focal Press, 1969, p<b>...</b>

Ниже информация о смещениях в тексте:

sqlite> select counter(1), offsets(file_text) from file_text where file_text match 'london';
1|0 0 203302 6 0 0 209935 6 0 0 210216 6
...
7|0 0 14552 6 0 0 400383 6
8|0 0 65668 6 0 0 1010763 6 0 0 1067169 6

Когда каждый документ будет fb2-файлом, упакованным в zip-архив, то нужно достать файл из архива, 
преобразовать в текст и получить найденный фрагмент - то есть придется немало операций выполнить.
Так что идея открывать _много_ файлов для построения выделенных фрагментов мне очень не нравится.

Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Reply to:

Follow-Ups:
- Re: Продолжение [вопрос с библиотекой решен]
  - From: Serhiy Storchaka <storchaka@gmail.com>
- Re: Продолжение [вопрос с библиотекой решен]
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>

References:
- Анонс: легковесная система полнотекстового поиска
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Re: Продолжение [вопрос с библиотекой решен]
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Re: Продолжение [вопрос с библиотекой решен]
  - From: Иван Лох <loh@1917.com>

Prev by Date: ядра dom0 выкинули из 6.0 - как жить?
Next by Date: Re: ядра dom0 выкинули из 6.0 - как жить?
Previous by thread: Re: Продолжение [вопрос с библиотекой решен]
Next by thread: Re: Продолжение [вопрос с библиотекой решен]
Index(es):
- Date
- Thread