Re: Фильтры документов для системы полнотекстового поиска - формат odt

To: debian-russian@lists.debian.org
Subject: Re: Фильтры документов для системы полнотекстового поиска - формат odt
From: Alexey Pechnikov <pechnikov@mobigroup.ru>
Date: Mon, 2 Nov 2009 22:00:16 +0300
Message-id: <[🔎] 200911022200.16600.pechnikov@mobigroup.ru>
Reply-to: pechnikov@sandy.ru
In-reply-to: <[🔎] 20091102151813.GD18286@nano.ioffe.rssi.ru>
References: <[🔎] 200911011828.51879.pechnikov@mobigroup.ru> <[🔎] 20091102151813.GD18286@nano.ioffe.rssi.ru>

Hello!

On Monday 02 November 2009 18:18:13 Иван Лох wrote:

> Это ладно. Меня больше всего ужасает использование evolution

> для индексирования почты. Которое у меня еще и не работает.

> Кроме того, может кто-нибудь уже докопался до того, как можно

> переиндексировать все файлы определенного MIME типа?

В смысле самому или с помощью какой-то конкретной системы?

Если первое, то команда file показывает mime-тип.

А вот еще по одному фильтру вопрос возник. Самый что ни на есть

распрекрасный odt нужно индексировать. "С помощью лома и

какой-то матери" нашел ODF Tools, которые дают неплохой html.

Опять же, плодя временные файлы. Чтение исходников привело

к мысли, что все гораздо проще делается, например, так

cat <(echo "<?xml version='1.0' encoding='UTF-8'?>")\

<(echo "<office:document xmlns:office='urn:oasis:names:tc:opendocument:xmlns:office:1.0'>")\

<(unzip -p 101.odt meta.xml |grep -v "<?xml version="|less) \

<(unzip -p 101.odt content.xml |grep -v "<?xml version="|less) \

<(unzip -p 101.odt styles.xml |grep -v "<?xml version="|less) \

<(echo "</office:document>")\

|xsltproc odt2html.xsl -

Оно работает, и без временных файлов. Но, как я понимаю, это

"башизм" и с ним надо бороться. Вопрос - как? Не соображу, как бы

это переписать да еще без вызова лишних утилит...

Best regards, Alexey Pechnikov.

http://pechnikov.tel/

Reply to:

Follow-Ups:
- Re: Фильтры документов для системы полнотекстового поиска - формат odt
  - From: Artem Chuprina <ran@ran.pp.ru>
- Re: Фильтры документов для системы полнотекстового поиска - формат odt
  - From: Serhiy Storchaka <storchaka@gmail.com>

References:
- Фильтры документов для системы полнотекстового поиска
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Re: Фильтры документов для системы полнотекстового поиска
  - From: Иван Лох <loh@1917.com>