[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Фильтры документов для системы полнотекстового поиска - формат odt



Hello!

On Monday 02 November 2009 18:18:13 Иван Лох wrote:

> Это ладно. Меня больше всего ужасает использование evolution

> для индексирования почты. Которое у меня еще и не работает.

>

> Кроме того, может кто-нибудь уже докопался до того, как можно

> переиндексировать все файлы определенного MIME типа?

В смысле самому или с помощью какой-то конкретной системы?

Если первое, то команда file показывает mime-тип.

А вот еще по одному фильтру вопрос возник. Самый что ни на есть

распрекрасный odt нужно индексировать. "С помощью лома и

какой-то матери" нашел ODF Tools, которые дают неплохой html.

Опять же, плодя временные файлы. Чтение исходников привело

к мысли, что все гораздо проще делается, например, так

cat <(echo "<?xml version='1.0' encoding='UTF-8'?>")\

<(echo "<office:document xmlns:office='urn:oasis:names:tc:opendocument:xmlns:office:1.0'>")\

<(unzip -p 101.odt meta.xml |grep -v "<?xml version="|less) \

<(unzip -p 101.odt content.xml |grep -v "<?xml version="|less) \

<(unzip -p 101.odt styles.xml |grep -v "<?xml version="|less) \

<(echo "</office:document>")\

|xsltproc odt2html.xsl -

Оно работает, и без временных файлов. Но, как я понимаю, это

"башизм" и с ним надо бороться. Вопрос - как? Не соображу, как бы

это переписать да еще без вызова лишних утилит...

Best regards, Alexey Pechnikov.

http://pechnikov.tel/


Reply to: