Обработка книг формата fb2

To: debian-russian@lists.debian.org
Subject: Обработка книг формата fb2
From: Alexey Pechnikov <pechnikov@mobigroup.ru>
Date: Thu, 11 Feb 2010 22:50:34 +0300
Message-id: <[🔎] 201002112250.34705.pechnikov@mobigroup.ru>
Reply-to: pechnikov@sandy.ru
In-reply-to: <[🔎] 201002032348.34970.pechnikov@mobigroup.ru>
References: <[🔎] 201002032348.34970.pechnikov@mobigroup.ru>

Hello!

В процессе обработки выяснилось, что библиотеки содержат жуткую смесь валидных и невалидных документов. Пытаюсь выправить чем-то вроде
 
exec cat "$2" | enconv | sed 's/<?xml version="1.0" encoding=.*/<?xml version="1.0" encoding="utf-8"?>/' | tidy -q -xml -utf8 2>/dev/null | xsltproc "$STYLE" -

но и так не все документы успешно преобразуются, выдавая ошибки xml. Может ли кто предложить лучший способ? Замечу, что исходный контент мы 
не модифицируем, необходимо все преобразования выполнять на лету и побыстрее (выше приведенная штука ощутимо тормозит). С кодировками
вроде проблема решена с помощью enconv.

Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Reply to:

Follow-Ups:
- Re: Обработка книг формата fb2
  - From: Serhiy Storchaka <storchaka@gmail.com>

References:
- Анонс: легковесная система полнотекстового поиска
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>

Prev by Date: Re: как демонизировать программу?
Next by Date: Re: 2.6.32-5-ADSL-соединение не работает.Модем найден.pppoeconf не находит
Previous by thread: Re: Продолжение [вопрос с библиотекой решен]
Next by thread: Re: Обработка книг формата fb2
Index(es):
- Date
- Thread