Re: Обработка книг формата fb2

To: debian-russian@lists.debian.org
Subject: Re: Обработка книг формата fb2
From: Alexey Pechnikov <pechnikov@mobigroup.ru>
Date: Fri, 12 Feb 2010 01:29:59 +0300
Message-id: <[🔎] 201002120129.59158.pechnikov@mobigroup.ru>
Reply-to: pechnikov@sandy.ru
In-reply-to: <[🔎] hl1tq6$31o$1@ger.gmane.org>
References: <[🔎] 201002032348.34970.pechnikov@mobigroup.ru> <[🔎] 201002112250.34705.pechnikov@mobigroup.ru> <[🔎] hl1tq6$31o$1@ger.gmane.org>

Hello!

On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote:
> Если дело только в амперсанде, поможет
> sed -e 's/&/\&amp;/g;s/&amp;amp;/\&amp;/g'

Хуже и намного. Амперсанд я давно уже sed-ом вырезал, где-то выше
показывал соответствующую команду.

> Если хуже — написать собственный парсер, аналог tidy.

Интересуют готовые решения, я вовсе не планирую для сотен различных
форматов обработчики с нуля писать, это нереально и лишено смысла к тому 
же. Вопрос в том, чтобы собрать существующие утилиты.

> enconv не справится с документами, где текст в latin1, кодировка указана
> windows-1251, и имя составителя кириллицей. Одна из моих утилит лечит
> подобные ошибки.

Пока что у меня на 2 гигах (тысяч 8 файлов, не считая такого же количества 
html-страниц - я их не выкидывал пока, т.к. обработка html задача 
стандартная, пусть себе тестируются) ошибок распознавания кириллицы не 
видно. Вот в исходниках эскулайт есть нераспознанные файлы - видимо,
потому, что там в комментариях модуля поддержки юникода есть символы
с умляутами. Но если есть другая, мелкая и шустрая утилитка, - покажите,
пока про запас, а дальше посмотрим, мало ли какие еще проблемы выявятся.

Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Reply to:

Follow-Ups:
- Re: Обработка книг формата fb2
  - From: Serhiy Storchaka <storchaka@gmail.com>

References:
- Анонс: легковесная система полнотекстового поиска
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Обработка книг формата fb2
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Re: Обработка книг формата fb2
  - From: Serhiy Storchaka <storchaka@gmail.com>

Prev by Date: Re: Обработка книг формата fb2
Next by Date: Re: rsync: 33% Connection reset by peer
Previous by thread: Re: Обработка книг формата fb2
Next by thread: Re: Обработка книг формата fb2
Index(es):
- Date
- Thread