Re: Обработка книг формата fb2

To: debian-russian@lists.debian.org
Subject: Re: Обработка книг формата fb2
From: Serhiy Storchaka <storchaka@gmail.com>
Date: Fri, 12 Feb 2010 10:40:51 +0200
Message-id: <[🔎] hl33hl$qne$2@ger.gmane.org>
References: <[🔎] 201002032348.34970.pechnikov@mobigroup.ru> <[🔎] 201002112250.34705.pechnikov@mobigroup.ru> <[🔎] hl1tq6$31o$1@ger.gmane.org> <[🔎] 201002120129.59158.pechnikov@mobigroup.ru>

Alexey Pechnikov wrote:
> On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote:
>> Если хуже — написать собственный парсер, аналог tidy.
> 
> Интересуют готовые решения, я вовсе не планирую для сотен различных
> форматов обработчики с нуля писать, это нереально и лишено смысла к тому
> же. Вопрос в том, чтобы собрать существующие утилиты.

Мне о таком ничего не известно. Не думаю, что в общем случае решение будет
иметь смысл. Вы ведь не требуете восстановления, например, jpeg-а с
пропущенным байтом.

>> enconv не справится с документами, где текст в latin1, кодировка указана
>> windows-1251, и имя составителя кириллицей. Одна из моих утилит лечит
>> подобные ошибки.
> 
> Пока что у меня на 2 гигах (тысяч 8 файлов, не считая такого же количества
> html-страниц - я их не выкидывал пока, т.к. обработка html задача
> стандартная, пусть себе тестируются) ошибок распознавания кириллицы не
> видно.

Я о некиррилических документах.

> Вот в исходниках эскулайт есть нераспознанные файлы - видимо, 
> потому, что там в комментариях модуля поддержки юникода есть символы
> с умляутами. Но если есть другая, мелкая и шустрая утилитка, - покажите,
> пока про запас, а дальше посмотрим, мало ли какие еще проблемы выявятся.

Показывал. Раньше в ветке.

Reply to:

Follow-Ups:
- Re: Обработка книг формата fb2
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>

References:
- Анонс: легковесная система полнотекстового поиска
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Обработка книг формата fb2
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Re: Обработка книг формата fb2
  - From: Serhiy Storchaka <storchaka@gmail.com>
- Re: Обработка книг формата fb2
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>

Prev by Date: Re: bash или dash
Next by Date: Re: bash или dash
Previous by thread: Re: Обработка книг формата fb2
Next by thread: Re: Обработка книг формата fb2
Index(es):
- Date
- Thread