[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Обработка книг формата fb2



Alexey Pechnikov wrote:
> On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote:
>> Если хуже — написать собственный парсер, аналог tidy.
> 
> Интересуют готовые решения, я вовсе не планирую для сотен различных
> форматов обработчики с нуля писать, это нереально и лишено смысла к тому
> же. Вопрос в том, чтобы собрать существующие утилиты.

Мне о таком ничего не известно. Не думаю, что в общем случае решение будет
иметь смысл. Вы ведь не требуете восстановления, например, jpeg-а с
пропущенным байтом.

>> enconv не справится с документами, где текст в latin1, кодировка указана
>> windows-1251, и имя составителя кириллицей. Одна из моих утилит лечит
>> подобные ошибки.
> 
> Пока что у меня на 2 гигах (тысяч 8 файлов, не считая такого же количества
> html-страниц - я их не выкидывал пока, т.к. обработка html задача
> стандартная, пусть себе тестируются) ошибок распознавания кириллицы не
> видно.

Я о некиррилических документах.

> Вот в исходниках эскулайт есть нераспознанные файлы - видимо, 
> потому, что там в комментариях модуля поддержки юникода есть символы
> с умляутами. Но если есть другая, мелкая и шустрая утилитка, - покажите,
> пока про запас, а дальше посмотрим, мало ли какие еще проблемы выявятся.

Показывал. Раньше в ветке.


Reply to: