Re: Обработка книг формата fb2
Alexey Pechnikov wrote:
> On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote:
>> Если хуже — написать собственный парсер, аналог tidy.
>
> Интересуют готовые решения, я вовсе не планирую для сотен различных
> форматов обработчики с нуля писать, это нереально и лишено смысла к тому
> же. Вопрос в том, чтобы собрать существующие утилиты.
Мне о таком ничего не известно. Не думаю, что в общем случае решение будет
иметь смысл. Вы ведь не требуете восстановления, например, jpeg-а с
пропущенным байтом.
>> enconv не справится с документами, где текст в latin1, кодировка указана
>> windows-1251, и имя составителя кириллицей. Одна из моих утилит лечит
>> подобные ошибки.
>
> Пока что у меня на 2 гигах (тысяч 8 файлов, не считая такого же количества
> html-страниц - я их не выкидывал пока, т.к. обработка html задача
> стандартная, пусть себе тестируются) ошибок распознавания кириллицы не
> видно.
Я о некиррилических документах.
> Вот в исходниках эскулайт есть нераспознанные файлы - видимо,
> потому, что там в комментариях модуля поддержки юникода есть символы
> с умляутами. Но если есть другая, мелкая и шустрая утилитка, - покажите,
> пока про запас, а дальше посмотрим, мало ли какие еще проблемы выявятся.
Показывал. Раньше в ветке.
Reply to: