Re: Обработка книг формата fb2
Hello!
On Friday 12 February 2010 00:56:45 Serhiy Storchaka wrote:
> Если дело только в амперсанде, поможет
> sed -e 's/&/\&/g;s/&/\&/g'
Хуже и намного. Амперсанд я давно уже sed-ом вырезал, где-то выше
показывал соответствующую команду.
> Если хуже — написать собственный парсер, аналог tidy.
Интересуют готовые решения, я вовсе не планирую для сотен различных
форматов обработчики с нуля писать, это нереально и лишено смысла к тому
же. Вопрос в том, чтобы собрать существующие утилиты.
> enconv не справится с документами, где текст в latin1, кодировка указана
> windows-1251, и имя составителя кириллицей. Одна из моих утилит лечит
> подобные ошибки.
Пока что у меня на 2 гигах (тысяч 8 файлов, не считая такого же количества
html-страниц - я их не выкидывал пока, т.к. обработка html задача
стандартная, пусть себе тестируются) ошибок распознавания кириллицы не
видно. Вот в исходниках эскулайт есть нераспознанные файлы - видимо,
потому, что там в комментариях модуля поддержки юникода есть символы
с умляутами. Но если есть другая, мелкая и шустрая утилитка, - покажите,
пока про запас, а дальше посмотрим, мало ли какие еще проблемы выявятся.
Best regards, Alexey Pechnikov.
http://pechnikov.tel/
Reply to: