Re: Продолжение
Hello!
On Tuesday 09 February 2010 15:48:55 Serhiy Storchaka wrote:
> >> Такие файлы лучше сразу отвергать.
> >
> > Эдак мы рискуем выплеснуть с водой и некоторые хорошие книги. На
> > либрусеке, к примеру, такие точно были.
>
> Доли процента. И в этом случае следует не прятать проблему под ковёр, а
> взять, да и исправить испорченные документы. Иначе с ними не смогут
> работать и другие программы. Да и других проблем наверняка в них хватает.
>
> Советую набор утилит для починки плохих fb2:
> https://fb2-perl-tools.svn.sourceforge.net/svnroot/fb2-perl-tools/trunk/fb2-python-tools
Спасибо, но сейчас у меня задача несколько иная - обеспечить индексирование
оригинального набора документов. _Посоветовать_ исправить - хорошо, но уж никак
не игнорировать. Если "по уму", то все не-юникодные документы следует тоже
выбросить, но что же тогда останется... Собственно, написание индексатора для
набора _валидных юникодных_ документов - тривиально, но малополезно (в этом
случае не нужны цепочки фильтров, да и сама обработка несложная).
Best regards, Alexey Pechnikov.
http://pechnikov.tel/
Reply to: