[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Продолжение



Hello!

On Tuesday 09 February 2010 15:48:55 Serhiy Storchaka wrote:
> >> Такие файлы лучше сразу отвергать.
> > 
> > Эдак мы рискуем выплеснуть с водой и некоторые хорошие книги. На
> > либрусеке, к примеру, такие точно были.
> 
> Доли процента. И в этом случае следует не прятать проблему под ковёр, а
> взять, да и исправить испорченные документы. Иначе с ними не смогут
> работать и другие программы. Да и других проблем наверняка в них хватает.
> 
> Советую набор утилит для починки плохих fb2:
> https://fb2-perl-tools.svn.sourceforge.net/svnroot/fb2-perl-tools/trunk/fb2-python-tools

Спасибо, но сейчас у меня задача несколько иная - обеспечить индексирование
оригинального набора документов. _Посоветовать_ исправить - хорошо, но уж никак
не игнорировать. Если "по уму", то все не-юникодные документы следует тоже
выбросить, но что же тогда останется... Собственно, написание индексатора для
набора _валидных юникодных_ документов - тривиально, но малополезно (в этом
случае не нужны цепочки фильтров, да и сама обработка несложная). 

Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Reply to: