On Tue, Apr 07, 2009 at 01:46:20PM +0300, Тихон Тарнавский wrote: > > По описанию похоже, но действительно немного сложновато. Меня в этой > > сложности настораживает в первую очередь то, как оно себя поведёт с > > криво оформнленным html-ем -- а ведь такого среди нуждающегося в > > подобных правках 90%. Как себя поведут xml_{split,merge} -- вопрос тем > > более, т.к. склеивать ведь надо не то, что порезано split-ом, а то, > > что изначально в кусках, а в этом разбиении на куски всё может быть > > ещё более криво. С наскока, по крайней мере, ни погрепать, ни склеить > > такие файлы не удалось. > Так и есть: среди локальной коллекции html-ей нет ни одного, на > который бы парсер не ругнулся. Да и вообще я маловато видел html-ей, > которые были бы корректны с точки зрения xml-парсеров. Нужно искать > другие инструменты. Т.е. вопрос открыт. > пропустить html через tidy, а дальше работать с xml -- WBR, Dmitry
Attachment:
signature.asc
Description: Digital signature