[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Что есть для обработки html в командной строке?



On Tue, Apr 07, 2009 at 01:46:20PM +0300, Тихон Тарнавский wrote:
> > По описанию похоже, но действительно немного сложновато. Меня в этой
> > сложности настораживает в первую очередь то, как оно себя поведёт с
> > криво оформнленным html-ем -- а ведь такого среди нуждающегося в
> > подобных правках 90%. Как себя поведут xml_{split,merge} -- вопрос тем
> > более, т.к. склеивать ведь надо не то, что порезано split-ом, а то,
> > что изначально в кусках, а в этом разбиении на куски всё может быть
> > ещё более криво. С наскока, по крайней мере, ни погрепать, ни склеить
> > такие файлы не удалось.
> Так и есть: среди локальной коллекции html-ей нет ни одного, на
> который бы парсер не ругнулся. Да и вообще я маловато видел html-ей,
> которые были бы корректны с точки зрения xml-парсеров. Нужно искать
> другие инструменты. Т.е. вопрос открыт.
> 

пропустить html через tidy, а дальше работать с xml
 
-- 
WBR, Dmitry

Attachment: signature.asc
Description: Digital signature


Reply to: