[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Что есть для обработки html в командной строке?



On Tue, 07.04.2009 20:14:24 , Dmitry Nezhevenko wrote:
> On Tue, Apr 07, 2009 at 01:46:20PM +0300, Тихон Тарнавский wrote:
> > > По описанию похоже, но действительно немного сложновато. Меня в этой
> > > сложности настораживает в первую очередь то, как оно себя поведёт с
> > > криво оформнленным html-ем -- а ведь такого среди нуждающегося в
> > > подобных правках 90%. Как себя поведут xml_{split,merge} -- вопрос тем
> > > более, т.к. склеивать ведь надо не то, что порезано split-ом, а то,
> > > что изначально в кусках, а в этом разбиении на куски всё может быть
> > > ещё более криво. С наскока, по крайней мере, ни погрепать, ни склеить
> > > такие файлы не удалось.
> > Так и есть: среди локальной коллекции html-ей нет ни одного, на
> > который бы парсер не ругнулся. Да и вообще я маловато видел html-ей,
> > которые были бы корректны с точки зрения xml-парсеров. Нужно искать
> > другие инструменты. Т.е. вопрос открыт.
> 
> пропустить html через tidy, а дальше работать с xml
>  
t:~/tmp/book/tidy$ xml_grep p/span * 2>/dev/null |
% grep 'error parsing file' | wc -l
99
t:~/tmp/book/tidy$ \ls | wc -l
99

Ещё варианты будут?

-- 
С уважением,
Тихон Тарнавский.
http://linuxforum.ru
http://posix.ru


Reply to: