[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Что есть для обработки html в командной строке?



On Tue, 7 Apr 2009 13:46:20 +0300
Тихон Тарнавский <tikhon@lexpr.ru> wrote:

> > > > Собственно, вопрос в теме. В идеале хочется что-то вроде cat +
> > > > split/csplit + grep, но не для построчной, а для потеговой обработки
> > > > (а аналог cat должен обрезать на стыках шапку и обрамляющие теги).
> > > 
> > > xml_grep?
> > По описанию похоже, но действительно немного сложновато. Меня в этой
> > сложности настораживает в первую очередь то, как оно себя поведёт с
> > криво оформнленным html-ем -- а ведь такого среди нуждающегося в
> > подобных правках 90%. Как себя поведут xml_{split,merge} -- вопрос тем
> > более, т.к. склеивать ведь надо не то, что порезано split-ом, а то,
> > что изначально в кусках, а в этом разбиении на куски всё может быть
> > ещё более криво. С наскока, по крайней мере, ни погрепать, ни склеить
> > такие файлы не удалось.
> Так и есть: среди локальной коллекции html-ей нет ни одного, на
> который бы парсер не ругнулся. Да и вообще я маловато видел html-ей,
> которые были бы корректны с точки зрения xml-парсеров. Нужно искать
> другие инструменты. Т.е. вопрос открыт.

Не совсем то, но мне обычно хватает на написание в несколько строк:
python-html5lib для парсинга (он достаточно толерантно относится ко
всем html-евским багам) в DOM, на который потом натравливается почти
стандартный xpath.Evaluate()...


Reply to: