[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Что есть для обработки html в командной строке?



On Sat, 04.04.2009 19:09:49 , Тихон Тарнавский wrote:
> On Sat, 04.04.2009 14:51:01 , Oleg Gashev wrote:
> > 2009/4/4 Тихон Тарнавский <tikhon@lexpr.ru>:
> > > Собственно, вопрос в теме. В идеале хочется что-то вроде cat +
> > > split/csplit + grep, но не для построчной, а для потеговой обработки
> > > (а аналог cat должен обрезать на стыках шапку и обрамляющие теги).
> > 
> > xml_grep?
> По описанию похоже, но действительно немного сложновато. Меня в этой
> сложности настораживает в первую очередь то, как оно себя поведёт с
> криво оформнленным html-ем -- а ведь такого среди нуждающегося в
> подобных правках 90%. Как себя поведут xml_{split,merge} -- вопрос тем
> более, т.к. склеивать ведь надо не то, что порезано split-ом, а то,
> что изначально в кусках, а в этом разбиении на куски всё может быть
> ещё более криво. С наскока, по крайней мере, ни погрепать, ни склеить
> такие файлы не удалось.
Так и есть: среди локальной коллекции html-ей нет ни одного, на
который бы парсер не ругнулся. Да и вообще я маловато видел html-ей,
которые были бы корректны с точки зрения xml-парсеров. Нужно искать
другие инструменты. Т.е. вопрос открыт.

-- 
С уважением,
Тихон Тарнавский.
http://linuxforum.ru
http://posix.ru


Reply to: