Re: Что есть для обработки html в командной строке?
- To: Debian-Russian2 <debian-russian@lists.debian.org>
- Subject: Re: Что есть для обработки html в командной строке?
- From: Aleksey Cheusov <vle@gmx.net>
- Date: Thu, 16 Apr 2009 12:54:25 +0300
- Message-id: <s93bpqwnctq.fsf@chel.imb.invention.com>
- In-reply-to: <crhfP-6zW-15@gated-at.bofh.it> (Alexey Pechnikov's message of "Wed, 15 Apr 2009 19:40:18 +0200")
- References: <cnbiE-1zc-9@gated-at.bofh.it> <coirK-53e-31@gated-at.bofh.it> <coiBo-5h3-7@gated-at.bofh.it> <crhfP-6zW-15@gated-at.bofh.it>
> Hello!
> On Tuesday 07 April 2009 16:21:09 Mikhail Gusarov wrote:
>> VW> Но вот что забавно, многие из распространенных XML-парсеров (gnome
>> VW> XML например) имеют специальный режим разбора HTML. Что при этом
>> VW> имеется в виду, не особенно разбирался. Но возможно, некоторое
>> VW> тайное знание о DTD там используется.
>>
>> Скорее, там tag soup-парсер, всё равно валидных HTML-ей в Интернете,
>> считай, нет :)
> Что, до сих пор? Давно не интересовался этим вопросом, просто мне лично не
> понятно, как можно программно генерить некорректный html.
Я лично относительно недавно генерил .html
http://mova.org/~cheusov/pub/pkgsrc-distbb/Linux/current/logs/20090410.2105/META/report.html
и воспользовавшись
http://validator.w3.org/
обнаружил, что html - это не совсем то, что я думал.
Сейчас эта страница соответствует 'HTML 4.01 Strict', но изначально не
соответствовала. Ой! И сейчас не соответствует :-)
--
Best regards, Aleksey Cheusov.
Reply to: