Re: Что есть для обработки html в командной строке?
- To: debian-russian@lists.debian.org
- Subject: Re: Что есть для обработки html в командной строке?
- From: Тихон Тарнавский <tikhon@lexpr.ru>
- Date: Sat, 18 Apr 2009 17:20:29 +0300
- Message-id: <20090418142029.GG17012@localhost>
- In-reply-to: <gsc7kn$tjb$1@ger.gmane.org>
- References: <8d670f910904040451m45158fb9q5da89e5d587319@mail.gmail.com> <20090404160949.GE15362@localhost> <20090407104620.GI15362@localhost> <20090407171424.GA31120@laptop.local> <20090408060928.GP15362@localhost> <20090415190516.GA8483@laptop.local> <20090416065841.GA23723@localhost> <gs9j0q$pq0$1@ger.gmane.org> <20090417152316.GE14570@localhost> <gsc7kn$tjb$1@ger.gmane.org>
On Sat, 18.04.2009 12:52:19 , Serhiy Storchaka wrote:
> Тихон Тарнавский wrote:
> > On Fri, 17.04.2009 12:48:02 , Serhiy Storchaka wrote:
> >> -asxml и добиться, чтобы кодировка была указана правильная (возможно
> >> только utf-8). Возможно вручную перекодировать и приклеить <?xml
> >> version="1.0" encoding="utf-8"?> до или после tidy.
> > Первое что попробовал. Увы.
>
> Некоторые html так плохи, что tidy отказывается с ними работать. Как
> заставить его игнорировать все ошибки, я не знаю.
>
> В Konqueror есть плагин, позволяющий сохранить страницу в war-файле (Web
> Archive, обычный tar.gz на самом деле). При этом он её как-то
> преобразовывает, вероятно получается корректный html или xhtml. Возможно
> удастся как-то задействовать его и в автоматическом режиме, через dcop или
> что-то в этом роде. Аналогичной функциональности в других браузерах я не
> нашёл.
Мне не так уж много надо, чтобы ради этого с dcop-ом возиться; тем
более, что konqueror в этом смысле тоже штука непредсказуемая: никогда
наперёд не знаешь, на какой именно "каше из тегов" он споткнётся и
даже сам правильно отобразить не сумеет. К тому же какой-нибудь
htmlcat всё равно придётся написать самому: xml_merge объединение
"каких попало" html-ей не обеспечит, даже если их к нужному виду
привести.
--
С уважением,
Тихон Тарнавский.
http://linuxforum.ru
http://posix.ru
Reply to: