[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Что есть для обработки html в командной строке?



Тихон Тарнавский wrote:
> On Fri, 17.04.2009 12:48:02 , Serhiy Storchaka wrote:
>> -asxml и добиться, чтобы кодировка была указана правильная (возможно
>> только utf-8). Возможно вручную перекодировать и приклеить <?xml
>> version="1.0" encoding="utf-8"?> до или после tidy.
> Первое что попробовал. Увы.

Некоторые html так плохи, что tidy отказывается с ними работать. Как
заставить его игнорировать все ошибки, я не знаю.

В Konqueror есть плагин, позволяющий сохранить страницу в war-файле (Web
Archive, обычный tar.gz на самом деле). При этом он её как-то
преобразовывает, вероятно получается корректный html или xhtml. Возможно
удастся как-то задействовать его и в автоматическом режиме, через dcop или
что-то в этом роде. Аналогичной функциональности в других браузерах я не
нашёл.


Reply to: