[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Plain text to (x)html



On Sat, Dec 13, 2008 at 05:21:38PM +0200, Serhiy Storchaka wrote:
> > п╬пҐя▀п╣ "пҐп╟п╣пЇпЄя▀" п©п╬п╨п╟ п╡я▀пЁп╩я▐пЄя▐я┌.
> 
>        --eight_bit_clean | -8
>            disable Latin-1 character entity naming (default: false)
> 
> п÷п╬ я┐п╪п╬п╩я┤п╟пҐп╦я▌ я┌п╣п╨я│я┌ пҐп╟ п╡я┘п╬пЄп╣ п©я─п╣пЄп©п╬п╩п╟пЁп╟п╣я┌я│я▐ п╡ п╨п╬пЄп╦я─п╬п╡п╨п╣ Latin-1 (пҐп╣пЇп╟п╡п╦я│п╦п╪п╬
> п╬я┌ п╩п╬п╨п╟п╩п╦) п╦ пҐп╟ п╡я▀п╡п╬пЄп╣ п©я─п╣п╬п╠я─п╟пЇп╬п╡я▀п╡п╟п╣я┌я│я▐ п╡ entities.

Мда. Смотрю в envelope:

User-Agent: KNode/0.10.5
Sender: news <news@ger.gmane.org>
............
Content-Type:  multipart/mixed; boundary="nextPart4920666.RZbdpiT3WJ"
Content-Transfer-Encoding:  7Bit
............
--nextPart4920666.RZbdpiT3WJ
Content-Type: text/plain; charset=koi8-u
Content-Transfer-Encoding: 8Bit
............
(и дальше следует текст _в_UTF-8_!)

Теперь по существу дела.

On Sat, Dec 13, 2008 at 05:21:38PM +0200, Serhiy Storchaka wrote:
>          --eight_bit_clean | -8
>                  disable Latin-1 character entity naming (default: false)
>
> По умолчанию текст на входе предполагается в кодировке Latin-1 (независимо
> от локали) и на выводе преобразовывается в entities.

Все правильно, только я не вижу здесь _неработающих_ умолчаний.
Имхо, типичный default для html без явного указания charset в
content-type. Тем более, что утилита не прописывает соответствующий
тэг в заголовок html-файла.

> Разбор всяких багов txt2html, поиск и портирование версии, где они
> исправлены, поддержка этого — это и есть дополнительные телодвижения.
>
> Скрипт на полдюжину строк делает всё, что мне нужно от txt2html, а на
> дюжину — решает мою задачу полностью.

Это замечательно и я вас поздравляю с тем, что вы освоили sed на
уровне, достаточном для того, чтобы писать скрипты аж на дюжину строк.
Проблема не в этом. Такого рода самодеятельность тешит самолюбие
скриптописателя, но практически не идет на пользу community. Имхо,
куда полезнее было бы доработать существующий инструмент или хотя бы
высказать свое фи в виде багрепорта. Вы же видите в этом 'дополнительные
телодвижения'. Типично потребительский подход.

-- 
Stanislav


Reply to: