[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Plain text to (x)html



Stanislav Maslovski wrote:

> On Sat, Dec 13, 2008 at 05:21:38PM +0200, Serhiy Storchaka wrote:
>> > п╬пҐя▀п╣ "пҐп╟п╣пЇпЄя▀" п©п╬п╨п╟ п╡я▀пЁп╩я▐пЄя▐я┌.

Хм… «фигня такая получается…» ;)

> Теперь по существу дела.
> 
> On Sat, Dec 13, 2008 at 05:21:38PM +0200, Serhiy Storchaka wrote:
>>          --eight_bit_clean | -8
>>                  disable Latin-1 character entity naming (default: false)
>>
>> По умолчанию текст на входе предполагается в кодировке Latin-1
>> (независимо от локали) и на выводе преобразовывается в entities.
> 
> Все правильно, только я не вижу здесь _неработающих_ умолчаний.
> Имхо, типичный default для html без явного указания charset в
> content-type. Тем более, что утилита не прописывает соответствующий
> тэг в заголовок html-файла.

Кодировка html — это совсем другое дело. Я говорю о кодировке входного
текста. Он не в Latin-1. Я бы даже сказал, что по нынешним временам текст в
Latin-1 — редкость. Очевидно, что автор изначально делал скрипт для себя,
для работы только с Latin-1 и его такое умолчание устраивало. Я тоже могу в
своих скриптах предполагать В/В только UTF-8 и мне этого будет достаточно.
Но распространяя его, я либо явно это документирую, либо умолчанием сделаю
кодировку локали, либо сделаю опцию для явного указания кодировки.

>> Разбор всяких багов txt2html, поиск и портирование версии, где они
>> исправлены, поддержка этого — это и есть дополнительные телодвижения.
>>
>> Скрипт на полдюжину строк делает всё, что мне нужно от txt2html, а на
>> дюжину — решает мою задачу полностью.
> 
> Это замечательно и я вас поздравляю с тем, что вы освоили sed на
> уровне, достаточном для того, чтобы писать скрипты аж на дюжину строк.
> Проблема не в этом. Такого рода самодеятельность тешит самолюбие
> скриптописателя, но практически не идет на пользу community.

Э-э-э, нет. С такого рода задачей сталкивается множество людей со времени
изобретения html, возможно большинство подписчиков. Многие решают её ручной
правкой (если задача разовая) или тривиальной самодельной программкой. Но
Debian содержит десятки тысяч пакетов, очень много таких вот простейших
задач уже решены кем-то и решение распространено. И даже по несколько раз.
Задача _уже_ решена. Решения _уже_ есть. И в большом количестве.

Понятно, что чем использовать собственный скрипт для решения общей задачи,
лучше воспользоваться уже имеющимся решением. Оно как правило уже
документировано, настраиваемо, ошибкоустойчиво, переносимо, учитывает
детали, которые могут быть пропущены при первом взгляде на проблему.
Проблема в том, что таких решений _много_. Поддержка у них разная, одни
давно заброшены и морально устарели (если ими никто не пользуется), другие
слишком громоздкие для конкретно этой задачи. Мой вопрос как раз и состоял
в том, чтобы узнать, каким инструментом чаще всего пользуются. Он и будет
работающим и поддерживаемым.

> Имхо, 
> куда полезнее было бы доработать существующий инструмент или хотя бы
> высказать свое фи в виде багрепорта. Вы же видите в этом 'дополнительные
> телодвижения'. Типично потребительский подход.

Я txt2html не пользуюсь. Он мне не подходит. Почему это я обязан писать
багрепорт? Я просто возьму _другой_ инструмент (благо их существует
несколько десятков). Кто пользуется — тот пусть и пишет багрепорты.
Исправление ошибки в Lenny показывает, что кто-то всё же пользуется.


Reply to: