Re: Plain text to (x)html

To: debian-russian@lists.debian.org
Subject: Re: Plain text to (x)html
From: Serhiy Storchaka <storchaka@gmail.com>
Date: Sat, 13 Dec 2008 11:00:12 +0200
Message-id: <[🔎] ghvta7$8gc$1@ger.gmane.org>
References: <[🔎] ghtfug$nm6$1@ger.gmane.org> <[🔎] 20081212120220.GB18164@wagner.pp.ru> <[🔎] ghubli$m8h$1@ger.gmane.org> <[🔎] 20081212194621.GA27663@wagner.pp.ru>

Victor Wagner wrote:
> On 2008.12.12 at 20:55:58 +0200, Serhiy Storchaka wrote:
>> > А это - можно. Есть ключик  -f задающий формат. Формат это в принципе
>> > два файла format-name.specchars (символы, которые надо заменять, даже
>> > если они считаются поддерживаемыми) и format-name.replchars -
>> > последовательности, на которые заменять символы, не отсутствующие в
>> > выходной кодировке
>> Это немного напряжно для 65534 символов. -U '&%d;' было бы удобнее (или
> Столько - никогда не будет.

На самом деле 65406. Исключая ещё и 128 ASCII-символов.

> Особенно если учесть, что в наше время 
> использование в html, а тем более в xhtml кодировок, отличных от utf-8 -
> недальновидность, граничащая с преступлением, в принципе specchars
> бывает всего пять < > & " '. А replchars для  html вообще не интересны,
> в отличие от plain-текста который  надо иногда уметь смотреть на
> терминалах с ограниченным числом глифов в шрифте.

Иногда нужно изменять страницы, _уже_ написанные в кодировке, отличной от
utf-8. Понятно, что при малейшей возможности следует перегонять в utf-8, но
не всегда это возможно.

>> задание формата для спецтокена в replchars).
> 
> Вообще-то это хорошая мысль. У меня есть там -x, который выводит
> отсутствующие в replchars  символы как \xNNNN. Можно сделать
> -x формат, если getopt на всех поддерживаемых платформах умеет
> опциональные аргументы. Или предусмотреть unknown_format в .catdocrc.

В .catdocrc ему не место. Это ведь зависит от выходного формата. Где-то
нужно "&%d;", где-то "\\u%04x", а где-то достаточно "?". Поэтому в
specchars/replchars или отдельный файл, зависящий от формата.

Мы уже говорили об этом.

>> Разумеется я имел в виду модель абзац ??? строка простого текста. Более
>> сложные в catdoc было бы затруднительно реализовать.
> 
> Ну так надо \n в specchars прописать. Правда, не уверен что с текущим
> кодом это возможно. Надо будет подправить.

Разделять строки "</p>\n<p>" можно, но проблема первой и последней строк. Я
тогда лучше уж сразу sed-ом воспользуюсь.

Reply to:

Follow-Ups:
- Re: Plain text to (x)html
  - From: Artem Chuprina <ran@ran.pp.ru>

References:
- Plain text to (x)html
  - From: Serhiy Storchaka <storchaka@gmail.com>
- Re: Plain text to (x)html
  - From: Victor Wagner <vitus@wagner.pp.ru>
- Re: Plain text to (x)html
  - From: Serhiy Storchaka <storchaka@gmail.com>
- Re: Plain text to (x)html
  - From: Victor Wagner <vitus@wagner.pp.ru>

Prev by Date: Re: Plain text to (x)html
Next by Date: Re: Plain text to (x)html
Previous by thread: Re: Plain text to (x)html
Next by thread: Re: Plain text to (x)html
Index(es):
- Date
- Thread