[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Plain text to (x)html



Victor Wagner wrote:
> On 2008.12.12 at 20:55:58 +0200, Serhiy Storchaka wrote:
>> > А это - можно. Есть ключик  -f задающий формат. Формат это в принципе
>> > два файла format-name.specchars (символы, которые надо заменять, даже
>> > если они считаются поддерживаемыми) и format-name.replchars -
>> > последовательности, на которые заменять символы, не отсутствующие в
>> > выходной кодировке
>> Это немного напряжно для 65534 символов. -U '&%d;' было бы удобнее (или
> Столько - никогда не будет.

На самом деле 65406. Исключая ещё и 128 ASCII-символов.

> Особенно если учесть, что в наше время 
> использование в html, а тем более в xhtml кодировок, отличных от utf-8 -
> недальновидность, граничащая с преступлением, в принципе specchars
> бывает всего пять < > & " '. А replchars для  html вообще не интересны,
> в отличие от plain-текста который  надо иногда уметь смотреть на
> терминалах с ограниченным числом глифов в шрифте.

Иногда нужно изменять страницы, _уже_ написанные в кодировке, отличной от
utf-8. Понятно, что при малейшей возможности следует перегонять в utf-8, но
не всегда это возможно.

>> задание формата для спецтокена в replchars).
> 
> Вообще-то это хорошая мысль. У меня есть там -x, который выводит
> отсутствующие в replchars  символы как \xNNNN. Можно сделать
> -x формат, если getopt на всех поддерживаемых платформах умеет
> опциональные аргументы. Или предусмотреть unknown_format в .catdocrc.

В .catdocrc ему не место. Это ведь зависит от выходного формата. Где-то
нужно "&%d;", где-то "\\u%04x", а где-то достаточно "?". Поэтому в
specchars/replchars или отдельный файл, зависящий от формата.

Мы уже говорили об этом.

>> Разумеется я имел в виду модель абзац ??? строка простого текста. Более
>> сложные в catdoc было бы затруднительно реализовать.
> 
> Ну так надо \n в specchars прописать. Правда, не уверен что с текущим
> кодом это возможно. Надо будет подправить.

Разделять строки "</p>\n<p>" можно, но проблема первой и последней строк. Я
тогда лучше уж сразу sed-ом воспользуюсь.



Reply to: