Re: Plain text to (x)html

To: debian-russian@lists.debian.org
Subject: Re: Plain text to (x)html
From: Victor Wagner <vitus@wagner.pp.ru>
Date: Fri, 12 Dec 2008 22:46:21 +0300
Message-id: <[🔎] 20081212194621.GA27663@wagner.pp.ru>
Mail-followup-to: debian-russian@lists.debian.org
In-reply-to: <[🔎] ghubli$m8h$1@ger.gmane.org>
References: <[🔎] ghtfug$nm6$1@ger.gmane.org> <[🔎] 20081212120220.GB18164@wagner.pp.ru> <[🔎] ghubli$m8h$1@ger.gmane.org>

On 2008.12.12 at 20:55:58 +0200, Serhiy Storchaka wrote:

> > А это - можно. Есть ключик  -f задающий формат. Формат это в принципе
> > два файла format-name.specchars (символы, которые надо заменять, даже
> > если они считаются поддерживаемыми) и format-name.replchars -
> > последовательности, на которые заменять символы, не отсутствующие в
> > выходной кодировке
> 
> Это немного напряжно для 65534 символов. -U '&%d;' было бы удобнее (или

Столько - никогда не будет. Особенно если учесть, что в наше время
использование в html, а тем более в xhtml кодировок, отличных от utf-8 -
недальновидность, граничащая с преступлением, в принципе specchars
бывает всего пять < > & " '. А replchars для  html вообще не интересны,
в отличие от plain-текста который  надо иногда уметь смотреть на
терминалах с ограниченным числом глифов в шрифте.

> задание формата для спецтокена в replchars).

Вообще-то это хорошая мысль. У меня есть там -x, который выводит
отсутствующие в replchars  символы как \xNNNN. Можно сделать 
-x формат, если getopt на всех поддерживаемых платформах умеет
опциональные аргументы. Или предусмотреть unknown_format в .catdocrc.

> Разумеется я имел в виду модель абзац ??? строка простого текста. Более
> сложные в catdoc было бы затруднительно реализовать.

Ну так надо \n в specchars прописать. Правда, не уверен что с текущим кодом это
возможно. Надо будет подправить.

> > На самом деле в поставку catdoc до сих пор не входят файлы
> > html.specchars и html.replchars только потому, что из-за особенностей
> > вордового представления таблиц в текущей модели парсинга не удалось
> > корректно детектировать начало таблицы.
> > А без поддержи таблиц конвертировать в html как-то неинтересно.
> > Ну и еще шрифтовые выделения не ловятся.
> 
> Как-то ведь antiword это делает.

Так там совсем другая модель парсинга. Мне очень не хочется лишаться
ключика -b, который в некоторых случаях является единственным шансом
спасти хотя бы часть информации из поврежденного файла. Поэтому я уже
десять лет цепляюсь за потоковый парсинг.

Reply to:

Follow-Ups:
- Re: Plain text to (x)html
  - From: Mikhail Gusarov <dottedmag@dottedmag.net>
- Re: Plain text to (x)html
  - From: Serhiy Storchaka <storchaka@gmail.com>

References:
- Plain text to (x)html
  - From: Serhiy Storchaka <storchaka@gmail.com>
- Re: Plain text to (x)html
  - From: Victor Wagner <vitus@wagner.pp.ru>
- Re: Plain text to (x)html
  - From: Serhiy Storchaka <storchaka@gmail.com>

Prev by Date: Re: sudo ws root
Next by Date: Re: Plain text to (x)html
Previous by thread: Re: Plain text to (x)html
Next by thread: Re: Plain text to (x)html
Index(es):
- Date
- Thread