[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Plain text to (x)html



On 2008.12.12 at 20:55:58 +0200, Serhiy Storchaka wrote:

> > А это - можно. Есть ключик  -f задающий формат. Формат это в принципе
> > два файла format-name.specchars (символы, которые надо заменять, даже
> > если они считаются поддерживаемыми) и format-name.replchars -
> > последовательности, на которые заменять символы, не отсутствующие в
> > выходной кодировке
> 
> Это немного напряжно для 65534 символов. -U '&%d;' было бы удобнее (или

Столько - никогда не будет. Особенно если учесть, что в наше время
использование в html, а тем более в xhtml кодировок, отличных от utf-8 -
недальновидность, граничащая с преступлением, в принципе specchars
бывает всего пять < > & " '. А replchars для  html вообще не интересны,
в отличие от plain-текста который  надо иногда уметь смотреть на
терминалах с ограниченным числом глифов в шрифте.


> задание формата для спецтокена в replchars).

Вообще-то это хорошая мысль. У меня есть там -x, который выводит
отсутствующие в replchars  символы как \xNNNN. Можно сделать 
-x формат, если getopt на всех поддерживаемых платформах умеет
опциональные аргументы. Или предусмотреть unknown_format в .catdocrc.


> Разумеется я имел в виду модель абзац ??? строка простого текста. Более
> сложные в catdoc было бы затруднительно реализовать.

Ну так надо \n в specchars прописать. Правда, не уверен что с текущим кодом это
возможно. Надо будет подправить.


> > На самом деле в поставку catdoc до сих пор не входят файлы
> > html.specchars и html.replchars только потому, что из-за особенностей
> > вордового представления таблиц в текущей модели парсинга не удалось
> > корректно детектировать начало таблицы.
> > А без поддержи таблиц конвертировать в html как-то неинтересно.
> > Ну и еще шрифтовые выделения не ловятся.
> 
> Как-то ведь antiword это делает.

Так там совсем другая модель парсинга. Мне очень не хочется лишаться
ключика -b, который в некоторых случаях является единственным шансом
спасти хотя бы часть информации из поврежденного файла. Поэтому я уже
десять лет цепляюсь за потоковый парсинг.


Reply to: