Re: Plain text to (x)html
On 2008.12.12 at 20:55:58 +0200, Serhiy Storchaka wrote:
> > А это - можно. Есть ключик -f задающий формат. Формат это в принципе
> > два файла format-name.specchars (символы, которые надо заменять, даже
> > если они считаются поддерживаемыми) и format-name.replchars -
> > последовательности, на которые заменять символы, не отсутствующие в
> > выходной кодировке
>
> Это немного напряжно для 65534 символов. -U '&%d;' было бы удобнее (или
Столько - никогда не будет. Особенно если учесть, что в наше время
использование в html, а тем более в xhtml кодировок, отличных от utf-8 -
недальновидность, граничащая с преступлением, в принципе specchars
бывает всего пять < > & " '. А replchars для html вообще не интересны,
в отличие от plain-текста который надо иногда уметь смотреть на
терминалах с ограниченным числом глифов в шрифте.
> задание формата для спецтокена в replchars).
Вообще-то это хорошая мысль. У меня есть там -x, который выводит
отсутствующие в replchars символы как \xNNNN. Можно сделать
-x формат, если getopt на всех поддерживаемых платформах умеет
опциональные аргументы. Или предусмотреть unknown_format в .catdocrc.
> Разумеется я имел в виду модель абзац ??? строка простого текста. Более
> сложные в catdoc было бы затруднительно реализовать.
Ну так надо \n в specchars прописать. Правда, не уверен что с текущим кодом это
возможно. Надо будет подправить.
> > На самом деле в поставку catdoc до сих пор не входят файлы
> > html.specchars и html.replchars только потому, что из-за особенностей
> > вордового представления таблиц в текущей модели парсинга не удалось
> > корректно детектировать начало таблицы.
> > А без поддержи таблиц конвертировать в html как-то неинтересно.
> > Ну и еще шрифтовые выделения не ловятся.
>
> Как-то ведь antiword это делает.
Так там совсем другая модель парсинга. Мне очень не хочется лишаться
ключика -b, который в некоторых случаях является единственным шансом
спасти хотя бы часть информации из поврежденного файла. Поэтому я уже
десять лет цепляюсь за потоковый парсинг.
Reply to: