Re: Plain text to (x)html

To: debian-russian@lists.debian.org
Subject: Re: Plain text to (x)html
From: Serhiy Storchaka <storchaka@gmail.com>
Date: Fri, 12 Dec 2008 20:55:58 +0200
Message-id: <[🔎] ghubli$m8h$1@ger.gmane.org>
References: <[🔎] ghtfug$nm6$1@ger.gmane.org> <[🔎] 20081212120220.GB18164@wagner.pp.ru>

Victor Wagner wrote:
> Если несколько абзацев - то командой глобальной замены в текстовом
> редакторе.

Если их совсем несколько — то проще вручную (и клавиша Compose при наборе).
Но если понемногу, но по несколько раз в месяц, то после десятого раза таки
доходит, что быстрее автоматизировать.

>> Большую часть задачи решил бы catdoc, если бы можно было указывать формат
>> вывода неподдерживаемых символов
> 
> А это - можно. Есть ключик  -f задающий формат. Формат это в принципе
> два файла format-name.specchars (символы, которые надо заменять, даже
> если они считаются поддерживаемыми) и format-name.replchars -
> последовательности, на которые заменять символы, не отсутствующие в
> выходной кодировке

Это немного напряжно для 65534 символов. -U '&%d;' было бы удобнее (или
задание формата для спецтокена в replchars).

>> и обрабатывать события начала/конца
>> строки.
> 
> А это нельзя. В той модели текста, которой придерживается Word и вокруг
> которой написан catdoc, понятие "строки" практически отсутствует.
> Минимальной логической единицей текста является абзац.
> 
> Впрочем, в HTML модель текста похожая.

Разумеется я имел в виду модель абзац — строка простого текста. Более
сложные в catdoc было бы затруднительно реализовать.

> На самом деле в поставку catdoc до сих пор не входят файлы
> html.specchars и html.replchars только потому, что из-за особенностей
> вордового представления таблиц в текущей модели парсинга не удалось
> корректно детектировать начало таблицы.
> А без поддержи таблиц конвертировать в html как-то неинтересно.
> Ну и еще шрифтовые выделения не ловятся.

Как-то ведь antiword это делает.

Reply to:

Follow-Ups:
- Re: Plain text to (x)html
  - From: Victor Wagner <vitus@wagner.pp.ru>

References:
- Plain text to (x)html
  - From: Serhiy Storchaka <storchaka@gmail.com>
- Re: Plain text to (x)html
  - From: Victor Wagner <vitus@wagner.pp.ru>

Prev by Date: Re: Plain text to (x)html
Next by Date: Re: sudo ws root
Previous by thread: Re: Plain text to (x)html
Next by thread: Re: Plain text to (x)html
Index(es):
- Date
- Thread