Re: Plain text to (x)html
Victor Wagner wrote:
> Если несколько абзацев - то командой глобальной замены в текстовом
> редакторе.
Если их совсем несколько — то проще вручную (и клавиша Compose при наборе).
Но если понемногу, но по несколько раз в месяц, то после десятого раза таки
доходит, что быстрее автоматизировать.
>> Большую часть задачи решил бы catdoc, если бы можно было указывать формат
>> вывода неподдерживаемых символов
>
> А это - можно. Есть ключик -f задающий формат. Формат это в принципе
> два файла format-name.specchars (символы, которые надо заменять, даже
> если они считаются поддерживаемыми) и format-name.replchars -
> последовательности, на которые заменять символы, не отсутствующие в
> выходной кодировке
Это немного напряжно для 65534 символов. -U '&%d;' было бы удобнее (или
задание формата для спецтокена в replchars).
>> и обрабатывать события начала/конца
>> строки.
>
> А это нельзя. В той модели текста, которой придерживается Word и вокруг
> которой написан catdoc, понятие "строки" практически отсутствует.
> Минимальной логической единицей текста является абзац.
>
> Впрочем, в HTML модель текста похожая.
Разумеется я имел в виду модель абзац — строка простого текста. Более
сложные в catdoc было бы затруднительно реализовать.
> На самом деле в поставку catdoc до сих пор не входят файлы
> html.specchars и html.replchars только потому, что из-за особенностей
> вордового представления таблиц в текущей модели парсинга не удалось
> корректно детектировать начало таблицы.
> А без поддержи таблиц конвертировать в html как-то неинтересно.
> Ну и еще шрифтовые выделения не ловятся.
Как-то ведь antiword это делает.
Reply to: