[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: [OT] XML "entzippen"



Michelle Konzack wrote:

> Am 2004-06-13 15:56:37, schrieb Markus Raab:
> 
>>Es gibt sxw2txt damit du Openofficedokumente auch ohne Openoffice
>>lesen kannst.
> 
> Und wo ist das ?
> Ich finde es weder unter WOODY noch SARGE oder SID.

Dürfte dort nicht dabei sein.

Es handelt sich nur um ein Skript welches den xml Markup entfernt, der
Text bleibt übrig:

Vielleicht heist es auch oo2txt, ich konnte es nicht mehr finden, darum
ist es im Anhang[0]

mfg Markus

[0]
#!/bin/bash

ver="0.4"
if [[ $1 = "" || $2 = "" ]]
        then
        echo -e "

        OpenOffice.org Converter by Dicky 'Mas Saint' Wahyu Purnomo ver
$ver
        ====================================================================

        Syntax :
            oo2txt [filename.sxw/filename.sxc] [text/html]

        Requirement :
            GNU sed version 3.0x or above  
            Lynx
            UnZip       

        Tips :
            oo2txt filename.sxw text > filename.txt

        Contact Me :
            Dicky Wahyu Purnomo 'Mas Saint'
            Email   : dicky.wahyu@massaint.or.id
            Web     : http://massaint.or.id
            YahooID : dicky_wp
            ICQ #   : 5561766
        "

else

file=$1
tmpfile=/tmp/OO2TXT`date +%d%m%Y%H%M`

unzip -qq -o -C "$1" content.xml -d /tmp/
mv /tmp/content.xml $tmpfile

echo "<html>
<head>
<style>
<!--
p {font-family:verdana,lucida;font-size:11px}
td {font-family:verdana,lucida}
.P1 {font-family:verdana,lucida;font-weight:bold;font-size:14px}
.P11 {font-family:verdana,lucida;font-weight:bold}
.P12 {font-family:verdana,lucida;font-weight:bold}
.P19 {font-family:verdana,lucida;font-weight:bold}
.P22 {font-family:verdana,lucida;font-weight:bold;font-size:12px}
.P23 {font-family:verdana,lucida;font-weight:bold;font-size:12px}
-->
</style>
</head>" > $tmpfile.html

cat $tmpfile | tr ">" "\n" | sed s/$/'>'/g | grep -v '<?xml
version="1.0" encoding="UTF-8"?>' | grep -v "^>$" | egrep -v
"text:table-of-content|text:index-title-template|text:index-entry-
style:font-decl|style:style|style:properties|style:tab
style:background|style:column|text:list-style
text:list-level-style-number|text:list-level-style-bullet
text:sequence-decl|number:number|office:script|office:font-decls
office:automatic-styles|table:table-column|table:table-header-rows" |
sed s/'text:style-name='/'class='/g | sed s/'text:p'/'p'/g | sed
s/'office:body'/'body'/g | sed s/'office:document-content'/'html'/g |
sed s/'table:table '/'table border=1 cellspacing=0 cellpadding=2
style=border-style:solid;color:black'/g | sed s/'table:table-row'/'tr'
g | sed s/'table:table-cell'/'td'/g | sed s/'table:table'/'table'/g |
sed s/'text:unordered-list'/'ul'/g | sed s/'text:ordered-list'/'ol'/g |
sed s/'text:list-item'/'li'/g | grep -v "^[1-9]</p>$" | grep -v "^[1-9
[0-9]</p>$" | sed s/"^<\/td>$"/"\&nbsp;<\/td>"/g >> $tmpfile.html

if [[ $2 == "text" ]]
then
        lynx -dump $tmpfile.html
fi
if [[ $2 == "html" ]]
then
        cat $tmpfile.html
fi

rm -f $tmpfile

fi

-- 
Linux, the choice          | Abhängigkeit ist heiser, wagt nicht, laut
of a GNU generation   -o)  | zu reden.  -- Shakespeare, Rome und Julia  
Kernel 2.6.6           /\  | 
on a i686             _\_v | 



Reply to: