Re: [OT] XML "entzippen"
Michelle Konzack wrote:
> Am 2004-06-13 15:56:37, schrieb Markus Raab:
>
>>Es gibt sxw2txt damit du Openofficedokumente auch ohne Openoffice
>>lesen kannst.
>
> Und wo ist das ?
> Ich finde es weder unter WOODY noch SARGE oder SID.
Dürfte dort nicht dabei sein.
Es handelt sich nur um ein Skript welches den xml Markup entfernt, der
Text bleibt übrig:
Vielleicht heist es auch oo2txt, ich konnte es nicht mehr finden, darum
ist es im Anhang[0]
mfg Markus
[0]
#!/bin/bash
ver="0.4"
if [[ $1 = "" || $2 = "" ]]
then
echo -e "
OpenOffice.org Converter by Dicky 'Mas Saint' Wahyu Purnomo ver
$ver
====================================================================
Syntax :
oo2txt [filename.sxw/filename.sxc] [text/html]
Requirement :
GNU sed version 3.0x or above
Lynx
UnZip
Tips :
oo2txt filename.sxw text > filename.txt
Contact Me :
Dicky Wahyu Purnomo 'Mas Saint'
Email : dicky.wahyu@massaint.or.id
Web : http://massaint.or.id
YahooID : dicky_wp
ICQ # : 5561766
"
else
file=$1
tmpfile=/tmp/OO2TXT`date +%d%m%Y%H%M`
unzip -qq -o -C "$1" content.xml -d /tmp/
mv /tmp/content.xml $tmpfile
echo "<html>
<head>
<style>
<!--
p {font-family:verdana,lucida;font-size:11px}
td {font-family:verdana,lucida}
.P1 {font-family:verdana,lucida;font-weight:bold;font-size:14px}
.P11 {font-family:verdana,lucida;font-weight:bold}
.P12 {font-family:verdana,lucida;font-weight:bold}
.P19 {font-family:verdana,lucida;font-weight:bold}
.P22 {font-family:verdana,lucida;font-weight:bold;font-size:12px}
.P23 {font-family:verdana,lucida;font-weight:bold;font-size:12px}
-->
</style>
</head>" > $tmpfile.html
cat $tmpfile | tr ">" "\n" | sed s/$/'>'/g | grep -v '<?xml
version="1.0" encoding="UTF-8"?>' | grep -v "^>$" | egrep -v
"text:table-of-content|text:index-title-template|text:index-entry-
style:font-decl|style:style|style:properties|style:tab
style:background|style:column|text:list-style
text:list-level-style-number|text:list-level-style-bullet
text:sequence-decl|number:number|office:script|office:font-decls
office:automatic-styles|table:table-column|table:table-header-rows" |
sed s/'text:style-name='/'class='/g | sed s/'text:p'/'p'/g | sed
s/'office:body'/'body'/g | sed s/'office:document-content'/'html'/g |
sed s/'table:table '/'table border=1 cellspacing=0 cellpadding=2
style=border-style:solid;color:black'/g | sed s/'table:table-row'/'tr'
g | sed s/'table:table-cell'/'td'/g | sed s/'table:table'/'table'/g |
sed s/'text:unordered-list'/'ul'/g | sed s/'text:ordered-list'/'ol'/g |
sed s/'text:list-item'/'li'/g | grep -v "^[1-9]</p>$" | grep -v "^[1-9
[0-9]</p>$" | sed s/"^<\/td>$"/"\ <\/td>"/g >> $tmpfile.html
if [[ $2 == "text" ]]
then
lynx -dump $tmpfile.html
fi
if [[ $2 == "html" ]]
then
cat $tmpfile.html
fi
rm -f $tmpfile
fi
--
Linux, the choice | Abhängigkeit ist heiser, wagt nicht, laut
of a GNU generation -o) | zu reden. -- Shakespeare, Rome und Julia
Kernel 2.6.6 /\ |
on a i686 _\_v |
Reply to: