[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: altro aiuto con sed/awk



2013/7/8 MaX <maxlinux2000@gmail.com>:
> ciao a tutti, ho bisogno ancora di aiuto.
>
> Sono alle prese con uno script che attraverso awk oppure sed ha questo input
>
> <div align="center"><div class="quote_top"
> align="left"><b>CITAZIONE</b> (Nik UTENTE @ 30/6/2013, 11:18)<a
> href="?t=65090309&amp;st=135#entry537684346">&nbsp;</a></div><div
> class="quote" align="left">...Testo del messaggio</div></div>
>
> e dovrebbe risultare:
>
> [quote="nik UTENTE"]>...Testo del messaggio[/quote]
>
> naturalmente i numeri id/entry, Nik UTENTE e Testo del messaggio
> variano continuamente.
>
> Si tratta di convertire tag html in BBcode e devo farlo in bash.
>
> Alcune idee?

Se ho capito bene devi estrapolare le parti Nik Utente e testo del
messaggio...Ti propongo una regex che fa al caso tuo (ti consiglio
comunque, come ti è stato proposto, di usare librerie apposite che ti
fanno la conversione).

sed -r 's/<div.*class="quote_top".*<b>CITAZIONE<\/b>\s\((.*)\s@\s[0-9]+\/[0-9]+\/[0-9]+,.*>([^<]+)<\/div><\/div>/[quote="\1"]\2[\/quote]/g'

La regex che ti ho scritto sopra però ha il difetto di non lavorare su
testo multiline...Quindi dovresti prima togliere preventivamente i \n

[cut]


--
Linux Registered User (http://counter.li.org) #378635

So this is how liberty dies...with thunderous applause. - Padmé Amidala


Reply to: