[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Da html a txt



Salve a tutti,

nel riorganizzare gli hd del pc ho fatto la cazzata: spostando i dati
mi sono dimenticato di copiare ~/.config e ~/.local che guardacaso sono
le directory utilizzate da gcfilms. Ora quindi ho perso la mia lista di
circa 700 films ma non tutto è perduto. Infatti gcfilms ha la
possibilità di creare una bella paginetta html con tutta la lista dei
films, e fortunatamente io ne avevo fatta una abbastanza recentemente.
Dovrei però estrarre i dati dalla pagina all'html e prima di impazzire
con sed vorrei chiedere a voi se c'è qualcosa di più comodo.

La pagina html è strutturata così:

<dt>
   <script type="text/javascript">writeExpandControl('1',1)</script>
   <a id="movielink_1"
href="http://www.imdb.com/title/tt0048918/";>1984</a> | <a class="topl"
href="#top">(Vertice)</a> <div class="borrowed0">Disponibile</div>
</dt>
<dd>
   <div id="movie1" style="display:none;">
    <img src="index_images/gcfilms_.jpeg" alt="1984" title= "1984"
height="100" /> 
    <table>
     <tr class="tr1"><th>Dureta</th><td>90 min</td></tr>
     <tr class="tr2"><th>Genere</th><td>Drama, Sci-fi</td></tr>
     <tr class="tr1"><th>Data</th><td>1956</td></tr>
     <tr class="tr2"><th>Regista</th><td>Michael Anderson</td></tr>
     <tr class="tr1"><th>Cast</th><td>Edmond O'Brien, Jan Sterling,
Michael Redgrave, Donald Pleasence, David Kossoff, Carol
Wolveridge</td></tr>
     <tr class="tr2"><th>Tipo</th><td>DVD (1)</td></tr>
     <tr class="tr2"><th>Valutazione</th><td>5/10</td></tr> 
     <tr class="tr2"><th>Audio</th><td></td></tr> 
     <tr class="tr2"><th>Sottotitoli</th><td></td></tr> 
    </table>
    <p>George Orwell's novel of a totalitarian future society in which
a man whose daily work is rewriting history tries to rebel by falling
in love.<br /><br /><em></em></p> </div>
</dd>

Mentre il txt risultante dovrebbe essere questo:

1|1984|1956|90 min|Michael Anderson|UK|Drama,Sci-fi|
images/gcfilms_.jpg|Edmond O'Brien, Jan Sterling, Michael Redgrave,
Donald Pleasence, David Kossoff, Carol
Wolveridge||George Orwell's novel of a totalitarian future society in
which a man whose daily work is rewriting history tries to rebel by
falling in love.|
http://www.imdb.com/title/tt0048918/|0|DVD|1|888|5||||none|||0|||0|

Ovvero: quale programma posso usare per "esportare" i dati dall'html e
farmi un txt "formattato" come voglio io?

Grazie e ciao
InSa

-- 
++ Powered by Sid ++



Reply to: