Da html a txt
Salve a tutti,
nel riorganizzare gli hd del pc ho fatto la cazzata: spostando i dati
mi sono dimenticato di copiare ~/.config e ~/.local che guardacaso sono
le directory utilizzate da gcfilms. Ora quindi ho perso la mia lista di
circa 700 films ma non tutto è perduto. Infatti gcfilms ha la
possibilità di creare una bella paginetta html con tutta la lista dei
films, e fortunatamente io ne avevo fatta una abbastanza recentemente.
Dovrei però estrarre i dati dalla pagina all'html e prima di impazzire
con sed vorrei chiedere a voi se c'è qualcosa di più comodo.
La pagina html è strutturata così:
<dt>
<script type="text/javascript">writeExpandControl('1',1)</script>
<a id="movielink_1"
href="http://www.imdb.com/title/tt0048918/">1984</a> | <a class="topl"
href="#top">(Vertice)</a> <div class="borrowed0">Disponibile</div>
</dt>
<dd>
<div id="movie1" style="display:none;">
<img src="index_images/gcfilms_.jpeg" alt="1984" title= "1984"
height="100" />
<table>
<tr class="tr1"><th>Dureta</th><td>90 min</td></tr>
<tr class="tr2"><th>Genere</th><td>Drama, Sci-fi</td></tr>
<tr class="tr1"><th>Data</th><td>1956</td></tr>
<tr class="tr2"><th>Regista</th><td>Michael Anderson</td></tr>
<tr class="tr1"><th>Cast</th><td>Edmond O'Brien, Jan Sterling,
Michael Redgrave, Donald Pleasence, David Kossoff, Carol
Wolveridge</td></tr>
<tr class="tr2"><th>Tipo</th><td>DVD (1)</td></tr>
<tr class="tr2"><th>Valutazione</th><td>5/10</td></tr>
<tr class="tr2"><th>Audio</th><td></td></tr>
<tr class="tr2"><th>Sottotitoli</th><td></td></tr>
</table>
<p>George Orwell's novel of a totalitarian future society in which
a man whose daily work is rewriting history tries to rebel by falling
in love.<br /><br /><em></em></p> </div>
</dd>
Mentre il txt risultante dovrebbe essere questo:
1|1984|1956|90 min|Michael Anderson|UK|Drama,Sci-fi|
images/gcfilms_.jpg|Edmond O'Brien, Jan Sterling, Michael Redgrave,
Donald Pleasence, David Kossoff, Carol
Wolveridge||George Orwell's novel of a totalitarian future society in
which a man whose daily work is rewriting history tries to rebel by
falling in love.|
http://www.imdb.com/title/tt0048918/|0|DVD|1|888|5||||none|||0|||0|
Ovvero: quale programma posso usare per "esportare" i dati dall'html e
farmi un txt "formattato" come voglio io?
Grazie e ciao
InSa
--
++ Powered by Sid ++
Reply to: