[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

CIA world factbook für DICT aufbereiten



Hi Leute,

ich habe mir zuletzt 2007 das CIA World Fact Book für dict aufbereitet.
Damals habe ich mir folgendes dazu notiert:

- Zuallererst mal die Daten von der CIA herunterladen:
  https://www.cia.gov/library/publications/the-world-factbook/index.html
  (single-.zip-file for high-bandwidth users).
- Entpacken
- Die Dateien aus dem /print und dem /appendix Unterverzeichnis in ein
  eigenes temporäres Verzeichnis kopieren, ebenso copyright.html und
  countrylisting.html
- In diesem Verzeichnis dann for i in *.html; do html2text -nobs -width 72 $i > $i.txt; done
  durchführen.
- die entstandenen .html.txt umbenennen zu .txt
- die appendix-*.txt files in ein Unterverzeichnis /appendices
  verschieben.
- die anderen **.txt files in ein Unterverzeichnis /countries
  verschieben.
- im aktuellen Verzeichnis müssen noch countrylisting.txt und
  copyright.txt vorhanden sein.
- jetzt im aktuellen Verzeichnis  python convert.py > world07.txt
  durchführen.
- dann
  dictfmt --columns 80 -f -u http://www.cia.gov/cia/publications/factbook/countrylisting.html -s "CIA World Factbook 2007"  -f world07 < world07.txt
  durchführen.
- dictzip world07.dict durchführen.
- Jetzt die world07.dict.dz und die world07.index nach /usr/share/dictd
  kopieren.
- world07 in die Datei /etc/dictd/dictd.order anhaengen,
  dann dictdconfig --write ausfuehren und zu guter Letzt kontrollieren,
  ob die neue Datenbank in /var/lib/dictd/db.list an richtiger Stelle
  auftaucht.
- dictd restarten, fertig.

Mein Problem ist, daß sich offensichtlich die Struktur geändert hat, es
gibt kein countrylisting.html und kein copyright.html. Hat jemand eine
Idee, wie das aktuell korrekt funktioniert?


ciao, Dirk


Reply to: