[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: Änderung des Encoding



Hallo Thomas,

Am 16 Jan 2007 00:17:32 +0100 schrieb Thomas Hafner <thomas@hafner.nl.eu.org>:

> Es handelt es sich um eine HTML-Datei mit deutschen Umlauten und
> Sonderzeichen, erstellt mit der deutschen Version von Drewamwaver
> unter Mac OS X.

In meiner E-Mail an Dich habe ich das vorgeschlagen:
  recode h4..u8 <input.html >output.txt

Ich nehme an, das geht mir "-r" auch für ein ganzes Verzeichnis, oder?

Aber vielleicht willst Du nicht nur die nicht-ASCII-Zeichen in UTF-8
umwandeln, sondern gleichzeitig den ganzen HTML-Markup loswerden?
Dann wäre das besser:
  export LANG=de_DE.UTF-8
  w3m -dump -T text/html <input.html >output.txt

Nein, ich möchte HTML-Dateien erhalten. Mein Server liefert UTF-8 als
Standardencoding auf, und der Kunde hat keine Entities für die Umlaute
verwendet. Das letze Mal hatte ich das Problem mit einem User, der
seine Dateien auf mit Frontpage macht und irgend einen wirren
Windows<irgendwas>-Zeichensatz verwendet hat.

Danke für die Hilfe, werde das heute testen!

Hannes Halenka



Reply to: