Änderung des Encoding

Matthias Taube no_html.max50kb at nurfuerspam.de
Mit Jan 17 17:44:01 GMT 2007


Hannes H. schrieb:

> Nein, ich möchte HTML-Dateien erhalten. Mein Server liefert UTF-8 als
> Standardencoding auf, und der Kunde hat keine Entities für die Umlaute
> verwendet. Das letze Mal hatte ich das Problem mit einem User, der
> seine Dateien auf mit Frontpage macht und irgend einen wirren
> Windows<irgendwas>-Zeichensatz verwendet hat.

Wie wäre es mit Tidy?

Das nutze ich um die Sonderzeichen in Enties umzuwandeln.


> Package: tidy
> Version: 20051018-1
> Priority: optional
> Section: web
> Maintainer: Jason Thomas <jason at debian.org>
> Depends: libc6 (>= 2.3.4-1), libtidy-0.99-0
> Suggests: tidy-doc
> Architecture: i386
> Filename: pool/main/t/tidy/tidy_20051018-1_i386.deb
> Size: 21678
> Installed-Size: 104
> MD5sum: 4ece61bc2c87f71ac43d2b13d091a65c
> Description: HTML syntax checker and reformatter
>  Corrects markup in a way compliant with the latest standards, and
>  optimal for the popular browsers.  It has a comprehensive knowledge
>  of the attributes defined in the HTML 4.0 recommendation from W3C,
>  and understands the US ASCII, ISO Latin-1, UTF-8 and the ISO 2022
>  family of 7-bit encodings.  In the output:
>  .
>   * HTML entity names for characters are used when appropriate.
>   * Missing attribute quotes are added, and mismatched quotes found.
>   * Tags lacking a terminating '>' are spotted.
>   * Proprietary elements are recognized and reported as such.
>   * The page is reformatted, from a choice of indentation styles.
>  .
>  Tidy is a product of the World Wide Web Consortium.