HTML-Zeichensätze


Um eine HTML-Seite korrekt anzuzeigen, muss der Browser wissen, welcher Zeichensatz (Kodierung) verwendet werden soll:

Beispiel

<meta charset="UTF-8">

HTML-Zeichensätze

Die HTML5-Spezifikation ermutigt Webentwickler, den UTF-8-Zeichensatz zu verwenden!

Dies war nicht immer der Fall. Die Zeichenkodierung für das frühe Web war ASCII.

Später, von HTML 2.0 bis HTML 4.01, galt ISO-8859-1 als Standardzeichensatz.

Mit XML und HTML5 kam endlich UTF-8 und löste viele Zeichencodierungsprobleme.


Am Anfang: ASCII

Computerdaten werden als Binärcodes (01000101) in der Elektronik gespeichert.

Zur Standardisierung der Textspeicherung wurde der American Standard Code for Information Interchange (ASCII) geschaffen. Es definiert eine eindeutige Binärzahl für jedes speicherbare Zeichen, um die Zahlen von 0-9, das Groß- und Kleinbuchstabenalphabet (az, AZ) und Sonderzeichen wie ! $ + - ( ) @ < > , .

Da ASCII 7 Bit für das Zeichen verwendete, konnte es nur 128 verschiedene Zeichen darstellen.

Die größte Schwäche von ASCII war, dass es nicht-englische Buchstaben ausschloss.

ASCII wird auch heute noch verwendet, insbesondere in großen Mainframe-Computersystemen.

Für einen genaueren Blick lesen Sie bitte unsere vollständige ASCII-Referenz .


Unter Windows: Windows-1252

Windows-1252 war der Standardzeichensatz in Windows bis Windows 95.

Es ist eine Erweiterung von ASCII mit zusätzlichen internationalen Zeichen.

Es verwendet ein volles Byte (8 Bits), um 256 verschiedene Zeichen darzustellen.

Da Windows-1252 der Standard in Windows ist, wird es von allen Browsern unterstützt.

Für einen genaueren Blick lesen Sie bitte: The Complete Windows-1252 Reference .



In HTML 4: ISO-8859-1

Der in HTML 4 am häufigsten verwendete Zeichensatz war ISO-8859-1.

ISO-8859-1 ist eine Erweiterung von ASCII mit zusätzlichen internationalen Zeichen.

Beispiel

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

In HTML 4 kann im <meta>-Tag ein anderer Zeichensatz als ISO-8859-1 angegeben werden:

Beispiel

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Alle HTML-4-Prozessoren unterstützen auch UTF-8:

Beispiel

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Wenn ein Browser ISO-8859-1 erkennt, verwendet er normalerweise standardmäßig Windows-1252, da Windows-1252 32 weitere internationale Zeichen enthält.

Für einen genaueren Blick lesen Sie bitte: The Complete ISO-8859-1 Reference


In HTML5: Unicode UTF-8

Die HTML5-Spezifikation ermutigt Webentwickler, den UTF-8-Zeichensatz zu verwenden.

Beispiel

<meta charset="UTF-8">

Im <meta>-Tag kann ein von UTF-8 abweichender Zeichensatz angegeben werden:

Beispiel

<meta charset="ISO-8859-1">

Das Unicode-Konsortium hat die UTF-8- und UTF-16-Standards entwickelt, da die ISO-8859-Zeichensätze begrenzt und nicht mit einer mehrsprachigen Umgebung kompatibel sind.

Der Unicode-Standard umfasst (fast) alle Zeichen, Satzzeichen und Symbole der Welt.

Alle HTML5- und XML-Prozessoren unterstützen UTF-8, UTF-16, Windows-1252 und ISO-8859.

Für einen genaueren Blick lesen Sie bitte: The Complete Unicode Reference .