HTML -Unicode (UTF-8)-Referenz

Das Unicode-Konsortium

Das Unicode-Konsortium entwickelt den Unicode-Standard. Ihr Ziel ist es, die bestehenden Zeichensätze durch das Standard-Unicode-Transformationsformat (UTF) zu ersetzen.

Der Unicode-Standard hat sich zu einem Erfolg entwickelt und ist in HTML, XML, Java, JavaScript, E-Mail, ASP, PHP usw. implementiert. Der Unicode-Standard wird auch von vielen Betriebssystemen und allen modernen Browsern unterstützt.

Das Unicode-Konsortium arbeitet mit den führenden Organisationen zur Entwicklung von Standards wie ISO, W3C und ECMA zusammen.

Die Unicode-Zeichensätze

Unicode kann durch verschiedene Zeichensätze implementiert werden. Die am häufigsten verwendeten Kodierungen sind UTF-8 und UTF-16:

Character-set	Description
UTF-8	A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages
UTF-16	16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET.

Tipp: Die ersten 128 Zeichen von Unicode (die eins zu eins ASCII entsprechen) werden mit einem einzelnen Oktett mit demselben Binärwert wie ASCII codiert, wodurch gültiger ASCII-Text auch gültiger UTF-8-codierter Unicode wird.

HTML 4 unterstützt UTF-8. HTML 5 unterstützt sowohl UTF-8 als auch UTF-16!

Der HTML5-Standard: Unicode UTF-8

Da die Zeichensätze in ISO-8859 in ihrer Größe begrenzt und in mehrsprachigen Umgebungen nicht kompatibel waren, hat das Unicode-Konsortium den Unicode-Standard entwickelt.

Der Unicode-Standard umfasst (fast) alle Zeichen, Satzzeichen und Symbole der Welt.

Unicode ermöglicht die plattform- und sprachunabhängige Verarbeitung, Speicherung und den Transport von Text.

Die Standardzeichencodierung in HTML-5 ist UTF-8.

Wenn eine HTML5-Webseite einen anderen Zeichensatz als UTF-8 verwendet, sollte dies im <meta>-Tag wie folgt angegeben werden:

Beispiel

Der Unterschied zwischen Unicode und UTF-8

Unicode ist ein Zeichensatz . UTF-8 kodiert .

Unicode ist eine Liste von Zeichen mit eindeutigen Dezimalzahlen (Codepunkten). A = 65, B = 66, C = 67, ....

Diese Liste von Dezimalzahlen stellt die Zeichenkette „Hallo“ dar: 104 101 108 108 111

Durch Codierung werden diese Zahlen in Binärzahlen übersetzt, die in einem Computer gespeichert werden sollen:

Die UTF-8-Codierung speichert "Hallo" wie folgt (binär): 01101000 01100101 01101100 01101100 01101111

Beim Kodieren werden Zahlen in Binär übersetzt. Zeichensätze übersetzt Zeichen in Zahlen.

HTML5 UTF-8-Zeichencodes

Nachfolgend finden Sie eine Liste einiger der von HTML5 unterstützten UTF-8-Zeichencodes:

Character codes	Decimal	Hexadecimal
C0 Controls and Basic Latin	0-127	0000-007F
C1 Controls and Latin-1 Supplement	128-255	0080-00FF
Latin Extended-A	256-383	0100-017F
Latin Extended-B	384-591	0180-024F
Spacing Modifiers	688-767	02B0-02FF
Diacritical Marks	768-879	0300-036F
Greek and Coptic	880-1023	0370-03FF
Cyrillic Basic	1024-1279	0400-04FF
Cyrillic Supplement	1280-1327	0500-052F
General Punctuation	8192-8303	2000-206F
Currency Symbols	8352-8399	20A0-20CF
Letterlike Symbols	8448-8527	2100-214F
Arrows	8592-8703	2190-21FF
Mathematical Operators	8704-8959	2200-22FF
Box Drawings	9472-9599	2500-257F
Block Elements	9600-9631	2580-259F
Geometric Shapes	9632-9727	25A0-25FF
Miscellaneous Symbols	9728-9983	2600-26FF
Dingbats	9984-10175	2700-27BF

❮ Vorherige Nächste ❯

HTML -Zeichensätze

HTML -UTF-8

HTML -Symbole