HTML -Unicode (UTF-8)-Referenz
Das Unicode-Konsortium
Das Unicode-Konsortium entwickelt den Unicode-Standard. Ihr Ziel ist es, die bestehenden Zeichensätze durch das Standard-Unicode-Transformationsformat (UTF) zu ersetzen.
Der Unicode-Standard hat sich zu einem Erfolg entwickelt und ist in HTML, XML, Java, JavaScript, E-Mail, ASP, PHP usw. implementiert. Der Unicode-Standard wird auch von vielen Betriebssystemen und allen modernen Browsern unterstützt.
Das Unicode-Konsortium arbeitet mit den führenden Organisationen zur Entwicklung von Standards wie ISO, W3C und ECMA zusammen.
Die Unicode-Zeichensätze
Unicode kann durch verschiedene Zeichensätze implementiert werden. Die am häufigsten verwendeten Kodierungen sind UTF-8 und UTF-16:
Character-set | Description |
---|---|
UTF-8 | A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages |
UTF-16 | 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET. |
Tipp: Die ersten 128 Zeichen von Unicode (die eins zu eins ASCII entsprechen) werden mit einem einzelnen Oktett mit demselben Binärwert wie ASCII codiert, wodurch gültiger ASCII-Text auch gültiger UTF-8-codierter Unicode wird.
HTML 4 unterstützt UTF-8. HTML 5 unterstützt sowohl UTF-8 als auch UTF-16!
Der HTML5-Standard: Unicode UTF-8
Da die Zeichensätze in ISO-8859 in ihrer Größe begrenzt und in mehrsprachigen Umgebungen nicht kompatibel waren, hat das Unicode-Konsortium den Unicode-Standard entwickelt.
Der Unicode-Standard umfasst (fast) alle Zeichen, Satzzeichen und Symbole der Welt.
Unicode ermöglicht die plattform- und sprachunabhängige Verarbeitung, Speicherung und den Transport von Text.
Die Standardzeichencodierung in HTML-5 ist UTF-8.
Wenn eine HTML5-Webseite einen anderen Zeichensatz als UTF-8 verwendet, sollte dies im <meta>-Tag wie folgt angegeben werden:
Beispiel
<meta charset="ISO-8859-1">
Der Unterschied zwischen Unicode und UTF-8
Unicode ist ein Zeichensatz . UTF-8 kodiert .
Unicode ist eine Liste von Zeichen mit eindeutigen Dezimalzahlen (Codepunkten). A = 65, B = 66, C = 67, ....
Diese Liste von Dezimalzahlen stellt die Zeichenkette „Hallo“ dar: 104 101 108 108 111
Durch Codierung werden diese Zahlen in Binärzahlen übersetzt, die in einem Computer gespeichert werden sollen:
Die UTF-8-Codierung speichert "Hallo" wie folgt (binär): 01101000 01100101 01101100 01101100 01101111
Beim Kodieren werden Zahlen in Binär übersetzt. Zeichensätze übersetzt Zeichen in Zahlen.
HTML5 UTF-8-Zeichencodes
Nachfolgend finden Sie eine Liste einiger der von HTML5 unterstützten UTF-8-Zeichencodes:
Character codes | Decimal | Hexadecimal |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |