Freigeben über


Unicode-Unterstützung für Ersatzpaare und Kombinieren von Zeichensequenzen

Der Unicode-Standard definiert für ein einzelnes abstraktes Zeichen, das aus einer Sequenz von zwei Codeeinheiten besteht, ein Ersatzzeichenpaar als codierte Zeichendarstellung. Der erste Wert des Ersatzzeichenpaares ist das hohe Ersatzzeichen. Es enthält einen 16-Bit-Codewert im Bereich von U+D800 bis U+DBFF. Der zweite Wert des Ersatzzeichenpaares ist das niedrige Ersatzzeichen. Es enthält Werte im Bereich von U+DC00 bis U+DFFF.

Der Unicode-Standard definiert eine Kombinationszeichenfolge als Kombination aus einem Basiszeichen und einem oder mehreren Kombinationszeichen. Ein Ersatzzeichenpaar kann ein Basiszeichen oder ein Kombinationszeichen darstellen. Weitere Informationen über Ersatzzeichenpaare und Kombinationszeichensequenzen finden Sie unter "The Unicode Standard" unter www.unicode.org.

Wichtig ist, dass Ersatzzeichenpaare 32-Bit-Einzelzeichen darstellen und nicht davon ausgegangen werden kann, dass ein 16-Bit-Unicode-Codierungswert genau einem Zeichen zugeordnet werden kann. Durch die Verwendung von Ersatzpaaren kann ein mit 16-Bit-Unicode codiertes System eine Million zusätzlicher Codepunkte adressieren, denen durch dem Unicode-Standard weitere Zeichen zugewiesen werden können.

.NET Framework unterstützt Textelemente. Ein Textelement ist eine Texteinheit, die als Einzelzeichen angezeigt wird. Textelemente werden auch als Grapheme bezeichnet. Ein Textelement kann ein Basiszeichen, ein Ersatzzeichenpaar oder eine Kombinationssequenz sein. Die StringInfo-Klasse stellt Methoden bereit, mit denen eine Zeichenfolge in ihre Textelemente zerlegt und diese Textelemente durchlaufen werden können. Die StringInfo.GetNextTextElement-Methode ermöglicht beispielsweise das Abrufen eines Ersatzzeichenpaares als Textelement. Ein Beispiel für die Verwendung der StringInfo-Klasse finden Sie unter Indizierung von Zeichenfolgen.

Siehe auch

Referenz

System.Text Namespace

Konzepte

Unicode in .NET Framework
Indizierung von Zeichenfolgen

Weitere Ressourcen

Codierung und Lokalisierung