Operation Manual

ManualsBrandsKompozer ManualsSoftware07

121

122

123

124

125

126

127

128

129

130

Kompozer

Kompozer-Anleitung Version 1.01 vom 07.06.2008 Seite 130

Um das zu umzusetzen, ist es klar, das mehr als 256 Zeichen erforderlich sind, obwohl nur

256 Speicherstellen (darunter eine Reihe von Steuerzeichen) verfügbar sind, um sie zu

anzusprechen.

Die Zeichen, die erforderlich sind, alle Zeichensätze herzustellen werden aus einem viel

größeren Satz herangezogen.

A6.3.3 Universal Character Set

Das Unicode-Konsortium [Ref 17] hat eine universale Zeichenmenge (UCS) standardisiert,

d. h. ein Standard, der alle Zeichen definiert, die für das Schreiben der Mehrzahl der le-

bendigen Sprachen auf Computern erforderlich sind. Das Ziel ist, und weitgehend ist es

bereits gelungen, eine Obermenge aller Zeichenmengen zu codieren.

Mit Unicode (kurz für UCS), kann man auf mehr als eine Million Zeichen zugreifen, von

denen bereits über 100.000 definiert wurden. Diese umfassen Zeichen für alle Hauptspra-

chen in der Welt mit einer zusätzlichen Auswahl an Symbolen zu verschiedenen Zwecken.

HTML legt eine Zeichenmenge fest, die aus einer Liste aus dem Zeichen-Repertoire zu-

sammen mit den entsprechenden Codepunkten (manchmal auch als Codepositionen be-

zeichnet) besteht. Für HTML (und XHTML) ist die Dokument Zeichenmenge mit dem UCS

identisch, was bedeutet, dass im Prinzip jedes Zeichen im UCS in jedem HTML-Dokument

verwendet werden kann. In der Praxis ist die Unterstützung für die komplette Zeichenmen-

ge unwirtschaftlich, die Systeme stellen daher nur Support für Teilmengen zur Verfügung.

A6.3.4 Zeichen-Codierung

Zeichen-Verschlüsselung bezieht sich, einfach ausgedrückt, auf den Prozess, in dem die

Verknüpfung der Zeichen mit den Werten für die Unicode-Zeichen entsprechend der ver-

wendeten Sprache dargestellt werden. Im Fall von ISO-8859-1 werden die Zeichencodes

identisch zu den Unicode-Werten dargestellt. (Die ersten 256 Unicode-Zeichen stimmen

mit dem Latin-1-Satz überein.) Beispielsweise verschlüsselt ISO-8859-7 griechische

Schriftzeichen, die viele des Latin-1-Satzes ersetzen. (Vergleiche Tabelle A6.3-2 mit Tabel-

le A6.3-1.) In diesem Fall stellt der Code EA, anstatt des Unicode-Code EA (ergibt e mit

Circonflex ê) das Zeichen kleines kappa dar, das im Unicode an der Stelle 03BA zu finden

ist. Tatsächlich schließt ISO-8859-7 das ê Zeichen nicht ein.

Alle ISO-8859-Sätze enthalten die ASCII Zeichen an den ursprünglichen Positionen.

Die HTML-Version des englischen Originaldokumentes verwendet den ISO-8859-1-Code,

hat aber trotzdem kein Problem damit, das volle Repertoire der Griechischen Schriftzei-

chen, abgedeckt durch ISO-8859-7 (siehe Tabelle), darzustellen. Wie das erreicht wird,

wird im folgenden Abschnitt erklärt.

Als Autor sollte man zur Kenntnis nehmen, dass jede Seite nur eine Codierung ohne Rück-

sicht auf die Anzahl der auf einer Seite vertretenen Sprachen verwendet.

Auf HTML-Seiten wird die Zeichen-Codierung in dem 'charset'-Parameter im Head-Bereich

angegeben. Mehrere Varianten sind erlaubt, aber Kompozer verwendet immer die Form:

Anmerkung:

'charset' (trotz des Namens) gibt keinen Zeichensatz an. Der Zeichensatz für

HTML-Dokumente ist immer der UCS. 'charset' gibt nur die Codierung an.