Operation Manual
Kompozer
Kompozer-Anleitung Version 1.01 vom 07.06.2008 Seite 130
Um das zu umzusetzen, ist es klar, das mehr als 256 Zeichen erforderlich sind, obwohl nur
256 Speicherstellen (darunter eine Reihe von Steuerzeichen) verfügbar sind, um sie zu
anzusprechen.
Die Zeichen, die erforderlich sind, alle Zeichensätze herzustellen werden aus einem viel
größeren Satz herangezogen.
A6.3.3 Universal Character Set
Das Unicode-Konsortium [Ref 17] hat eine universale Zeichenmenge (UCS) standardisiert,
d. h. ein Standard, der alle Zeichen definiert, die für das Schreiben der Mehrzahl der le-
bendigen Sprachen auf Computern erforderlich sind. Das Ziel ist, und weitgehend ist es
bereits gelungen, eine Obermenge aller Zeichenmengen zu codieren.
Mit Unicode (kurz für UCS), kann man auf mehr als eine Million Zeichen zugreifen, von
denen bereits über 100.000 definiert wurden. Diese umfassen Zeichen für alle Hauptspra-
chen in der Welt mit einer zusätzlichen Auswahl an Symbolen zu verschiedenen Zwecken.
HTML legt eine Zeichenmenge fest, die aus einer Liste aus dem Zeichen-Repertoire zu-
sammen mit den entsprechenden Codepunkten (manchmal auch als Codepositionen be-
zeichnet) besteht. Für HTML (und XHTML) ist die Dokument Zeichenmenge mit dem UCS
identisch, was bedeutet, dass im Prinzip jedes Zeichen im UCS in jedem HTML-Dokument
verwendet werden kann. In der Praxis ist die Unterstützung für die komplette Zeichenmen-
ge unwirtschaftlich, die Systeme stellen daher nur Support für Teilmengen zur Verfügung.
A6.3.4 Zeichen-Codierung
Zeichen-Verschlüsselung bezieht sich, einfach ausgedrückt, auf den Prozess, in dem die
Verknüpfung der Zeichen mit den Werten für die Unicode-Zeichen entsprechend der ver-
wendeten Sprache dargestellt werden. Im Fall von ISO-8859-1 werden die Zeichencodes
identisch zu den Unicode-Werten dargestellt. (Die ersten 256 Unicode-Zeichen stimmen
mit dem Latin-1-Satz überein.) Beispielsweise verschlüsselt ISO-8859-7 griechische
Schriftzeichen, die viele des Latin-1-Satzes ersetzen. (Vergleiche Tabelle A6.3-2 mit Tabel-
le A6.3-1.) In diesem Fall stellt der Code EA, anstatt des Unicode-Code EA (ergibt e mit
Circonflex ê) das Zeichen kleines kappa dar, das im Unicode an der Stelle 03BA zu finden
ist. Tatsächlich schließt ISO-8859-7 das ê Zeichen nicht ein.
Alle ISO-8859-Sätze enthalten die ASCII Zeichen an den ursprünglichen Positionen.
Die HTML-Version des englischen Originaldokumentes verwendet den ISO-8859-1-Code,
hat aber trotzdem kein Problem damit, das volle Repertoire der Griechischen Schriftzei-
chen, abgedeckt durch ISO-8859-7 (siehe Tabelle), darzustellen. Wie das erreicht wird,
wird im folgenden Abschnitt erklärt.
Als Autor sollte man zur Kenntnis nehmen, dass jede Seite nur eine Codierung ohne Rück-
sicht auf die Anzahl der auf einer Seite vertretenen Sprachen verwendet.
Auf HTML-Seiten wird die Zeichen-Codierung in dem 'charset'-Parameter im Head-Bereich
angegeben. Mehrere Varianten sind erlaubt, aber Kompozer verwendet immer die Form:
<meta http-equiv="content- type" content="text/html; charset=ISO-8859-7">.
Anmerkung:
'charset' (trotz des Namens) gibt keinen Zeichensatz an. Der Zeichensatz für
HTML-Dokumente ist immer der UCS. 'charset' gibt nur die Codierung an.










