Alphabet
Unter einem Alphabet A versteht man eine nichtleere Menge von Zeichen
bzw. Symbolen. Alphabete sind ein zentraler Begriff der theoretischen Informatik
und sind die Grundbausteine von Wörtern, die wiederum die Bausteine von Sprachen
bilden. Der zentrale Bestandteil einer Logik ist deren zugrundeliegende Sprache.
Das Alphabet dieser Sprache gibt dann die Menge der zulässigen Zeichen an, die
benutzt werden dürfen, um die Terme
und Ausdrücke
dieser Logik aufzubauen. Endliche lineare Reihen von Zeichen eines Alphabets
heißen Zeichenreihen oder Wörter über A. Die Menge der
Wörter wird mit A* bezeichnet. Auch die Zeichenreihe, die
keine Symbole enthält, ist ein Wort – das leere Wort. Es wird mit
bezeichnet.
Alphabete werden oft mit dem Formelzeichen
(Sigma)
bezeichnet, seltener wird als Formelzeichen
als Abkürzung für Vokabular (englisch
vocabulary) benutzt.[1]
Die Kleenesche
Hülle
des Alphabets bezeichnet die Menge aller Wörter
(d. h. endlichen Sequenzen) über dem Alphabet
,
die durch Symbole aus
gebildet werden können. Formal ist diese gegeben durch die disjunkte Vereinigung
.
(Mit
werden die abzählbar unendlichen Folgen von Zeichen aus den Alphabet
bezeichnet, siehe:
=
.
bezeichnet die gesamte Menge
der endlichen Sequenzen und unendlichen Folgen von Zeichen.)
Die zu jedem Wort
aus
eindeutig bestimmte Zahl
mit
heißt Länge des Wortes
.
Operationen auf Wörtern sind die Konkatenation (Verkettung), Potenz (mehrfach
hintereinander Setzen), Spiegelung; ein Wort kann Teil eines anderen Wortes sein
(Infix, englisch substring) – näheres siehe Wort
(Theoretische Informatik): Alphabete stellen somit das Zeicheninventar für
Wörter zur Verfügung und bilden damit die Grundlage für formale Sprachen.
Man muss unterscheiden zwischen dem Alphabet aus Einzelzeichen und den Wörtern unterschiedlicher Länge, die über diesem Alphabet gebildet werden. Insbesondere gehört das leere Wort (das triviale Wort mit der Länge 0) nie zum Alphabet, da es in jeder Wortmenge enthalten ist. Menge der nicht-leeren Worte:
.
Definition
Ein Alphabet ist eine endliche Menge. Oft wird auch verlangt, dass die Menge nicht leer ist. Die Elemente eines Alphabets werden als Buchstaben, Symbole oder Zeichen bezeichnet. Dieser Definition zufolge ist das Alphabet ein Zeichenvorrat, gleichbedeutend mit einem Zeichensatz. Mit dem Wort Zeichensatz ist aber oft auch eine Zeichenkodierung gemeint. Alphabete sind hingegen unabhängig von einer Kodierung.
Nach DIN 44300 ist ein Alphabet dagegen eine total geordnete endliche
Menge von unterscheidbaren Symbolen. Es handelt sich demnach genauer gesagt um
einen Zeichenvorrat zusammen mit einer Totalordnung
.
Abgrenzung zur natürlichen Sprache
In der Informatik ist das Alphabet eine Verallgemeinerung der üblichen
Alphabete
natürlicher
Sprachen. Beispielsweise ist das Alphabet der lateinischen
Buchstaben auch ein Alphabet im Sinne der Informatik. In der Theoretischen
Informatik kommen jedoch häufig auch Alphabete vor, deren Elemente Symbole sind,
die man mit mehreren Buchstaben
darstellt. Zum Beispiel ist
ein Alphabet mit drei Elementen. Sie können in beliebiger Reihenfolge
zusammenfügt werden, etwa zu
.
Hier ist dann die Arbitrarität
der Symbole
besonders wichtig: Welche Zeichen für die Elemente des Alphabets verwendet
werden, ist belanglos, solange sie voneinander unterscheidbar sind. Die
Zeichenkette
kann also beispielsweise für eine Tonfolge stehen, aber genauso auch für eine
Programmsteuerung mit drei unterschiedlichen Befehlen.
In dem Zusammenhang ist auch zu beachten, dass man in der Informatik jede
beliebige Folge von Zeichen eines Alphabets als Wort
bezeichnet. In vielen Computersprachen ist dafür die englische Bezeichnung
string im Gebrauch. Auch über dem lateinischen
Alphabet ist also in der Informatik die Zeichenfolge
ein Wort.
Beispiele
- Mit Hilfe des Alphabets
können alle natürlichen Zahlen im Dezimalsystem gebildet werden. In der Zahlenlehre wird entsprechend der Unterscheidung von Zeichen eines Alphabets und Wörtern über diesem Alphabet zwischen Ziffern und Zahlendarstellungen unterschieden. Eine Zahl ist dann ein Abstraktum, nämlich die Bedeutung (Semantik, hier: Zahlenwert) einer syntaktisch korrekten Zahlendarstellung.
- Das römische Zahlensystem basiert in der Grundform auf dem Alphabet Σ = {I, V, X, L, C, D, M} (mit verschiedenen Erweiterungen für große Zahlen). Hier sind jedoch die Regeln, wie die Zeichenfolge beschaffen sein muss, um als Wort des römischen Zahlensystems zu gelten, komplex (IV anstatt IIII, größere Einheiten weiter links als kleinere, …). Sie können aber durch eine formale Grammatik dargestellt werden. Die Zeichenfolgen 13 und XIII sind verschiedene Darstellungen derselben (abstrakten) Zahl.
- Für den Morsecode
lassen sich zwei unterschiedliche Alphabete angeben, die das
Kommunikationssystem des Morsens auf unterschiedlichen Ebenen beschreiben:
Zunächst gibt es das Alphabet
bzw.
, aus dem die Menge der Morsezeichen
auf Grundlage der einzelnen Buchstabenhäufigkeiten gebildet wird. Neben den Buchstaben und Zahlen ist unter anderem auch SOS (
) direkt ein Morsezeichen, da es ohne Pause zwischen den dit und dah gemorst wird. Die Zeichen einer Nachricht werden - abgesehen von dieser Ausnahme - im Allgemeinen aber nicht einfach hintereinanderweg gemorst, sondern es wird zwischen den einzelnen Zeichen jeweils eine kurze Pause eingelegt. Dies ist nötig, da einige Zeichen ebenfalls den Anfang anderer Zeichen bilden; Das Morsealphabet selbst besteht also insgesamt aus den Zeichen und der Pause zwischen den Zeichen:
.
Diese Beispiele sollen verdeutlichen, dass sich der Aufbau eines komplexen Kommunikationssystems durch gegebenenfalls hierarchisch aufgebaute Paare von Alphabeten und zugeordneten Sprachen beschreiben lässt.
Anmerkungen
- ↑
Im Zusammenhang mit einer formalen Grammatik
und der durch sie erzeugten formalen Sprache
wird der Zeichensatz der formalen Sprache Terminalalphabet genannt und oft mit dem Zeichen
(statt
) bezeichnet. Darüber hinaus benötigt eine formale Grammatik noch eine davon disjunkte, nichtleere Menge von Nichtterminalen(Variablen), oft mit
(seltener mit <
) bezeichnet, formal handelt es sich dabei ebenfalls um ein Alphabet. Nichtterminale dürfen in Wörtern aus
nicht vorkommen. Die (disjunkte) Vereinigung von Terminalen und Nichtterminalen ist dann das gesamte Vokabular, oft mit
(oder eben
) bezeichnet.



© biancahoegel.de
Datum der letzten Änderung: Jena, den: 23.11. 2022