Datenmatrix
In der Statistik ist die Datenmatrix, auch Versuchsplanmatrix, Designmatrix (von englisch research design: deutsch Versuchsplan), Modellmatrix, Beobachtungsmatrix, oder Regressormatrix genannt eine Matrix, die Daten über mehrere Merkmale mehrerer Personen oder Objekte (statistische Einheiten) enthält. Sie ist Grundlage des klassischen Modells der linearen Mehrfachregression.
Der Begriff Versuchsplan-
bzw. Designmatrix (bezeichnet mit )
kommt aus dem Teilgebiet der statistischen
Versuchsplanung, die sich mit dem statistisch optimalen Entwurf von
Experimenten beschäftigt. Wenn die Werte der
geplant sind (vom Forscher festgelegt), enthält die
-Matrix
im Wesentlichen den Versuchsplan und wird daher manchmal als Versuchsplanmatrix
bezeichnet.
Definition
Geht man davon aus, dass
Untersuchungseinheiten
vorliegen, an denen
Variablen beobachtet wurden, dann ist der an der
ten
Untersuchungseinheit beobachtete Wert der
ten
Variable
.
Die Datenmatrix ist definiert als die
-Matrix:
.
Die te
Zeile der Datenmatrix
ist der – mit den am
ten
Objekt beobachteten Variablenwerten – gebildete Zeilenvektor
.
Man kann das
te
Objekt geometrisch als Punkt
darstellen, indem man die Elemente als Koordinaten eines Punktes
in einem
-dimensionalen
Merkmalsraum deutet, der von
rechtwinkelig angeordneten Merkmalsachsen aufgespannt wird. Wenn man auf diese
Art alle Zeilenvektoren
von
als Punkte darstellt, ergibt sich eine die Objekte (Untersuchungseinheiten)
repräsentierende Verteilung von Punkten im Merkmalsraum.
Ebenso kann man die Datenmatrix als Zusammenfassung der Spaltenvektoren
deuten. Jeder Spaltenvektor ist einer Variablen
zugeordnet und beinhaltet die an den Untersuchungseinheiten beobachteten Werte
dieser Variablen. Mit diesen Werten können die Variablen in einem
rechtwinkeligen Koordinatensystem, in dem die Achsen die
Untersuchungseinheiten repräsentieren, als Punkte dargestellt werden. Im von den
Achsen aufgespannten Objektraum lassen sich die Beziehungen zwischen den
Variablen veranschaulichen.
Alternative Darstellungen
Die Datenmatrix
kann als eine partitionierte
Matrix bzgl. seiner
Spalten ausgedrückt werden als:
.
Die Spalten der Datenmatrix
inklusive des Einsvektors
sind alle
-dimensionale
Vektoren und daher Punkte im Datenraum. Da für gewöhnlich angenommen wird, dass
von Rang
ist, sind die Vektoren linear
unabhängig. Die Menge aller möglichen Linearkombinationen
der Spalten von
bilden eine Teilmenge des Datenraums.



© biancahoegel.de
Datum der letzten Änderung: Jena, den: 04.03. 2020