Multikollinearität
Multikollinearität ist ein Problem der Regressionsanalyse und liegt vor, wenn zwei oder mehr erklärende Variablen eine sehr starke Korrelation miteinander haben. Zum einen wird mit zunehmender Multikollinearität das Verfahren zur Schätzung der Regressionskoeffizienten instabil und Aussagen zur Schätzung der Regressionskoeffizienten zunehmend ungenau. Zum anderen ist die Modellinterpretation nicht mehr eindeutig. Das klassische Symptom von starker Multikollinearität ist ein hohes Bestimmtheitsmaß einhergehend mit niedrigen t-Werten für die einzelnen Regressionsparameter.
Probleme der Multikollinearität
Perfekte Kollinearität macht die rechnerische Durchführung der linearen Regressionsanalyse unmöglich und tritt meist als Folge der Fehlspezifikation des zu Grunde liegenden Modells (wahres Modell) auf.
Numerische Instabilität
Mathematisch lässt sich die, mittels der Methode der
kleinsten Quadrate gewonnene, Lösung des multiplen
linearen Regressionsproblems
für die Regressionskoeffizienten
in Vektor-Matrix-Schreibweise
darstellen als
.
Der Vektor
enthält die geschätzten Regressionskoeffizienten,
den Vektor
und die Datenmatrix
die -dimensionalen
Beobachtungswerte. Das Problem liegt in der Berechnung der Inversen von der Produktsummenmatrix
;
je stärker die Multikollinearität ist, desto mehr nähert sich
einer singulären
Matrix an, d.h. es existiert keine Inverse.
Modellinterpretation
Wenn das Regressionsmodell
ist und perfekte Multikollinearität vorliegt, d.h.
oder umgestellt
und setzt beide Gleichungen jeweils in das Regressionsmodell ein, so erhält man
- (1)
- (2)
Im Modell (1) hängt
nur noch von
ab und im Modell (2) hängt
nur noch von
ab. Es stellt sich nun die Frage, welches Modell ist das „Richtige“? In der
Ökonomie spricht man von nicht identifizierbaren
Modellen.
Identifikation von Multikollinearität
Weil empirische Daten immer einen gewissen Grad an Multikollinearität aufweisen, wurden Kennzahlen entwickelt, die Hinweise auf Multikollinearität liefern. Einen eindeutigen Richtwert gibt es jedoch nicht.
Korrelation
Zur Aufdeckung von Multikollinearität dient z.B. die Analyse der Korrelationskoeffizienten
der Regressoren. Sehr hohe positive oder negative Korrelationskoeffizienten
zeigen einen starken Zusammenhang zwischen den Regressoren und damit
Multikollinearität an. Eine niedrige Korrelation zwischen den Regressoren
bedeutet jedoch nicht automatisch die Abwesenheit von Multikollinearität
;
auch lineare Kombinationen von Regressoren, die eine hohe positive oder negative
Korrelation aufweisen, z.B. zwischen
und
,
führen zu den oben genannten Problemen. Eine hohe Korrelation zwischen den
Regressoren kann durch die Korrelationsmatrix
identifiziert werden.
Bestimmtheitsmaß
Ein hohes Bestimmtheitsmaß
der linearen Regressionen
,
d.h. der -te
Regressor wird durch alle anderen Regressoren gut vorhergesagt, zeigt
Multikollinearität an.
Toleranz
Die Toleranz
wird zur Einschätzung der Multikollinearität benutzt. Ein Wert von
deutet auf eine starke Multikollinearität hin.
Varianzinflationsfaktor (VIF)
Je größer der Varianzinflationsfaktor
, (mit
als Bestimmtheitsmaß der Regression von
auf alle übrigen Einflussgrößen),
desto stärker sind die Hinweise auf Multikollinearitäten. Einen definitiven Wert, ab wann der VIF eine (zu) hohe Multikollinearität anzeigt, gibt es nicht. Als Daumenregel werden häufig VIF-Werte von über 10 als „zu hoch“ eingestuft.
Konditionsindex
Die Produktsummenmatrix
ist positiv semidefinit, d.h. alle Eigenwerte
der Matrix sind positiv oder Null. Wird die Matrix singulär, dann ist mindestens
ein Eigenwert gleich Null. Ist der Konditionsindex
für ein
größer als 30 spricht man ebenfalls von starker Multikollinearität.
Literatur
- L. von Auer: Ökonometrie – Eine Einführung. 7. Auflage. Springer, Berlin 2016, ISBN 978-3-662-47868-4.



© biancahoegel.de
Datum der letzten Änderung: Jena, den: 06.04. 2022