Lineare Regression
Die lineare Regression, die einen Spezialfall des allgemeinen Konzepts der Regressionsanalyse darstellt, ist ein statistisches Verfahren, mit dem versucht wird, eine beobachtete abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären. Das Beiwort „linear“ ergibt sich dadurch, dass die abhängige Variable eine Linearkombination der Regressionskoeffizienten darstellt (aber nicht notwendigerweise der unabhängigen Variablen). Der Begriff Regression bzw. Regression zur Mitte wurde vor allem durch den Statistiker Francis Galton geprägt.
Einfache lineare Regression
Das einfache lineare Regressionsmodell geht von lediglich zwei metrischen
Größen aus: einer Einflussgröße
und einer Zielgröße
.
Durch die einfache lineare Regression wird mithilfe von zwei Parametern eine
Gerade durch eine Punktwolke gelegt, sodass der lineare Zusammenhang zwischen
und
möglichst gut beschrieben wird. Die Gleichung der linearen Einfachregression ist
gegeben durch
.
Multiple lineare Regression
Die multiple lineare Regression stellt eine Verallgemeinerung der einfachen linearen Regression dar, wobei nun K Regressoren angenommen werden, welche die abhängige Variable erklären sollen. Zusätzlich zu der Variation über die Beobachtungen wird also auch eine Variation über die Regressoren angenommen, wodurch sich ein lineares Gleichungssystem ergibt, das sich in Matrixnotation wie folgt zusammenfassen lässt:
Normal lineares Modell
Wird zu dem bisherigen multiplen linearen Modell auch die Annahme der Normalverteiltheit der Fehlerterme getroffen, dann spricht man auch von einem klassischen linearen Modell. Die Annahme der Normalverteilung der Fehlerterme wird benötigt, um statistische Inferenz durchzuführen, d.h., sie wird benötigt, um Konfidenzintervalle und Ähnliches berechnen zu können.
mit
.
Paneldatenregression
Das allgemeine lineare Paneldatenmodell
lässt zu, dass der Achsenabschnitt und die Steigungsparameter zum einen über die
Individuen
(in Querschnittsdimension) und zum anderen über die Zeit
variieren (nicht-zeitinvariant). Das allgemeine lineare Paneldatenmodell
lautet:
mit der Varianz-Kovarianz-Matrix:
Hierbei ist
eine skalar vorliegende abhängige Variable,
ist ein
-Vektor
von unabhängigen Variablen,
ist ein skalar vorliegender Fehlerterm. Da dieses Modell zu allgemein ist und
nicht schätzbar ist, wenn es mehr Parameter als Beobachtungen gibt, müssen
bezüglich der Variation von
und
mit
und
und bezüglich des Verhaltens des Fehlerterms einschränkende Annahmen getroffen
werden. Diese zusätzlichen Restriktionen und die darauf aufbauenden Modelle sind
Themen der linearen
Paneldatenmodelle und der Paneldatenanalyse.
Generalisierte Lineare Modelle
Lineare Modelle lassen sich dahingehend erweitern, dass keine feste Datenmatrix untersucht wird, sondern auch diese zufallsbehaftet ist. Die Untersuchungsmethoden ändern sich in diesem Fall nicht substantiell, werden aber deutlich komplizierter und damit rechenaufwendiger.
Allgemeine lineare Modelle
Das allgemeine lineare Modell betrachtet die Situation, bei der die abhängige
Variable
kein Skalar, sondern ein Vektor ist. In diesem Fall wird ebenfalls
konditionierte Linearität
wie beim klassischen linearen Modell angenommen, aber mit einer Matrix
,
die den Vektor
des klassischen linearen Modells ersetzt. Multivariate Pendants zu der
gewöhnlichen Methode
der kleinsten Quadrate und zu der Methode
der verallgemeinerten kleinsten Quadrate wurden entwickelt. Allgemeine
lineare Modelle werden auch „multivariate lineare Modelle“ genannt. Diese
sind aber nicht mit multiplen linearen Modellen zu verwechseln. Das allgemeine
lineare Modell ist gegeben durch
.
Orthogonale Regression
Die orthogonale Regression (genauer: orthogonale lineare Regression) dient
zur Berechnung einer Ausgleichsgeraden für eine endliche Menge metrisch
skalierter Datenpaare
nach der Methode der kleinsten Quadrate.
Regularisierung der Regression
Um ein gewünschtes Verhalten der Regression zu gewährleisten und somit eine Überanpassung an den Trainingsdatensatz zu vermeiden, gibt es die Möglichkeit, den Regressionsterm mit Penalty-Termen zu versehen, die als Nebenbedingungen auftreten.
Zu den bekanntesten Regularisierungen gehören hierbei:
- Die
-Regularisierung (auch LASSO-Regularisierung genannt): Durch
werden bevorzugt einzelne Elemente des Vektors
minimiert. Die übrigen Elemente des Vektors können jedoch (betragsmäßig) große Werte annehmen. Dies begünstigt die Bildung dünnbesetzter Matrizen, was effizientere Algorithmen ermöglicht.
- Die
-Regularisierung (auch Ridge-Regularisierung genannt): Durch
wird der gesamte Vektor
gleichmäßig minimiert, die Matrizen sind jedoch voller.
- Das elastische Netz: Hierbei wird durch den Ausdruck
sowohl die
- als auch die
-Regularisierung durchgeführt.
Anwendung in der Ökonometrie
Für quantitative Wirtschaftsanalysen im Rahmen der Regressionsanalyse, beispielsweise der Ökonometrie, sind besonders geeignet:
- Schwanenhalsfunktionen, wie zum Beispiel die im Rahmen der logistischen Regression verwendete logistische Funktion, die Johnson-Funktion oder die Potenzexponentialfunktion.
Siehe auch



© biancahoegel.de
Datum der letzten Änderung: Jena, den: 25.10. 2020