Regression mit stochastischen Regressoren

Bei der Regression mit stochastischen Regressoren handelt es sich um spezielle statistische Analyseverfahren zur Aufdeckung möglicher Abhängigkeiten einer statistischen Größe von anderen Größen, den sogenannten Regressoren. In klassischen Regressionsmodellen (z.B. einfache lineare Regression, multiple lineare Regression) wird in der Regel angenommen, dass die Regressoren nichtzufällige, häufig sogar einstellbare Größen sind. In vielen praktischen Fällen, insbesondere bei ökonometrischen Modellen, kann diese Annahme nicht beibehalten werden. Man muss von zufälligen, also stochastischen Regressoren ausgehen. Dabei ist insbesondere von Interesse, wie sich stochastische Regressoren auf die Eigenschaften der Schätzungen (z.B. Kleinste-Quadrate-Schätzer) und Signifikanztests auswirken. Kurz gesagt ist es so, dass die für klassische Regressionsmodelle bekannten Eigenschaften (zumindest näherungsweise) erhalten bleiben, solange die stochastischen Regressoren unkorreliert mit den Störtermen sind (es liegt sogenannte Exogenität vor). Sind sie allerdings korreliert (es liegt sogenannte Endogenität vor), dann muss man prinzipiell andere Wege gehen.

Beispiele

Autoregressiver Prozess erster Ordnung (AR(1))

Der autoregressive Prozess erster Ordnung ist ein einfaches Modell der Zeitreihenanalyse und hat die Form

$Y_{t}=\beta _{0}+\beta _{1}Y_{t-1}+\varepsilon _{t}\quad ,t=1,\dots ,n$ ,

wobei $\varepsilon _{t}$ weißes Rauschen darstellt. Der Regressor zum Zeitpunkt ist der zufällige Regressand vom Zeitpunkt t-1 .

Fehler-in-den-Variablen-Modell

Gegeben sei im einfachsten Fall ein einfaches lineares Regressionsmodell

$Y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i};\ i=1,\dots ,n$ ,

jedoch kann $x_{i}$ nur mit zufälligem Fehler $u_{i}$ beobachtet werden, d.h. man hat dann den stochastischen Regressor $z_{i}=x_{i}+u_{i}$ . Solche Modelle nennt man Fehler-in-den-Variablen-Modelle.

Simultane Gleichungen

Als Beispiel betrachte man die keynesianische Konsumfunktion mit zwei simultanen Gleichungen:

$Y_{i}=\beta _{0}+\beta _{1}X_{i}+\varepsilon _{i};\ X_{i}=Y_{i}+I_{i};\ i=1.\dots ,n$

Dabei ist Y_i der Konsum, $X_{i}$ das Einkommen und $I_{i}$ die Investition. Setzt man die erste Gleichung in die zweite ein, ergibt sich:

$X_{i}={\frac {1}{1-\beta _{1}}}(\beta _{0}+I_{i}+\varepsilon _{i})$ ,

d.h. $X_{i}$ ist zufällig, weil es von $\varepsilon_i$ abhängt.

Allgemeiner Fall

Wir betrachten ein multiples lineares Regressionsmodell in Vektor-Matrix-Form

$Y=X\beta +\varepsilon$ .

Dabei ist der -dimensionale zufällige Vektor der Regressanden, die $(n\times r)$ -Matrix der Regressoren, $\beta$ der -dimensionale zu schätzende Parametervektor und $\varepsilon$ der -dimensionale zufällige Vektor der Störgrößen mit $\operatorname {E} \varepsilon =0$ und $\operatorname {Cov} \varepsilon =\sigma ^{2}I_{n}$ . Hierbei wird angenommen, dass die Datenmatrix mit Wahrscheinlichkeit 1 vollen Rang hat, d.h. $\operatorname {P} \left[\,\operatorname {Rang} (X)=r\,\right]=1$ . Der Kleinste-Quadrate-Schätzer für $\beta$ hat die Gestalt

$b=(X^{T}X)^{-1}X^{T}Y=\beta +(X^{T}X)^{-1}X^{T}\varepsilon$ .

Da man schreiben kann $b=\beta +A\varepsilon$ , mit $A=(X^{T}X)^{-1}X^{T}$ , ist eine lineare Funktion der Störgrößen, was zu einem linearen Schätzer macht.

Nichtzufällige Regressoren

In diesem Standardfall gilt bekanntermaßen

ist beste lineare erwartungstreue Schätzfunktion (BLUE) mit $\operatorname {Cov} b=\sigma ^{2}(X^{T}X)^{-1}$ .
Falls das durchschnittliche Quadrat der beobachteten Werte der erklärenden Variablen auch bei einem ins Unendliche gehendem Stichprobenumfang endlich bleibt: $\lim _{n\to \infty }{\frac {1}{n}}X^{T}X=Q$ mit positiv definitem , dann ist konsistent für $\beta$ .
Falls die Störgröße normalverteilt ist, dann ist auch normalverteilt und es können t- bzw. F-verteilte Teststatistiken gebildet werden.

Exogenität der Regressoren

Darunter versteht man, dass die Regressoren zwar stochastisch, aber unkorreliert mit dem Störterm $\varepsilon$ sind. Im obigen Fehler-in-den-Variablen-Beispiel hat man die Exogenität, wenn $u_{i}$ und $\varepsilon_i$ unkorreliert sind. Dann gilt:

ist weiterhin BLUE mit $\operatorname {Cov} b=\sigma ^{2}\operatorname {E} (X^{T}X)^{-1}$ .
Falls ${\frac {1}{n}}X^{T}X$ in Wahrscheinlichkeit gegen eine positiv definite Matrix konvergiert, dann ist konsistent für $\beta$ .
Falls $\varepsilon$ normalverteilt ist, dann ist asymptotisch normalverteilt. Die klassischen Teststatistiken können für große benutzt werden.

Allgemeine stochastische Regressoren

und $\varepsilon$ sind korreliert, wie z.B. bei der keynesianischen Konsumfunktion. Dann ist verzerrt und nicht mehr konsistent für $\beta$ . Die klassischen Teststatistiken können nicht benutzt werden. Es müssen prinzipiell andere Methoden gewählt werden.

Für Modelle der Zeitreihenanalyse, wenn allgemeiner als im obigen AR(1)-Beispiel ein ARMA-Modell vorliegt, gibt es spezielle, zum Teil rekursive Kleinste-Quadrate-Verfahren, die im Allgemeinen auf nichtlineare Kleinste-Quadrate-Schätzer führen.

Basierend auf einem Artikel in:

Wikipedia.de