Verschiebungssatz (Statistik)

Der Verschiebungssatz (auch Satz von Steiner genannt) ist eine Rechenregel für die Ermittlung der Summe quadratischer Abweichungen vom arithmetischen Mittel.

Kurzgefasst besagt er, dass für n Zahlen x_1,\dotsc,x_n und deren arithmetisches Mittel {\overline {x}} gilt:

{\displaystyle \sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}=\left(\sum _{i=1}^{n}x_{i}^{2}\right)-n{\overline {x}}^{2}=\left(\sum _{i=1}^{n}x_{i}^{2}\right)-{\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}\right)^{2}}.

Der Verschiebungssatz erleichtert beispielsweise die Berechnung der empirischen Varianz, wenn Messwerte fortlaufend anfallen. Es ist dann weder nötig, alle x_{i} abzuspeichern (Speicher), noch nochmals alle Summanden durchzulaufen (Rechenzeit). Bei Verwendung dieser Formel mit begrenzter Rechengenauigkeit kann es jedoch zu einer numerischen Auslöschung kommen, wenn {\displaystyle {\overline {x}}^{2}} erheblich größer ist als die Varianz.

Erläuterung am Fall einer endlichen Folge von Zahlen: Das Stichprobenmittel

Der Verschiebungssatz wird zunächst am einfachsten Fall vorgeführt: Es seien die Werte x_{1},x_{2},\ldots ,x_{n} gegeben, beispielsweise eine Stichprobe. Es wird die Summe Q der quadratischen Abweichungen {\displaystyle (x_{i}-{\overline {x}})^{2}} dieser Werte gebildet:

{\displaystyle Q=\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\ ,}

wobei

{\displaystyle {\overline {x}}:={\frac {1}{n}}(x_{1}+x_{2}+\ldots +x_{n})={\frac {1}{n}}\sum _{i=1}^{n}{x_{i}}}

das arithmetische Mittel der Zahlen ist. Der Verschiebungssatz ergibt sich aus

{\displaystyle Q=\sum _{i=1}^{n}(x_{i}^{2}-2x_{i}{\overline {x}}+{\overline {x}}^{2})=\left(\sum _{i=1}^{n}x_{i}^{2}\right)-2{\overline {x}}\left(\sum _{i=1}^{n}x_{i}\right)+n{\overline {x}}^{2}}
{\displaystyle \quad =\left(\sum _{i=1}^{n}x_{i}^{2}\right)-2{\overline {x}}\cdot n{\overline {x}}+n{\overline {x}}^{2}=\left(\sum _{i=1}^{n}x_{i}^{2}\right)-n{\overline {x}}^{2}}.

Beispiel

Im Rahmen der Qualitätssicherung werden fortlaufend Kaffeepäckchen gewogen. Für die ersten vier Päckchen erhielt man die Werte (in g) x_{i}

505,500,495,505

Das durchschnittliche Gewicht beträgt

{\displaystyle {\overline {x}}={\frac {505+500+495+505}{4}}=501{,}25}

Es ist

{\begin{aligned}Q&=(505-501{,}25)^{2}+(500-501{,}25)^{2}+(495-501{,}25)^{2}+(505-501{,}25)^{2}\\&=14{,}0625+1{,}5625+39{,}0625+14{,}0625\\&=68{,}75\,.\end{aligned}}

Für die Anwendung des Verschiebungssatzes berechnet man

q_{1}=\sum _{{i=1}}^{n}x_{i}=505+500+495+505=2.005

und

q_{2}=\sum _{{i=1}}^{n}x_{i}^{2}=255.025+250.000+245.025+255.025=1.005.075
Q=q_{2}-{\frac  {1}{4}}q_{1}^{2}=68{,}75

Man kann damit beispielsweise die empirische Varianz bestimmen:

s^{2}={\frac  1{n-1}}Q\,,

im Beispiel

s^{2}={\frac  {1}{4-1}}68{,}75\approx 22{,}9\,.

Kommt nun ein weiteres Päckchen in die Stichprobe, so reicht es zur Neuberechnung der Stichprobenvarianz mit Hilfe des Verschiebungssatzes, lediglich die Werte für q_{1} und q_{2} neu zu berechnen. Beim fünften Päckchen werde das Gewicht 510 g gemessen. Dann gilt:

q_{1}^{{\text{neu}}}=q_{1}+510=2.005+510=2.515\,,
q_{2}^{{\text{neu}}}=q_{2}+510^{2}=1.005.075+260.100=1.265.175\,, sowie
Q^{{\text{neu}}}=q_{2}^{{\text{neu}}}-{\frac  {1}{5}}\left(q_{1}^{{\text{neu}}}\right)^{2}=130\,.

Die Stichprobenvarianz der neuen, größeren Stichprobe ist dann

s_{{\text{neu}}}^{2}={\frac  {1}{5-1}}Q^{{\text{neu}}}=130/4=32{,}5\,.

Anwendungen

Stichprobenkovarianz

Die Stichprobenkovarianz zweier Merkmale x und y ist gegeben durch

{\displaystyle s_{xy}:=\sum _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})\ .}

Hier ergibt der Verschiebungssatz

{\displaystyle s_{xy}=\sum _{i=1}^{n}(x_{i}y_{i})-n{\overline {x}}{\overline {y}}\ .}

Die korrigierte Stichprobenkovarianz berechnet sich dann als

{\displaystyle s_{xy}^{*}={\frac {1}{n-1}}s_{xy}\ .}

Zufallsvariable

Varianz

Die Varianz einer Zufallsvariablen

\operatorname {Var}(X)=\operatorname {E}((X-\operatorname {E}(X))^{2})

lässt sich mit dem Verschiebungssatz auch angeben als

\operatorname {Var}(X)=\operatorname {E}(X^{2})-(\operatorname {E}(X))^{2}\ .

Dieses Resultat wird auch als Satz von König-Huygens bezeichnet. Es ergibt sich aus der Linearität des Erwartungswertes:

{\displaystyle {\begin{aligned}\operatorname {E} {\bigl (}(X-\operatorname {E} (X))^{2}{\bigr )}&=\operatorname {E} {\bigl (}X^{2}-2X\operatorname {E} (X)+\operatorname {E} (X)^{2}{\bigr )}\\&=\operatorname {E} (X^{2})-\operatorname {E} {\bigl (}2X\operatorname {E} (X){\bigr )}+\operatorname {E} {\bigl (}\operatorname {E} (X)^{2}{\bigr )}\\&=\operatorname {E} (X^{2})-2\operatorname {E} (X)\operatorname {E} (X)+\operatorname {E} (X)^{2}\\&=\operatorname {E} (X^{2})-\operatorname {E} (X)^{2}.\end{aligned}}}

Eine allgemeinere Darstellung des Verschiebungssatzes ergibt sich aus:

{\displaystyle \operatorname {Var} (X)=\operatorname {E} \left((X-c)^{2}\right)-\left(\operatorname {E} (X)-c\right)^{2},\quad c\in \mathbb {R} }.
\operatorname {Var}(X)=\operatorname {E}((X-\operatorname {E}(X))^{2})=\sum _{j}p_{j}\left(x_{j}-\sum _{i}p_{i}x_{i}\right)^{2}=\sum _{i}p_{i}x_{i}^{2}-\left(\sum _{i}p_{i}x_{i}\right)^{2}\ .
Mit der speziellen Wahl p_{i}={\frac  {1}{n}} ergibt sich {\displaystyle \operatorname {E} (X)={\overline {x}}={\frac {1}{n}}\sum _{i}x_{i}} und die obige Formel
{\displaystyle {\frac {1}{n}}\sum _{i}\left(x_{i}-{\overline {x}}\right)^{2}={\frac {1}{n}}\sum _{i}x_{i}^{2}-{\overline {x}}^{2}.}
{\displaystyle \operatorname {Var} (X)=\operatorname {E} ((X-\operatorname {E} (X))^{2})=\int _{-\infty }^{\infty }(x-\operatorname {E} (X))^{2}\,f(x)\,\mathrm {d} x\ .}
Man erhält hier mit dem Verschiebungssatz
{\displaystyle \operatorname {Var} (X)=\operatorname {E} ((X-\operatorname {E} (X))^{2})=\int _{-\infty }^{\infty }x^{2}f(x)\,\mathrm {d} x-\operatorname {E} (X)^{2}\ .}

Kovarianz

Die Kovarianz zweier Zufallsvariablen X und Y

{\displaystyle \operatorname {Cov} (X,Y)=\operatorname {E} ((X-\operatorname {E} (X))\cdot (Y-\operatorname {E} (Y)))}

lässt sich mit dem Verschiebungssatz als

{\displaystyle \operatorname {Cov} (X,Y)=\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y)}

angeben.

Für diskrete Zufallsvariablen erhält man für

{\displaystyle \operatorname {Cov} (X,Y)=\sum _{j}\sum _{k}(x_{j}-\operatorname {E} (X))(y_{k}-\operatorname {E} (Y))\cdot f(x_{j},y_{k})}

entsprechend zu oben

{\displaystyle \operatorname {Cov} (X,Y)=\sum _{j}\sum _{k}x_{j}\,y_{k}\,f(x_{j},y_{k})-\operatorname {E} (X)\cdot \operatorname {E} (Y)\ ,}

mit f(x_{j},y_{k}) als gemeinsamer Wahrscheinlichkeit, dass X=x_{j} und Y=y_{k} ist.

Bei stetigen Zufallsvariablen ergibt sich mit f(x,y) als gemeinsamer Dichtefunktion von X und Y an der Stelle x und y für die Kovarianz

{\displaystyle \operatorname {Cov} (X,Y)=\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }(x-\operatorname {E} (X))(y-\operatorname {E} (Y))\cdot f(x,y)\,\mathrm {d} y\,\mathrm {d} x}

entsprechend zu oben

{\displaystyle \operatorname {Cov} (X,Y)=\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }xy\,f(x,y)\,\mathrm {d} y\,\mathrm {d} x-\operatorname {E} (X)\cdot \operatorname {E} (Y)\,}
Trenner
Basierend auf einem Artikel in: Extern Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung:  Jena, den: 10.03. 2020