Streuungsmaß (Statistik)

Streuungsmaße, auch Dispersionsmaße (lateinisch dispersio „Zerstreuung“, von dispergere „verteilen, ausbreiten, zerstreuen“) oder Streuungsparameter genannt, fassen in der deskriptiven Statistik verschiedene Maßzahlen zusammen, die die Streubreite von Werten einer Stichprobe beziehungsweise einer Häufigkeitsverteilung um einen geeigneten Lageparameter herum beschreiben. Die verschiedenen Berechnungsmethoden unterscheiden sich prinzipiell durch ihre Beeinflussbarkeit beziehungsweise Empfindlichkeit gegenüber Ausreißern.

Anforderungen an ein Streuungsmaß

Es sei {\displaystyle x_{1},\dots ,x_{n}\in \mathbb {R} } eine Stichprobe und {\displaystyle s:\mathbb {R} ^{n}\rightarrow \mathbb {R} } eine Funktion. s heißt ein Streuungsmaß, wenn es im Allgemeinen folgende Anforderungen erfüllt:

Maßzahlen

Um das arithmetische Mittel

Summe der Abweichungsquadrate

Hauptartikel: Summe der Abweichungsquadrate

Das intuitivste Streuungsmaß stellt die Summe der Abweichungsquadrate dar. Sie ergibt sich als (n-1)-fache empirische Varianz

{\displaystyle SQ_{x}:=\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}=(n-1)s_{x}^{2}}.

Empirische Varianz

Hauptartikel: empirische Varianz

Einer der wichtigsten Streuungsparameter ist die Varianz, die in zwei leicht unterschiedlichen Varianten definiert wird. Die Herkunft dieser Unterschiede und ihre Verwendung wird im Hauptartikel erläutert. Die Fassungen sind gegeben als

{\displaystyle {\tilde {s}}_{x}^{2}={\frac {1}{n}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}

beziehungsweise

{\displaystyle s_{x}^{2}={\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}

Hierbei bezeichnet \overline x jeweils das arithmetische Mittel der Stichprobe (x_1, \dots, x_n).

Empirische Standardabweichung

Hauptartikel: Empirische Standardabweichung

Die Standardabweichung ist definiert als die Wurzel aus der Varianz und liegt demnach auch in zwei Versionen vor:

{\displaystyle {\tilde {s}}={\sqrt {{\frac {1}{n}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}}

beziehungsweise

{\displaystyle s={\sqrt {{\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}}

Ein wesentlicher Unterschied zur empirischen Varianz ist, dass die empirische Standardabweichung dieselbe Dimension und damit dieselben Einheiten wie die Stichprobe besitzt.

Variationskoeffizient

Der empirische Variationskoeffizient wird gebildet als Quotient aus empirischer Standardabweichung s und arithmetischem Mittel {\overline {x}}:

{\displaystyle v={\frac {s}{\overline {x}}},\quad {\overline {x}}>0}.

Er ist dimensionslos und somit nicht einheitenbehaftet.

Mittlere absolute Abweichung

Die mittlere absolute Abweichung e einer Zufallsvariablen X von ihrem Erwartungswert \mu = \operatorname{E}(X) ist definiert durch

{\displaystyle \operatorname {e} :=\operatorname {E} \left(\left|X-\mu \right|\right)}.

Damit ist sie das erste absolute zentrierte Moment der Zufallsvariable X. Im Falle einer konkreten Stichprobe x_{1},\dots ,x_{n} mit dem arithmetischen Mittel {\overline {x}} wird sie errechnet durch

{\displaystyle \operatorname {e} ={\frac {1}{n}}\sum _{i=1}^{n}\left|x_{i}-{\overline {x}}\right|.}

Die mittlere absolute Abweichung wird in der mathematischen Statistik meist zugunsten der quadratischen Abweichung umgangen, welche analytisch leichter zu behandeln ist. Die in der Definition verwendete Betragsfunktion ist nicht überall differenzierbar, was die Berechnung des Minimums erschwert.

Aufgrund der Ungleichung vom arithmetisch-quadratischen Mittel ist die mittlere absolute Abweichung kleiner oder gleich der Standardabweichung (Gleichheit gilt nur für konstante Zufallsgrößen).

Für symmetrische Verteilungen, d.h. Verteilungen mit der Eigenschaft f(\mu -x)=f(\mu +x) für alle reellen x, mit monoton fallender Dichte für x>\mu , gilt

{\displaystyle IQR\leq 2\operatorname {e} }.

Für die stetige Gleichverteilung gilt das Gleichheitszeichen.

Um den Median

Quantilsabstand

Der Quantilsabstand ist die Differenz zwischen dem p- und \left(1-p\right)-Quantil:

{\displaystyle QA_{p}=Q_{1-p}-Q_{p}\;} mit {\displaystyle \;0\leq p<0{,}5}

Innerhalb des QA_{p} liegen 100\cdot (1-2p) Prozent aller Messwerte.

Interquartilsabstand

→ >Hauptartikel: Interquartilsabstand (Deskriptive Statistik)

Der Interquartilsabstand (engl. interquartile range), abgekürzt IQR, wird als Differenz der Quartile Q_{{0{,}75}} und Q_{{0{,}25}} berechnet:

{\displaystyle IQR=Q_{0{,}75}-Q_{0{,}25}}

Innerhalb des IQR liegen 50 % aller Messwerte. Er ist – wie auch der Median bzw. Q_{{0{,}5}} – unempfindlich gegenüber Ausreißern. Es lässt sich zeigen, dass er einen Bruchpunkt von \epsilon ^{*}=0{,}25 hat.

Der Interquartilsabstand ist gleich dem Quantilsabstand {\displaystyle QA_{0{,}25}}

Mittlere absolute Abweichung bezüglich des Medians

Die mittlere absolute Abweichung (engl. >mean deviation from the median, abgekürzt MD) vom Median {\tilde  {x}} ist definiert durch

{\displaystyle \operatorname {MD} =\operatorname {E} \left(\left|X-{\tilde {x}}\right|\right)}

Im Falle einer konkreten Stichprobe wird sie errechnet durch

{\displaystyle \operatorname {MD} ={\frac {1}{n}}\sum _{i=1}^{n}\left|x_{i}-{\tilde {x}}\right|}

Aufgrund der Extremaleigenschaft des Medians gilt im Vergleich mit der mittleren absoluten Abweichung stets

{\displaystyle \operatorname {MD} \leq \operatorname {e} },

d. h. die mittlere absolute Abweichung bezüglich des Medians ist erst recht kleiner als die Standardabweichung.

Für symmetrische Verteilungen stimmen Median und Erwartungswert und damit auch {\displaystyle \operatorname {MD} } und {\displaystyle \operatorname {e} } überein.

Für die Normalverteilung gilt:

{\displaystyle \operatorname {MD} =\operatorname {e} ={\sqrt {\frac {2}{\pi }}}\cdot \sigma \approx 0{,}80\cdot \sigma }

Median der absoluten Abweichungen

Die mittlere absolute Abweichung (engl. median absolute deviation, auch MedMed), abgekürzt MAD, ist definiert durch

{\displaystyle P(\left|X-{\tilde {x}}\right|\leq \operatorname {MAD} )=0{,}5}

Im Falle einer konkreten Stichprobe wird sie errechnet durch

{\displaystyle \operatorname {MAD} =\operatorname {median} {\left|x_{i}-{\tilde {x}}\right|}}

Durch die Definition ergibt sich im Falle von normalverteilten Daten folgender Zusammenhang zur Standardabweichung:

{\displaystyle \operatorname {MAD} =z_{0{,}75}\cdot \sigma }

z_{{0{,}75}} ist das 0,75-Quantil der Standardnormalverteilung und beträgt ca. 0,6745.

Die mittlere absolute Abweichung ist ein robuster Schätzer für die Standardabweichung. Es lässt sich zeigen, dass sie einen Bruchpunkt von \varepsilon ^{*}=0{,}5 hat.

Weitere Streuungsmaße

Spannweite

Die Spannweite (englisch range) R berechnet sich als Differenz zwischen dem größten und dem kleinsten Messwert:

R=x_{{\max }}-x_{{\min }}

Da die Spannweite nur aus den zwei Extremwerten berechnet wird, ist sie nicht robust gegenüber Ausreißern.

Geometrische Standardabweichung

Die geometrische Standardabweichung ist ein Streuungsmaß um das geometrisches Mittel.

Graphische Darstellungsformen

Literatur

Trenner
Basierend auf einem Artikel in: Extern Wikipedia.de
Seitenende
Seite zurück
©  biancahoegel.de
Datum der letzten Änderung: Jena, den: 17.05. 2020