Empirisches Quantil
Ein empirisches (p-)Quantil, auch kurz einfach nur Quantil
genannt, ist ein Begriff aus der Statistik
und eine Kennzahl einer Stichprobe.
Vereinfacht teilt ein empirisches p-Quantil die Stichprobe so, dass ein Anteil
der Stichprobe von p kleiner als das empirische p-Quantil ist und ein Anteil von
1-p der Stichprobe größer als das empirische p-Quantil ist. Ist beispielsweise
eine Stichprobe von Schuhgrößen gegeben, so ist das empirische 0,35-Quantil
diejenige Schuhgröße ,
so dass 35 % der Schuhgrößen in der Stichprobe kleiner als
sind und 65 % größer als
sind.
Einige empirische p-Quantile tragen Eigennamen. Zu ihnen gehören der Median (),
das obere Quartil und das untere Quartil sowie die Terzile,
Quintile, Dezile und die Perzentile.
Von den hier besprochenen empirischen Quantilen sind die Quantile (im Sinne der Wahrscheinlichkeitstheorie) zu unterscheiden. Diese sind Kennzahlen einer Wahrscheinlichkeitsverteilung und damit einer abstrakten (Mengen-)Funktion (ähnlich dem Erwartungswert), während die empirischen Quantile Kennzahlen einer Stichprobe sind (ähnlich dem arithmetischen Mittel).
Definition
Es bezeichne
die Abrundungsfunktion.
Sie rundet jede Zahl
auf die nächste kleinere ganze Zahl ab. Es gilt also beispielsweise
und
.
Gegeben sei eine Stichprobe
der Größe
,
bei der die Elemente der Größe nach geordnet sind. Dies bedeutet, es gilt
.
Dann heißt für eine Zahl
das empirische p-Quantil von .
Es existieren einige von der hier angegebenen Definition abweichende Definitionen.
Beispiel
Die folgende Stichprobe besteht aus zehn zufälligen ganzen Zahlen (gezogen aus den Zahlen zwischen null und hundert, versehen mit der diskreten Gleichverteilung):
Sortieren liefert die Stichprobe
.
Es ist .
Für
erhält man
.
Da dies ganzzahlig ist, erhält man über die Definition
Für
erhält man
.
Die Abrundungsfunktion liefert dann
und damit
.
Analog erhält man für
direkt
und damit
,
also ist
.
Das empirische Quantil ist im Gegensatz zum arithmetischen Mittel robust
gegenüber Ausreißern. Dies bedeutet, dass wenn man Werte einer Stichprobe
oberhalb (oder unterhalb) eines bestimmten Quantils durch einen Wert oberhalb
(oder unterhalb) des Quantils ersetzt, sich das Quantil selbst nicht verändert.
Dies beruht darauf, dass Quantile nur durch ihre Ordnung und damit ihre Lage
zueinander bestimmt werden und nicht durch die konkreten Zahlenwerte der
Stichprobe. So wäre im Fall der obigen Stichprobe das arithmetische Mittel .
Modifiziert man nun aber den größten Wert der Stichprobe, setzt
beispielsweise
,
so ist ,
wohingegen der Median sowie das untere und das obere Quartil unverändert
bleiben, da sich die Reihenfolge der Stichprobe nicht verändert hat.
Spezielle Quantile
Für gewisse p-Werte tragen die zugehörigen Quantile Eigennamen. Sie sind hier im Folgenden kurz vorgestellt. Zu beachten ist, dass auch die entsprechenden Quantile von Wahrscheinlichkeitsverteilungen teils mit denselben Eigennamen bezeichnet werden.
Median
Der Median ist das -Quantil
und teilt somit die Stichprobe in zwei Hälften: Eine Hälfte ist kleiner als der
Median, die andere größer als der Median. Er ist mit dem Modus und dem arithmetischen
Mittel ein wichtiger Lageparameter
in der deskriptiven Statistik.
Terzile
Als Terzile werden die beiden p-Quantile für
und
bezeichnet. Sie teilen die Stichprobe in drei gleich große Teile: ein Teil ist
kleiner als das untere Terzil (=
-Quantil),
ein Teil ist größer als das obere Terzil (=
-Quantil),
und ein Teil liegt zwischen den Terzilen.
Quartile
Als Quartile werden die beiden Quantile mit
und
bezeichnet. Dabei heißt das
-Quantil
das untere Quartil und das
-Quantil
das obere Quartil. Zwischen oberem und unterem Quartil liegt die Hälfte der
Stichprobe, unterhalb des unteren Quartils und oberhalb des oberen Quartils
jeweils ein Viertel der Stichprobe. Auf Basis der Quartile wird der
Interquartilsabstand
definiert, ein Streuungsmaß.
Quintile
Als Quintile werden die vier Quantile mit
bezeichnet. Demnach befinden sich 20 % der Stichprobe unter dem ersten
Quintil und 80 % darüber, 40 % der Stichprobe unter dem zweiten
Quintil und 60 % darüber etc.
Dezile
Die Quantile für vielfache von ,
also für
werden Dezile genannt. Dabei heißt das
-Quantil
das erste Dezil, das
-Quantil
das zweite Dezil etc. Unterhalb des ersten Dezils liegen 10 % der
Stichprobe, oberhalb entsprechend 90 % der Stichprobe. Ebenso liegen
40 % der Stichprobe unterhalb des vierten Dezils und 60 %
oberhalb.
Perzentile
Als Perzentile werden die Quantile von
bis
in Schritten von
bezeichnet.
Abgeleitete Begriffe
Aus den Quantilen lassen sich noch gewisse Streuungsmaße ableiten. Das wichtigste ist der (Inter-)quartilabstand (englisch interquartile range)
.
Er gibt an, wie weit das obere und das untere Quartil auseinanderliegen und
damit auch, wie breit der Bereich ist, in dem die mittleren 50 % der
Stichprobe liegen.
Etwas allgemeiner kann der (Inter-)quantilabstand definiert werden als
für
.
Er gibt an, wie breit der Bereich ist, in dem die mittleren
der Stichprobe liegen. Für
entspricht er dem Interquartilabstand.
Ein weiteres abgeleitetes Streumaß ist die Median-Abweichung, englisch
median absolute deviation.
Ist eine Stichprobe
mit Median
gegeben, so ist die Median-Abweichung der empirische Median der modifizierten
Stichprobe
.
Darstellung

Eine Möglichkeit, Quantile darzustellen ist der Boxplot. Dabei wird die gesamte Stichprobe durch eine Box, versehen mit zwei Antennen, dargestellt. Die äußere Begrenzung der Box sind jeweils das obere und das untere Quartil. Somit befindet sich die Hälfte der Stichprobe in der Box. Die Box selbst ist nochmals unterteilt, der unterteilende Strich ist dabei der Median der Stichprobe. Die Antennen sind nicht einheitlich definiert. Eine Möglichkeit ist, als Begrenzung der Antennen das erste und das neunte Dezil zu wählen.



© biancahoegel.de
Datum der letzten Änderung: Jena, den: 25.03. 2020