Empirische Varianz
Die empirische Varianz, auch Stichprobenvarianz oder einfach nur kurz Varianz genannt, ist in der deskriptiven Statistik eine Kennzahl einer Stichprobe. Sie gehört zu den Streuungsmaßen und beschreibt die mittlere quadratische Abweichung der einzelnen Messwerte vom arithmetischen Mittel.
Die Begriffe „Varianz“, „Stichprobenvarianz“ und „empirische Varianz“ werden in der Literatur nicht einheitlich verwendet. Im Allgemeinen muss unterschieden werden zwischen der
- Varianz (im Sinne der Wahrscheinlichkeitstheorie) als Kennzahl einer Wahrscheinlichkeitsverteilung oder der Verteilung einer Zufallsvariable
- Stichprobenvarianz (im Sinne der induktiven Statistik) als Schätzfunktion für die Varianz (im Sinne der Wahrscheinlichkeitstheorie)
- der hier besprochenen empirischen Varianz als Kennzahl einer konkreten Stichprobe, also mehrerer Zahlen.
Eine genaue Abgrenzung und Zusammenhänge finden sich im Abschnitt Beziehung der Varianzbegriffe.
Definition
Da die Varianz einer endlichen Population
der Größe
[1] mit dem Populationsmittelwert
in vielen praktischen Situationen oft unbekannt ist und aber dennoch irgendwie berechnet werden muss, wird oft die empirische Varianz herangezogen. Dies ist vor allem notwendig, wenn es in extrem großen Populationen nicht möglich ist, jedes einzelne Subjekt in der Population zu zählen.
Gegeben sei eine Stichprobe mit
Elementen
und sei
.
Es bezeichne
das arithmetische Mittel der Stichprobe. Die empirische Varianz wird auf zweierlei Arten definiert.
Entweder wird die empirische Varianz
der Stichprobe definiert als
,
oder sie wird als leicht modifizierte Form definiert als
.
Intuitiv lässt sich die Mittelung durch
statt durch
bei der modifizierten Form der empirischen Varianz wie folgt erklären: Aufgrund
der Schwerpunkteigenschaft des arithmetischen Mittels
ist die letzte Abweichung
bereits durch die ersten
bestimmt. Folglich variieren nur
Abweichungen frei und man mittelt deshalb, indem man durch die Anzahl der
sogenannten Freiheitsgrade
dividiert.
Wird nur von der empirischen Varianz gesprochen, so muss darauf
geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden
Kontext gilt. Weder die Benennung der Definitionen noch die entsprechende
Notation ist in der Literatur einheitlich. So finden sich für
auch die Notationen
oder
,
hingegen wird
auch mit
oder
bezeichnet. Manche Autoren bezeichnen
als mittlere quadratische Abweichung vom arithmetischen Mittel
und
als theoretische Varianz oder induktive Varianz im Gegensatz zu
als empirische Varianz.
In diesem Artikel werden der Klarheit halber und um Irrtümern vorzubeugen die
oben eingeführten Notationen
und
verwendet. Diese Notation ist in der Literatur nicht verbreitet.
Empirische Varianz für Häufigkeitsdaten
Für Häufigkeitsdaten
und relativen Häufigkeiten
wird die empirische Varianz wie folgt berechnet
.
Beispiel
Gegeben sei die Stichprobe
,
es ist also .
Für den empirischen Mittelwert ergibt sich
.
Bei stückweiser Berechnung ergibt sich dann
.
Über die erste Definition erhält man
wohingegen die zweite Definition
,
liefert.
Alternative Darstellungen
Direkt aus der Definition folgen die Darstellungen
beziehungsweise
.
Eine weitere Darstellung erhält man aus dem Verschiebungssatz, nach dem
gilt. Durch Multiplikation mit
erhält man daraus
,
woraus
folgt.
Eine weitere Darstellung, die ohne die Verwendung des arithmetischen Mittels auskommt, ist
.
Verhalten bei Transformationen
Die Varianz verändert sich nicht bei Verschiebung der Daten um einen fixen
Wert. Ist genauer
und
,
so ist
sowie
.
Denn es ist
und somit
,
woraus die Behauptung folgt. Werden die Daten nicht nur um
verschoben, sondern auch um einen Faktor
reskaliert, so gilt
sowie
.
Hierbei ist .
Dies folgt wie oben durch direktes Nachrechnen.
Herkunft der verschiedenen Definitionen
Die Definition von
entspricht der Definition der empirischen Varianz als die mittlere quadratische
Abweichung vom arithmetischen Mittel.
Diese basiert auf der Idee, ein Streuungsmaß um das arithmetische Mittel zu
definieren. Ein erster Ansatz ist, die Differenz der Messwerte vom
arithmetischen Mittel aufzusummieren. Dies führt zu
Dies ergibt allerdings stets 0 (Schwerpunkteigenschaft), ist also nicht geeignet zur Quantifizierung der Varianz. Um einen Wert für die Varianz größer oder gleich 0 zu erhalten, kann man die Differenzen entweder in Betrag setzen, also
betrachten, oder aber quadrieren, also
bilden. Dies bietet den Vorteil, dass größere Abweichungen vom arithmetischen
Mittel stärker gewichtet werden. Um das Streuungsmaß noch unabhängig von der
Anzahl der Messwerte in der Stichprobe zu machen, wird noch durch diese Anzahl
dividiert. Außerdem bietet das Quadrieren den Vorteil, dass sich identische
positive und negative Elemente der Summe nicht gegenseitig aufheben können und
somit bei der Berechnung berücksichtigt werden. Ergebnis dieses pragmatisch
hergeleiteten Streuungsmaßes ist die
mittlere quadratische Abweichung vom
arithmetischen Mittel oder die oben definierte Varianz .
Die Definition von
hat ihre Wurzeln in der Schätztheorie.
Dort wird
als erwartungstreue Schätzfunktion für die unbekannte Varianz einer Wahrscheinlichkeitsverteilung verwendet.
Geht man nun von den Zufallsvariablen
zu den Realisierungen
über, so erhält man aus der abstrakten Schätzfunktion
den Schätzwert
.
Das Verhältnis von
zu
entspricht somit dem Verhältnis einer Funktion
zu ihrem Funktionswert
an einer Stelle
.
Somit kann
als ein praktisch motiviertes Streuungsmaß in der deskriptiven Statistik
angesehen werden, wohingegen
eine Schätzung für eine unbekannte Varianz in der induktiven Statistik ist.
Diese unterschiedlichen Ursprünge rechtfertigen die oben angeführte Sprechweise
für
als empirische Varianz und für
als induktive Varianz oder theoretische Varianz.
Zu bemerken ist, dass sich auch
als Schätzwert einer Schätzfunktion interpretieren lässt. So erhält man bei
Anwendung der Momentenmethode
als Schätzfunktion für die Varianz
.
Ihre Realisierung entspricht .
Jedoch wird
meist nicht verwendet, da sie gängige
Qualitätskriterien
nicht erfüllt.
Beziehung der Varianzbegriffe
Wie in der Einleitung bereits erwähnt, existieren verschiedene Varianzbegriffe, die teils denselben Namen tragen. Ihre Beziehung zueinander wird klar, wenn man ihre Rolle in der Modellierung der induktiven Statistik betrachtet:
- Die Varianz (im Sinne der Wahrscheinlichkeitstheorie) ist ein Dispersionsmaß einer abstrakten Wahrscheinlichkeitsverteilung oder der Verteilung einer Zufallsvariable in der Stochastik.
- Die Stichprobenvarianz (im Sinne der induktiven Statistik) ist eine Schätzfunktion zum Schätzen der Varianz (im Sinne der Wahrscheinlichkeitstheorie) einer unbekannten Wahrscheinlichkeitsverteilung. Sie ist somit keine Kennzahl, sondern eine Schätzmethode, um möglichst gut die Varianz einer unbekannten Wahrscheinlichkeitsverteilung zu erraten.
- Die hier besprochene empirische Varianz ist neben ihrer Rolle in der deskriptiven Statistik eine konkrete Schätzung für die zugrundeliegende Varianz nach der Schätzmethode, welche durch die Stichprobenvarianz (im Sinne der induktiven Statistik) gegeben ist.
Zentral ist der Unterschied zwischen der Schätzmethode (Stichprobenvarianz im Sinne der induktiven Statistik) und ihrer konkreten Schätzung (empirische Varianz). Sie entspricht dem Unterschied zwischen einer Funktion und ihrem Funktionswert.
Abgeleitete Begriffe
Empirische Standardabweichung
Als empirische Standardabweichung wird die Wurzel aus der empirischen Varianz bezeichnet, also
oder
.
Im Gegensatz zur empirischen Varianz besitzt die empirische Standardabweichung dieselben Einheiten wie das arithmetische Mittel oder die Stichprobe selbst. Wie auch bei der empirischen Varianz ist die Benennung und Bezeichnung bei der empirischen Standardabweichung nicht einheitlich.
Empirischer Variationskoeffizient
Der empirische Variationskoeffizient ist ein dimensionsloses Streuungsmaß und ist definiert als die empirische Standardabweichung geteilt durch das arithmetische Mittel, also
bzw.
Anmerkung
- ↑
Die Populationsvarianz kann auch einfacher durch
den Verschiebungssatz
wie folgt angegeben werden:



© biancahoegel.de
Datum der letzten Änderung: Jena, den: 09.03. 2020