Kontingenzkoeffizient
Der Kontingenzkoeffizient
(nach Karl Pearson) ist ein
statistisches Zusammenhangsmaß.
Der Pearsonsche Kontingenzkoeffizient drückt die Stärke des Zusammenhangs
zwischen zwei (oder mehreren) nominalen
oder ordinalen Variablen aus.
Er basiert auf dem Vergleich von tatsächlich ermittelten Häufigkeiten zweier
Merkmale mit den Häufigkeiten, die man bei Unabhängigkeit dieser Merkmale
erwartet hätte.
Quadratische Kontingenz
Die quadratische Kontingenz
oder der Chi-Quadrat-Koeffizient ,
auf dem auch der Kontingenzkoeffizient beruht, ist ein Maß für den Zusammenhang
der betrachteten Merkmale:
Die Aussagekraft des -Koeffizienten
ist gering, da seine Obergrenze, d.h. der Wert, den er bei vollkommener
Abhängigkeit der betrachteten Merkmale annimmt, abhängig von der Größe
(Dimension) der Kontingenztafel
(d.h. von der Anzahl der Ausprägungen der Variablen) und der Größe der
untersuchten Gesamtheit
ist. Eine Vergleichbarkeit von Werten des
-Koeffizienten
über verschiedene Kontingenztabellen und Stichprobengrößen ist daher nicht
gegeben.
Bei völliger Unabhängigkeit der Merkmale ist
.
Es gilt:
,
wobei
das Minimum der Anzahl
der Zeilen und der Anzahl
der Spalten der Kontingenztabelle bezeichnet.
Verwendung
Die -Größe
wird benötigt, um den Kontingenzkoeffizienten
zu ermitteln. Auch bei statistischen Tests findet die
-Größe
Verwendung (siehe Chi-Quadrat-Test).
Beispiel
Es sei folgende Kontingenztafel aus einer Befragung entstanden:
Berechnung des -Koeffizienten:
Mittlere quadratische Kontingenz
Ein weiteres Maß, um die Stärke der Abhängigkeit der Merkmale in einer Kontingenztafel
anzugeben, ist die mittlere quadratische Kontingenz, die im Wesentlichen eine
Erweiterung des -Koeffizienten
darstellt:
Je größer dieses Maß ist, desto stärker ist der Zusammenhang zwischen den
zwei analysierten Merkmalen. Sind die beiden Merkmale unabhängig, so wird jeder
Summand durch den Zähler des Bruches zu ,
das Maß selbst damit auch. Im Falle einer (
)-Kontingenztafel
ist das Maß normiert und nimmt Werte im Intervall
an.
Kontingenzkoeffizient nach Karl Pearson
kann grundsätzlich sehr große Werte annehmen und ist nicht auf das Intervall
beschränkt. Um die Abhängigkeit des Koeffizienten vom Stichprobenumfang
auszuschalten, wird auf Basis des
der Kontingenzkoeffizient
(auch
oder
)
nach Karl Pearson ermittelt:
.
mit
der Stichprobenumfang.
Dieser kann Werte im Intervall
annehmen. Problematisch ist, dass die obere Grenze des Kontingenzkoeffizienten
abhängig von der Anzahl der betrachteten Dimensionen ist:
Es gilt
mit
das Minimum der Anzahl
der Zeilen und der Anzahl
der Spalten der Kontingenztabelle.
Korrigierter Kontingenzkoeffizient
Um zusätzlich zum Einfluss des Stichprobenumfangs auch den Einfluss der
Dimension der betrachteten Kontingenztafel (der Anzahl der Merkmalsausprägungen)
auf die Obergrenze des Koeffizienten auszuschalten und damit die
Vergleichbarkeit von Ergebnissen zu gewährleisten, wird der korrigierte
Kontingenzkoeffizient
(häufig auch
)
zur Messung des Zusammenhangs genutzt:
,
mit
wie oben.
Es gilt :
Ein
nahe
deutet dabei auf unabhängige Merkmale hin, ein
nahe
auf ein hohes Maß an Abhängigkeit zwischen den Merkmalen.
Für das Beispiel ergibt sich ein korrigierter Kontingenzkoeffizient .
Cramérs V
Cramérs
(englisch: Cramér’s
)
ist ein Kontingenzkoeffizient, genauer ein
-basiertes
Zusammenhangsmaß.
Es ist benannt nach dem schwedischen Mathematiker und Statistiker Harald Cramér.
Cramérs
ist eine
-basierte
Maßzahl. Cramérs
ist eine symmetrische Maßzahl für die Stärke des Zusammenhangs zwischen zwei
oder mehr nominalskalierten Variablen, wenn (mindestens) eine der beiden
Variablen mehr als zwei Ausprägungen hat. Bei einer
-Tabelle
entspricht Cramérs
dem absoluten Betrag des Phi-Koeffizienten.
Vorgehen
.
: Gesamtzahl der Fälle (Stichprobenumfang)
das Minimum der Anzahl
der Zeilen und der Anzahl
der Spalten der Kontingenztabelle
Interpretation
Cramérs
liegt bei jeder Kreuztabelle – unabhängig von der Anzahl der Zeilen und Spalten
– zwischen
und
.
Er kann bei beliebig großen Kreuztabellen
angewandt werden. Da Cramérs
immer positiv ist, kann keine Aussage über die Richtung des Zusammenhangs
getroffen werden.
Phi-Koeffizient ϕ
Der Phi-Koeffizient (auch Vierfelder-Korrelationskoeffizient,
Vierfelderkoeffizient)
(auch
)
ist ein Maß für die Stärke des Zusammenhangs
zweier dichotomer
Merkmale.
Berechnung
Um die Vierfelderkorrelation zwischen zwei dichotomen Merkmalen
und
zu schätzen, stellt man zuerst eine Kontingenztafel
auf, die die gemeinsame Häufigkeitsverteilung der Merkmale enthält.
Mit den Daten aus der Tabelle kann man
nach der Formel
berechnen.
Die Formel ergibt sich aus der allgemeineren Definition des
Korrelationskoeffizienten
im Spezialfall zweier binärer Zufallsvariablen
und
.
Beispiele
Messen der Assoziation zwischen …
- … Zustimmung zu oder Ablehnung einer Politikentscheidung und dem Geschlecht, …
- … Vorführung bzw. Nichtvorführung eines Werbespots und Kauf oder Nichtkauf eines Produkts.
- Anwendung von
auf eine Konfusionsmatrix mit zwei Klassen.
Hinweis
Zwischen
und
besteht der Zusammenhang
bzw.
,
wobei
die Anzahl der Beobachtungen bezeichnet. Damit ist
die Quadratwurzel (das Vorzeichen spielt
keine Rolle) aus der mittleren quadratischen Kontingenz (siehe oben).
Als Teststatistik verwendet ist
unter der Annahme, dass
gleich null ist,
-verteilt
mit einem Freiheitsgrad.
Phi als Maß für die Effektstärke
Wenn ein Maß zur Bestimmung der Effektstärke
mit Orientierung auf Wahrscheinlichkeiten gesucht wird, kann dafür
verwendet werden. Da bei Kreuztabellen, die nicht absolute Häufigkeiten, sondern
Wahrscheinlichkeiten enthalten, an der Stelle, an der normalerweise die Fallzahl
zu finden ist, immer
steht, wird
identisch mit Cohens
:
Dabei wird
eben nicht in Bezug auf absolute Häufigkeiten, sondern in Bezug auf
Wahrscheinlichkeiten berechnet. Zu Cohens
.
Ebenfalls numerisch identisch ist es, wenn in Bezug auf Kreuztabellen, die
Wahrscheinlichkeiten enthalten, als
mit
berechnet wird.



© biancahoegel.de
Datum der letzten Änderung: Jena, den: 24.03. 2020