Klasseneinteilung (Statistik)

Klasseneinteilung oder Klassierung bezeichnet in der Statistik die Einteilung von Merkmalswerten oder statistischen Reihen in getrennte Gruppen, Klassen oder Größenklassen. Jedes Element der untersuchten Gesamtheit wird in Abhängigkeit von seinem Wert auf der entsprechenden Variablen genau einer Klasse zugeordnet. Eine Klasseneinteilung ist bei zu großer Anzahl verschiedener Werte einer (beobachteten) Zufallsvariablen, um praktikabel verarbeitet oder dargestellt zu werden. Diese Art der Bearbeitung von Daten erfolgt auch, wenn die erhobenen Werte nur als Näherung der wahren Werte anzusehen sind oder wenn (quasi-)stetige Variablen mit Methoden für diskrete Variablen untersucht werden sollen.

Alle Werte einer Klasse liegen innerhalb der oberen und unteren Klassengrenze, wobei die Differenz der oberen und unteren Klassengrenze die Klassenbreite ist. Die Klassenmitte stellt den zur weiteren Analyse genutzten „repräsentativen“ Wert einer Klasse dar. Die Klassenhäufigkeit oder Besetzungszahl entspricht der Anzahl der in der Klasse enthaltenen Elemente.

Klasse und Klassierung

Klassen sind disjunkte, d.h. nicht überlappende, aneinandergrenzende Intervalle von Merkmalswerten, die durch eine untere und eine obere Klassengrenze begrenzt und eindeutig festgelegt sind.

Eine Klassierung ist eine Zusammenfassung von gleichen oder ähnlichen Merkmalsausprägungen zu einer Gruppe oder Klasse. Da es bei statistischen Untersuchungen oft nicht möglich oder sinnvoll ist, alle einzelnen (verschiedenen) Merkmalsausprägungen oder Realisationen der untersuchten Zufallsvariablen zu erheben oder zu verarbeiten, kann durch eine Klassierung eine bessere Übersicht über die Daten erreicht werden. Das trifft insbesondere auf stetige oder quasi-stetige Merkmale oder auf Merkmale, deren Anzahl von (unterschiedlichen) Merkmalsausprägungen sehr groß ist, zu.

Nachteil der Klassierung ist der Informationsverlust, da die einzelnen Beobachtungswerte durch alleinige Betrachtung der Klassen „verlorengehen“ und stattdessen nur repräsentative Größen wie die Anzahl der in einer bestimmten Klasse enthaltenen Beobachtungen oder die Klassenmitte für weitere Analysen zur Verfügung stehen. Innerhalb einer Klasse sollten die Beobachtungen auf die Merkmalsausprägungen möglichst gleichverteilt sein, d.h. die Ausprägungen sollten sich nicht nur in einem begrenzten Bereich der Klasse häufen, damit Klasse und Klassenbreite für die enthaltenen Beobachtungen repräsentativ sind.

Klassengrenze

Eine Klassengrenze ist derjenige Wert einer metrisch skalierten (Zufalls-)Variablen, der eine Klasse nach unten oder oben begrenzt. Eine Klasse $j\,$ wird dabei durch zwei Klassengrenzen definiert, die untere Klassengrenze $x_{{j}}^{{u}}$ und die obere Klassengrenze $x_{{j}}^{{o}}$ $(j=1,\dots ,k)\,$ , wobei die obere Klassengrenze der $j\,$ -ten Klasse der unteren Klassengrenze der $(j+1)\,$ -ten Klasse entspricht, d.h.

$x_{{j}}^{{o}}=x_{{j+1}}^{{u}},\quad j=1,\ldots ,k-1$ .

Die Zuordnung der Klassengrenzen zu einer Klasse kann auf zwei Arten erfolgen. Entweder gehört die untere Klassengrenze $x_{{j}}^{{u}}$ zur Klasse $j\,$ und die obere Klassengrenze $x_{{j}}^{{o}}$ zur Klasse $j+1\,$ oder die untere Klassengrenze $x_{{j}}^{{u}}$ gehört zur Klasse $j-1\,$ und die obere Klassengrenze $x_{{j}}^{{o}}$ zur Klasse $j\,$ , d.h.

$x_{{j}}^{{u}}<x\leq x_{{j}}^{{o}}$ oder $x_{{j}}^{{u}}\leq x<x_{{j}}^{{o}},\quad j=1,\ldots ,k$ .

Das folgende Beispiel illustriert die beiden Alternativen der Klasseneinteilung (j = 1 bis 4):

Bezeichnung	Alternative 1	Alternative 2
Klasse 1	< 100	≦ 100
Klasse 2	≧ 100 bis < 120	> 100 bis ≦ 120
Klasse 3	≧ 120 bis < 150	> 120 bis ≦ 150
Klasse 4	≧ 150	> 150

Ein Beobachtungswert bzw. eine untersuchte statistische Einheit $x_{{i}}\,$ $(i=1,\dots ,n)$ wird also Klasse $j\,$ zugeordnet, falls $x_{{j}}^{{u}}\leq x_{{i}}<x_{{j}}^{{o}}$ oder $x_{j}^{u}<x_{i}\leq x_{j}^{o},\;j=1,\ldots ,k,$ gilt.

Für die Klasse 2 in der Tabelle kann man das sprachlich folgendermaßen formulieren:

Alternative 1: Der Wert beträgt mindestens 100 und liegt unter 120.
Alternative 2: Der Wert liegt über 100 und beträgt höchstens 120.

Klassenbreite

Die Klassenbreite ist die Differenz aus oberer und unterer Klassengrenze.

$\Delta x_{{j}}=x_{{j}}^{{o}}-x_{{j}}^{{u}},\quad j=1,\ldots ,k$

Im Beispiel von oben ergeben sich folgende Klassenbreiten:

Bezeichnung	Klassenbreite
Klasse 1	unbestimmt
Klasse 2	20
Klasse 3	30
Klasse 4	unbestimmt

Dabei können die Klassen eines Merkmals auch verschiedene Breiten aufweisen. Die optimale Anzahl der Klassen bzw. die Breite der Klassen hängt von der konkreten Untersuchungsituation (Daten, Ziele) ab. Einige „Faustregeln“ zur Bestimmung der Anzahl der Klassen oder stattdessen der Klassenbreite finden sich im Artikel zum Histogramm. Der Jenks-Caspall-Algorithmus stellt ein Verfahren zur automatischen Klassierung bereit.

Klassenmitte

Nach der Klassierung kann für weitere Analysen die Klassenmitte $x_{{j}}\,$ als repräsentativer Wert einer Klasse $j\,$ genutzt werden. Sie kann bei symmetrischer Verteilung der Elemente einer Klasse auf die enthaltenen Ausprägungen bzw. Werte in der jeweiligen Klasse als arithmetisches Mittel aus unterer und oberer Klassengrenze ermittelt werden.

$x_{{j}}={\frac {{x_{{j}}^{{u}}+x_{{j}}^{{o}}}}{2}},\quad j=1,\ldots ,k$

Im Beispiel von oben ergeben sich folgende Klassenmitten:

Bezeichnung	Klassenmitte
Klasse 1	unbestimmt
Klasse 2	110
Klasse 3	135
Klasse 4	unbestimmt

Häufigkeitsdichte

Als Beispiel wird das metrisch stetige Merkmal „Nettojahreseinkommen“ einer wohldefinierten Grundgesamtheit von Personen untersucht. Da die Anzahl der Personen mit steigendem Einkommen geringer wird, wählt man i.d.R. die oberen Einkommensklassen breiter als die mittleren und unteren, damit die Darstellung übersichtlich bleibt.

Wird ein Merkmal in unterschiedlich breite Klassen eingeteilt, ist die (absolute oder relative) Klassenhäufigkeit jedoch ohne Angabe der Klassenbreite wenig aussagekräftig. Daher ist die Berechnung der Häufigkeitsdichte wichtig, um die Klassen vergleichbar zu machen. Sie entspricht der zur Klassenbreite und Klassenhäufigkeit gehörenden Säulenhöhe in einem Histogramm. Die Häufigkeitsdichte einer Klasse ist das Verhältnis der absoluten oder der relativen Häufigkeit einer Klasse zur entsprechenden Klassenbreite.

Die Häufigkeitsdichte für $x_{{j}}^{{u}}\leq X<x_{{j}}^{{o}}$ ergibt sich damit wie folgt:

${\widehat {h}}\left(x_{j}\right)={\frac {h\left(x_{j}\right)}{x_{j}^{o}-x_{j}^{u}}}$ mit $h\left(x_{{j}}\right)$ die absolute Häufigkeit von Klasse $j\,$

oder

${\widehat {f}}\left(x_{j}\right)={\frac {f\left(x_{j}\right)}{x_{j}^{o}-x_{j}^{u}}}$ mit $f\left(x_{j}\right)$ die relative Häufigkeit von Klasse $j\,$ .

Darstellung klassierter Variablen

Eine Möglichkeit der systematischen und übersichtlichen Darstellung einer klassierten stetigen Zufallsvariablen bietet eine Häufigkeitstabelle.

Merkmalsklassen $x_{{j}}^{{u}}\leq X<x_{{j}}^{{o}}$	absolute Häufigkeit $h(x_{{j}})\,$	relative Häufigkeit $f(x_{{j}})\,$
$x_{{1}}^{{u}}-x_{{1}}^{{o}}$	$h\left(x_{{1}}\right)$	$f\left(x_{{1}}\right)$
$x_{{2}}^{{u}}-x_{{2}}^{{o}}$	$h\left(x_{{2}}\right)$	$f\left(x_{{2}}\right)$
$\vdots$	$\vdots$	$\vdots$
$x_{{j}}^{{u}}-x_{{j}}^{{o}}$	$h\left(x_{{j}}\right)$	$f\left(x_{{j}}\right)$
$\vdots$	$\vdots$	$\vdots$
$x_{{k}}^{{u}}-x_{{k}}^{{o}}$	$h\left(x_{{k}}\right)$	$f\left(x_{{k}}\right)$
Summe	$n\,$	1

wobei $n\,$ die Anzahl der Untersuchungsobjekte ist. Für die Darstellung mehrdimensionaler Häufigkeitsverteilungen können Kreuztabellen genutzt werden. Die grafische Darstellung klassierter Variablen kann über ein Histogramm, ein Säulen- oder Stabdiagramm, ein Balkendiagramm oder bei sehr wenigen Klassen über ein Tortendiagramm erfolgen.

Lageparameter

Da bei einer Klassierung nur Intervalle, aber keine exakten Werte vorliegen, können für die Lageparameter nur Intervalle und keine exakten Werte ermittelt werden. Als Beispiel wird hier die Anzahl der PKW pro tausend Einwohner in Europäischen Ländern gewählt.

Klassennr.	Zahl der PKW pro 1000	Zahl der Länder	Häufigkeitsdichte
1	über 0 bis 200	5	0,025
2	über 200 bis 300	6	0,06
3	über 300 bis 400	6	0,06
4	über 400 bis 500	9	0,09
5	über 500 bis 700	6	0,03

Arithmetisches Mittel

Untergrenze: (5·0 + 6·200 + 6·300 + 9·400 + 6·500)/32 = 300

Obergrenze: (5·200 + 6·300 + 6·400 + 9·500 + 6·700)/32 = 434,375

Also: 300 < arithmetisches Mittel ≤ 434,375.

Oder: das arithmetische Mittel = 367,1875, wobei der Fehler maximal ±67,1875 betragen kann.

Quartile

Das 1. Quartil liegt in der 2. Klasse, also: 200 < 1. Quartil ≤ 300.

Das 2. Quartil = Median liegt in der 3. Klasse, also: 300 < 2. Quartil ≤ 400.

Das 3. Quartil liegt in der 4. Klasse, also: 400 < 3. Quartil ≤ 500.

Modus

Da die konkrete Verteilung der Werte nicht bekannt ist, kann nicht ermittelt werden, welche Werte am häufigsten vorkommen, also: 0 < Modus ≤ 700.

Modalklasse

Die Modalklasse ist die Klasse mit der höchsten Häufigkeitsdichte, also die 4. Klasse mit der Häufigkeitsdichte 0,09.

Hinweis: Oft wird als Beispiel eine Häufigkeitsverteilung mit folgenden Zusatzannahmen genommen:

die Werte pro Klasse sind gleichverteilt, d.h., benachbarte Werte haben den Abstand Klassenbreite/Häufigkeit = 1/Häufigkeitsdichte
die Werte pro Klasse liegen symmetrisch zur Klassenmitte.

Daraus lassen sich mit Feinanalysen und geometrischen Betrachtungen (z.B. Anwendung der Strahlensätze) konkrete Werte für die Lageparameter ermitteln. Oder durch die beiden Annahmen wird eine eindeutige Urliste definiert.

Im Beispiel lässt sich folgende eindeutige Urliste erstellen

eindeutige Urliste nach dem Beispiel
Klassennr.	Zahl der PKW pro 1000	Zahl der Länder	Eindeutige Urliste
1	über 0 bis 200	5	20; 60; 100; 140; 180
2	über 200 bis 300	6	208,33; 225; 241,67; 258,33; 275; 291,67
3	über 300 bis 400	6	308,33; 325; 341,67; 358,33; 375; 391,67
4	über 400 bis 500	9	405,56; 416,67; 427,78; 438,89; 450; 461,11; 472,22; 483,33; 494,44
5	über 500 bis 700	6	516,67; 550; 583,33; 616,67; 650; 683,33

Aus dieser Liste ergeben sich dann die folgenden Werte

Arithmetisches Mittel = (5·100 + 6·250 + 6·350 + 9·450 + 6·600)/32 = 367,1875
1. Quartil = (241,67 + 258,33)/2 = 250
2. Quartil = Median = (375 + 391,67)/2 = 383,33
3. Quartil = (472,22 + 483,33)/2 = 477,78
Jeder Wert ist Modus, da jeder Wert genau einmal vorkommt

Aus solcher eindeutigen Urliste lassen sich dann auch Streuungsparameter berechnen.

Basierend auf einem Artikel in:

Wikipedia.de