Wahrscheinlichkeitsmaß

Ein Wahrscheinlichkeitsmaß, kurz W-Maß oder synonym Wahrscheinlichkeitsverteilung beziehungsweise kurz W-Verteilung oder einfach Verteilung genannt, ist ein grundlegendes Konstrukt der Stochastik und Wahrscheinlichkeitstheorie. Seltener findet sich auch die Bezeichnung Wahrscheinlichkeitsgesetz. Wahrscheinlichkeitsmaße dienen dazu, Mengen eine Zahl zwischen null und eins zuzuordnen. Diese Zahl ist dann die Wahrscheinlichkeit, dass das durch die Menge beschriebene Ereignis eintritt. Typisches Beispiel hierfür wäre das Werfen eines fairen Würfels: Der Menge {2}, also dem Ereignis, dass die Augenzahl 2 geworfen wird, wird von der Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit ${\tfrac {1}{6}}$ zugeordnet.

Im Rahmen der Maßtheorie entsprechen die Wahrscheinlichkeitsmaße speziellen endlichen Maßen, die sich durch ihre Normiertheit auszeichnen.

Insbesondere in der Physik werden manche Wahrscheinlichkeitsverteilungen auch als Statistiken bezeichnet. Beispiel hierfür sind die Boltzmann-Statistik und die Bose-Einstein-Statistik.

Definition

Gegeben sei

eine Menge $\Omega$ , der sogenannte Ergebnisraum,
eine σ-Algebra $\Sigma$ auf dieser Menge, das Ereignissystem.

Dann heißt eine Abbildung

$P\colon \Sigma \to [0,1]$

mit den Eigenschaften

Normiertheit: Es ist $P(\Omega)=1$
σ-Additivität: Für jede abzählbare Folge von paarweise disjunkten Mengen $A_1, A_2, A_3, \dots$ aus $\Sigma$ gilt

$P\left(\bigcup _{i=1}^{\infty }A_{i}\right)=\sum _{i=1}^{\infty }P(A_{i})$

ein Wahrscheinlichkeitsmaß oder eine Wahrscheinlichkeitsverteilung.

Die drei Forderungen Normiertheit, σ-Additivität und Werte im Intervall zwischen 0 und 1 werden auch die Kolmogorow-Axiome genannt.

Elementares Beispiel

Ein elementares Beispiel für ein Wahrscheinlichkeitsmaß ist durch den Wurf eines fairen Würfels gegeben. Der Ergebnisraum ist gegeben durch

$\Omega :=\{1,2,3,4,5,6\}$

und enthält alle möglichen Ausgänge des Würfelns. Das Ereignissystem enthält alle Teilmengen des Ergebnisraumes, denen man eine Wahrscheinlichkeit zuordnen will. In diesem Fall will man jeder Teilmenge des Ergebnisraumes eine Wahrscheinlichkeit zuordnen, daher wählt man als Ereignissystem die Potenzmenge, also die Menge aller Teilmengen von $\Omega$

$\Sigma :={\mathcal {P}}(\Omega )$ .

Das Wahrscheinlichkeitsmaß lässt sich nun definieren als

$P(\{i\}):={\tfrac {1}{6}}\quad {\text{ für }}\quad i=1,\dots ,6$ ,

da man von einem fairen Würfel ausgeht. Jede Augenzahl ist demnach gleich wahrscheinlich. Interessiert man sich nun für die Frage, wie groß die Wahrscheinlichkeit ist, eine gerade Zahl zu würfeln, folgt aus der σ-Additivität

$P(\{2,4,6\})=P(\{2\})+P(\{4\})+P(\{6\})=3\cdot {\tfrac {1}{6}}={\tfrac {1}{2}}.$

Wichtig ist hier, dass Wahrscheinlichkeitsmaße keine Zahlen, sondern nur Mengen als Argumente nehmen. Daher sind Schreibweisen wie $P(2)$ streng genommen falsch und müssten korrekterweise $P(\{2\})$ lauten.

Wahrscheinlichkeitsverteilungen und Verteilungen von Zufallsvariablen

In der Literatur wird nicht immer streng zwischen einer Wahrscheinlichkeitsverteilung – also einer Abbildung, die auf einem Mengensystem definiert ist und den Kolmogorow-Axiomen genügt – und der Verteilung einer Zufallsvariablen unterschieden.

Verteilungen von Zufallsvariablen entstehen, wenn man eine Zufallsvariable auf einem Wahrscheinlichkeitsraum definiert, um relevante Informationen zu extrahieren. Beispiel hierfür wäre eine Lottoziehung: Der Wahrscheinlichkeitsraum modelliert die Wahrscheinlichkeit, eine ganz bestimmte Zahlenkombination zu ziehen. Interessant ist aber nur die Information über die Anzahl der richtigen Zahlen. Diese wird von der Zufallsvariablen extrahiert. Die Verteilung dieser Zufallsvariablen ordnet nur dieser neuen Information aufgrund der ursprünglichen Wahrscheinlichkeiten im Wahrscheinlichkeitsraum eine neue Wahrscheinlichkeit zu.

Das Wahrscheinlichkeitsmaß wird durch die Zufallsvariable vom originären Wahrscheinlichkeitsraum in einen neuen „künstlichen“ Wahrscheinlichkeitsraum übertragen und induziert dort als Bildmaß unter der Zufallsvariablen ein neues Wahrscheinlichkeitsmaß. Im maßtheoretischen Sinne handelt es sich bei einer Zufallsvariablen um eine Abbildung

$X\colon (\Omega ,\Sigma ,P)\to (\mathbb {R} ,{\mathcal {B}}(\mathbb {R} ),P_{X}),\quad \omega \mapsto X(\omega )$

zwischen dem originären Wahrscheinlichkeitsraum und den reellen Zahlen, versehen mit der Borelschen $\sigma$ -Algebra. Da eine Zufallsvariable zudem per Definition die $\Sigma$ - $\mathcal{B}(\mathbb{R})$ -Messbarkeit erfüllt, also für jede messbare Menge $B\in {\mathcal {B}}(\mathbb {R} )$ gilt

$X^{-1}(B)\in \Sigma ,$

ergibt sich für alle $B\in {\mathcal {B}}(\mathbb {R} )$ durch

$P_{X}(B):=P(X^{-1}(B))\equiv P(\{\omega \in \Omega \mid X(\omega )\in B\})$

auf natürliche Weise das Bildmaß von unter oder kurz die Verteilung der Zufallsvariablen .

Jede Verteilung einer Zufallsvariablen ist eine Wahrscheinlichkeitsverteilung. Umgekehrt kann jede Wahrscheinlichkeitsverteilung als Verteilung einer nicht näher präzisierten Zufallsvariablen angesehen werden. Einfachstes Beispiel für solch eine Konstruktion ist, von einem vorgegebenen Wahrscheinlichkeitsraum $(\Omega ,\Sigma ,P)$ eine identische Abbildung

$X\colon \Omega \to \Omega {\text{, definiert durch }}X(\omega )=\omega$

zu definieren. Die Verteilung $P_{X}$ der Zufallsvariablen entspricht also in diesem Fall genau dem Wahrscheinlichkeitsmaß $P.$

Da sich demnach abstrakte und komplizierte Wahrscheinlichkeitsmaße durch Zufallsexperimente als konkrete Verteilungen von Zufallsvariablen auffassen lassen, ergeben sich die üblichen Notationen

$P(X\leq k)\equiv P(\{\omega \in \Omega \mid X(\omega )\leq k\})\equiv P_{X}((-\infty ,k])$

für die Verteilungsfunktion von . Diese entspricht also offensichtlich der Verteilung eingeschränkt auf das System der Halbstrahlen – ein konkreter schnittstabiler Erzeuger der Borelschen $\sigma$ -Algebra. Über den Maßeindeutigkeitssatz ergibt sich unmittelbar, dass durch die Verteilungsfunktion einer Zufallsvariablen immer auch die Verteilung in eindeutiger Weise bestimmt wird.

Eigenschaften als Maß

Die folgenden Eigenschaften folgen aus der Definition.

Es ist $P(\emptyset )=0$ . Dies folgt aus der σ-Additivität und der Tatsache, dass die leere Menge disjunkt zu sich selbst ist.
Subtraktivität: Für $A,B\in \Sigma$ mit $B\subseteq A$ gilt

$P(A\setminus B)=P(A)-P(B)$ .

Monotonie: Ein Wahrscheinlichkeitsmaß ist eine monotone Abbildung von $(\Sigma ,\subset )$ nach $([0,1],\leq )$ , das heißt, für $A,B\in \Sigma$ gilt

$B\subseteq A\implies P(B)\leq P(A)$ .

Endliche Additivität: Aus der σ-Additivität folgt direkt, dass für paarweise disjunkte Mengen $A_{1},\dotsc ,A_{m}\in \Sigma$ gilt:

$P\left(\bigcup _{n=1}^{m}A_{n}\right)=\sum _{n=1}^{m}P(A_{n})$

σ-Subadditivität: Für eine beliebige Folge $(A_{n})_{n\in \mathbb {N} }$ von Mengen aus $\Sigma$ gilt

$P\left(\bigcup _{n=1}^{\infty }A_{n}\right)\leq \sum _{n=1}^{\infty }P(A_{n})$ .

σ-Stetigkeit von unten: Ist $(A_{n})_{{n\in \mathbb{N} }}$ eine monoton gegen wachsende Mengenfolge in $\Sigma$ , also $A_{n}\uparrow A$ , so ist $\lim _{n\to \infty }P(A_{n})=P(A)$ .
σ-Stetigkeit von oben: Ist $(A_{n})_{{n\in \mathbb{N} }}$ eine monoton gegen fallende Mengenfolge in $\Sigma$ , also $A_{n}\downarrow A$ , so ist $\lim _{n\to \infty }P(A_{n})=P(A)$ .
Prinzip von Inklusion und Exklusion: Es gilt

$P\left(\bigcup _{{i=1}}^{n}A_{i}\right)=\sum _{{k=1}}^{n}\left((-1)^{{k+1}}\!\!\sum _{{I\subseteq \{1,\dots ,n\}, \atop |I|=k}}\!\!\!\!P\left(\bigcap _{{i\in I}}A_{i}\right)\right)$

sowie

$P\left(\bigcap _{i=1}^{n}A_{i}\right)=\sum _{k=1}^{n}\left((-1)^{k+1}\!\!\sum _{I\subseteq \{1,\dots ,n\}, \atop |I|=k}\!\!\!\!P\left(\bigcup _{i\in I}A_{i}\right)\right)$ .

Im einfachsten Fall entspricht dies

$P(A\cup B)+P(A\cap B)=P(A)+P(B).$

Konstruktion von Wahrscheinlichkeitsmaßen

Verfahren bei Wahrscheinlichkeitsmaßen auf den ganzen oder reellen Zahlen

Wahrscheinlichkeitsfunktionen

Auf einer endlichen oder abzählbar unendlichen Grundmenge , versehen mit der Potenzmenge als σ-Algebra, also $\Sigma ={\mathcal {P}}(M)$ lassen sich Wahrscheinlichkeitmaße durch Wahrscheinlichkeitsfunktionen definieren. Dies sind Abbildungen

$f\colon M\to [0,1]{\text{, für die gilt: }}\sum _{i\in M}f(i)=1$ .

Die zweite Forderung liefert die Normiertheit des Wahrscheinlichkeitsmaßes. Dieses wird dann definiert durch

$P(\{i\})=f(i){\text{ sowie }}P(A)=\sum _{i\in A}f(i){\text{ für }}A\in \Sigma$ .

Beispielsweise wäre im Falle eines fairen Würfels die Wahrscheinlichkeitsfunktion definiert durch

$f\colon \{1,\dots ,6\}\to [0,1],\quad f(i)={\tfrac {1}{6}}{\text{ für }}i=1,\dotsc ,6$ .

Ein Beispiel für eine Wahrscheinlichkeitsfunktion auf einer abzählbar unendlichen Menge liefert die geometrische Verteilung, eine ihrer Varianten besitzt die Wahrscheinlichkeitsfunktion

$f(i)=(1-q)q^{i}{\text{, wobei }}i=0,1,2,\dotsc$ .

Dabei ist $q\in (0,1)$ . Die Normiertheit folgt hier mittels der geometrischen Reihe. Aus formaler Sicht ist wichtig, dass Wahrscheinlichkeitsfunktionen nicht wie Wahrscheinlichkeitsmaße Mengen als Argumente nehmen, sondern Elemente der Grundmenge . Daher wäre die Schreibweise $f(\{i\})$ falsch, korrekterweise heißt es $f(i)$ .

Aus maßtheoretischer Sicht lassen sich Wahrscheinlichkeitsfunktionen auch als Wahrscheinlichkeitsdichten auffassen. Sie sind dann die Wahrscheinlichkeitsdichten bezüglich des Zählmaßes. Daher werden Wahrscheinlichkeitsfunktionen auch als Zähldichten bezeichnet. Trotz dieser Gemeinsamkeit wird streng zwischen den Wahrscheinlichkeitsfunktionen (auf diskreten Grundräumen) und den Wahrscheinlichkeitsdichten (auf stetigen Grundräumen) unterschieden.

Wahrscheinlichkeitsdichtefunktionen

Auf den reellen Zahlen $\mathbb {R}$ , versehen mit der Borelschen σ-Algebra ${\mathcal B}(\mathbb{R} )$ lassen sich Wahrscheinlichkeitsmaße über Wahrscheinlichkeitsdichtefunktionen definieren. Dies sind integrierbare Funktionen , für die gilt:

Positivität: $f(x)\geq 0{\text{ für alle }}x\in \mathbb {R}$
Normiertheit: $\int _{\mathbb {R} }f(x)\mathrm {d} \lambda (x)=1$

Das Wahrscheinlichkeitsmaß wird dann für $A\in {\mathcal {B}}(\mathbb {R} )$ durch

$P(A):=\int _{A}f(x)\mathrm {d} \lambda (x)$

definiert.

Das Integral ist hier ein Lebesgue-Integral. In vielen Fällen ist jedoch ein Riemann-Integral ausreichend, man schreibt dann $\mathrm {d} x$ anstelle von $\mathrm {d} \lambda (x)$ . Typisches Beispiel eines Wahrscheinlichkeitsmaßes, das auf diese Art definiert wird, ist die Exponentialverteilung. Sie besitzt die Wahrscheinlichkeitsdichtefunktion

$f_{\lambda }(x)={\begin{cases}\displaystyle \lambda {\rm {e}}^{-\lambda x}&x\geq 0,\\0&x<0.\end{cases}}$

Es ist dann beispielsweise

$P((-1,1])=\int _{(-1,1]}f_{\lambda }(x)\mathrm {d} x=\int _{[0,1]}\lambda {\rm {e}}^{-\lambda x}\mathrm {d} x=1-\mathrm {e} ^{-\lambda }$

für einen Parameter $\lambda >0$ . Das Konzept von Wahrscheinlichkeitsdichtefunktionen kann auch auf den $\mathbb {R} ^{n}$ ausgeweitet werden. Es lassen sich aber nicht alle Wahrscheinlichkeitsmaße durch eine Wahrscheinlichkeitsdichte darstellen, sondern nur diejenigen, die absolutstetig bezüglich des Lebesgue-Maßes sind.

Verteilungsfunktionen

Auf den reellen Zahlen $\mathbb {R}$ , versehen mit der Borelschen σ-Algebra ${\mathcal B}(\mathbb{R} )$ lassen sich Wahrscheinlichkeitsmaße auch mit Verteilungsfunktionen definieren. Eine Verteilungsfunktion ist eine Funktion

$F\colon \mathbb {R} \to [0,1]$

mit den Eigenschaften

ist monoton wachsend.
ist rechtsseitig stetig sowie

$\lim _{x\to -\infty }F(x)=0{\text{ und }}\lim _{x\to \infty }F(x)=1$ .

Für jede Verteilungsfunktion gibt es ein eindeutig bestimmtes Wahrscheinlichkeitsmaß mit

$P((-\infty ,x])=F(x)$ .

Umgekehrt kann mittels der obigen Identität jedem Wahrscheinlichkeitsmaß eine Verteilungsfunktion zugeordnet werden. Die Zuordnung von Wahrscheinlichkeitsmaß und Verteilungsfunktion ist somit nach dem Korrespondenzsatz bijektiv. Die Wahrscheinlichkeiten eines Intervalles enthält man dann über

$P((a,b])=F(b)-F(a)$ .

Insbesondere lässt sich auch jedem Wahrscheinlichkeitsmaß auf $\mathbb{N}$ oder $\Z$ eine Verteilungsfunktion zuordnen. So ist die Bernoulli-Verteilung auf der Grundmenge $\{0,1\}$ definiert durch $P(\{0\})=1-p,P(\{1\})=p$ für einen reellen Parameter $p\in (0,1)$ . Aufgefasst als Wahrscheinlichkeitsmaß auf den reellen Zahlen besitzt sie die Verteilungsfunktion

$F(x)={\begin{cases}0&{\text{ falls }}x<0\\1-p&{\text{ falls }}0\leq x<1\\1&{\text{ falls }}x\geq 1\end{cases}}$ .

Verteilungsfunktionen können auch für den $\mathbb {R} ^{n}$ definiert werden, man spricht dann von multivariaten Verteilungsfunktionen.

Allgemeine Verfahren

Verteilungen

Mittels der Verteilung einer Zufallsvariablen kann ein Wahrscheinlichkeitsmaß über eine Zufallsvariable in einen zweiten Messraum übertragen werden und erzeugt dort wieder eine entsprechend der Zufallsvariablen transformierte Wahrscheinlichkeitsverteilung. Dieses Vorgehen entspricht der Konstruktion eines Bildmaßes in der Maßtheorie und liefert viele wichtige Verteilungen wie beispielsweise die Binomialverteilung.

Normierung

Jedes endliche Maß, welches nicht das Null-Maß ist, kann durch Normierung in ein Wahrscheinlichkeitsmaß umgewandelt werden. Ebenso kann man ein σ-endliches Maß $\mu _{\sigma }\not \equiv 0$ in ein Wahrscheinlichkeitsmaß transformieren, dies ist aber nicht eindeutig. Ist $A_{n}$ eine Zerlegung des Grundraumes in Mengen endlichen Maßes wie in der Definition des σ-endlichen Maßes gefordert, so liefert beispielsweise

$P(A):=\sum_{n=1}^\infty \frac{1}{2^n} \frac{\mu_\sigma (A_n \cap A)}{\mu_\sigma(A_n)}$

das Geforderte.

Produktmaße

Eine wichtige Möglichkeit, Wahrscheinlichkeitsmaße auf großen Räumen zu definieren, sind die Produktmaße. Dabei bildet man das kartesische Produkt zweier Grundmengen und fordert, dass das Wahrscheinlichkeitsmaß auf dieser größeren Menge (auf gewissen Mengen) genau dem Produkt der Wahrscheinlichkeitsmaße auf den kleineren Mengen entspricht. Insbesondere unendliche Produktmaße sind wichtig für die Existenz stochastischer Prozesse.

Eindeutigkeit der Konstruktionen

Bei der Konstruktion von Wahrscheinlichkeitsmaßen werden diese häufig nur durch ihre Werte auf wenigen, besonders einfach zu handhabenden Mengen definiert. Beispiel hierfür ist die Konstruktion mittels einer Verteilungsfunktion, die nur die Wahrscheinlichkeiten der Intervalle $(-\infty ,a]$ vorgibt. Die Borelsche σ-Algebra enthält aber weitaus komplexere Mengen als diese Intervalle. Um die Eindeutigkeit der Definitionen zu garantieren, muss man zeigen, dass kein zweites Wahrscheinlichkeitsmaß existiert, das auf den Intervallen die geforderten Werte annimmt, sich aber auf einer weiteren, möglicherweise sehr komplexen Menge der Borelschen σ-Algebra von dem ersten Wahrscheinlichkeitsmaß unterscheidet. Dies leistet der folgende Maßeindeutigkeitssatz aus der Maßtheorie:

Ist ein Wahrscheinlichkeitsmaß auf der σ-Algebra $\Sigma$ und ist ${\mathcal E}$ ein durchschnittsstabiler Erzeuger dieser σ-Algebra, also $\sigma ({\mathcal {E}})=\Sigma$ , so ist bereits durch seine Werte auf ${\mathcal E}$ eindeutig bestimmt. Genauer: Ist $P^{*}$ ein weiteres Wahrscheinlichkeitsmaß und ist

$P|_{\mathcal {E}}=P^{*}|_{\mathcal {E}},$

so ist $P=P^{*}$ . Typische Erzeuger von σ-Algebren sind

für endliche oder abzählbar unendliche Mengen , versehen mit der Potenzmenge das Mengensystem der Elemente von , also

${\mathcal {E}}:=\{\{e\}\,|\,e\in M\}$ ,

für die Borelsche σ-Algebra ${\mathcal B}$ auf $\mathbb {R}$ das System der Intervalle

${\mathcal {E}}=\{I\,|\,I=(-\infty ,a]{\text{ für ein }}a\in \mathbb {R} \}$ ,

für die Produkt-σ-Algebra das System der Zylindermengen.

Diese Erzeuger liefern somit die Eindeutigkeit der Konstruktion von Wahrscheinlichkeitsmaßen mittels Wahrscheinlichkeitsfunktionen, Verteilungsfunktionen und Produktmaßen.

Typen von Wahrscheinlichkeitsverteilungen

Diskrete Verteilungen

→ Hauptartikel: Diskrete Wahrscheinlichkeitsverteilung

Verteilungsfunktion einer diskreten Verteilung

Als diskrete Verteilungen werden Wahrscheinlichkeitsverteilungen auf endlichen oder abzählbar unendlichen Grundräumen bezeichnet. Diese Grundräume werden fast immer mit der Potenzmenge als Mengensystem versehen, die Wahrscheinlichkeiten werden dann meist über Wahrscheinlichkeitsfunktionen definiert. Diskrete Verteilungen auf den natürlichen oder ganzen Zahlen können in den Messraum $(\mathbb{R} ,{\mathcal B}(\mathbb{R} ))$ eingebettet werden und besitzen dann auch eine Verteilungsfunktion. Diese zeichnet sich durch ihre Sprungstellen aus.

Stetige Verteilungen

→ Hauptartikel: Stetige Wahrscheinlichkeitsverteilung

Verteilungsfunktion einer stetigen Verteilung

Verteilungen auf den reellen Zahlen, versehen mit der borelschen σ-Algebra werden als stetige Verteilung bezeichnet, wenn sie stetige Verteilungsfunktionen besitzen. Die stetigen Verteilungen lassen sich noch in absolutstetige und stetigsinguläre Wahrscheinlichkeitsverteilungen unterteilen.

Absolutstetige Wahrscheinlichkeitsverteilungen

→ Hauptartikel: Absolutstetige Wahrscheinlichkeitsverteilung

Als absolutstetige Wahrscheinlichkeitsverteilungen bezeichnet man diejenigen Wahrscheinlichkeitsverteilungen, die eine Wahrscheinlichkeitsdichtefunktion besitzen, sich also in der Form

$P((-\infty ,x])=\int _{(-\infty ,x]}f_{P}\,\mathrm {d} \lambda$

darstellen lassen für eine integrierbare Funktion f_P . Hierbei handelt es sich um ein Lebesgue-Integral, das aber in den meisten Fällen durch ein Riemann-Integral ersetzt werden kann.

Diese Definition kann auch auf Verteilungen auf dem $\mathbb {R} ^{n}$ entsprechend ausgeweitet werden. Aus maßtheoretischer Sicht handelt es sich nach dem Satz von Radon-Nikodým bei den absolutstetigen Verteilungen genau um die absolutstetigen Maße bezüglich des Lebesgue-Maßes.

Stetigsinguläre Wahrscheinlichkeitsverteilungen

→ Hauptartikel: Stetigsinguläre Wahrscheinlichkeitsverteilung

Als stetigsinguläre Verteilungen werden diejenigen Wahrscheinlichkeitsverteilungen bezeichnet, die zwar eine stetige Verteilungsfunktion, aber keine Wahrscheinlichkeitsdichtefunktion besitzen. Stetigsinguläre Wahrscheinlichkeitsverteilungen sind in der Anwendung selten und werden meist gezielt konstruiert. Beispiel hierfür ist das pathologische Beispiel der Cantor-Verteilung.

Mischformen und ihre Zerlegung

Verteilungsfunktion einer weder diskreten noch stetigen Verteilung

Außer den oben genannten Reinformen von Wahrscheinlichkeitsverteilungen existieren noch Mischformen. Diese entstehen beispielsweise, wenn man Konvexkombinationen von diskreten und stetigen Verteilungen bildet.

Umgekehrt kann man nach dem Darstellungssatz jede Wahrscheinlichkeitsverteilung eindeutig in ihre absolutstetigen, stetigsingulären und diskreten Anteile zerlegt werden.

Univariate und multivariate Verteilungen

Wahrscheinlichkeitsverteilungen, die sich in mehrere Raumdimensionen erstrecken, werden multivariate Verteilungen genannt. Im Gegensatz dazu nennt man die eindimensionalen Verteilungen univariate Wahrscheinlichkeitsverteilungen. Die Dimensionalität bezieht sich hier nur auf den Grundraum, nicht auf die Parameter, welche die Wahrscheinlichkeitsverteilung beschreiben. So ist die (gewöhnliche) Normalverteilung eine univariate Verteilung, auch wenn sie durch zwei Formparameter $\mu ,\sigma ^{2}$ bestimmt wird.

Des Weiteren existieren noch matrixvariate Wahrscheinlichkeitsverteilungen wie die Wishart-Verteilung.

Charakterisierung durch Kennzahlen

Wahrscheinlichkeitsverteilungen können unterschiedliche Kennzahlen zugeordnet werden. Diese versuchen jeweils, eine Eigenschaft einer Wahrscheinlichkeitsverteilung zu quantifizieren und damit kompakte Aussagen über die Eigenheiten der Verteilung zu ermöglichen. Beispiele hierfür sind:

Kennzahlen, die auf den Momenten beruhen:

Erwartungswert, die Kennzahl für die mittlere Lage einer Wahrscheinlichkeitsverteilung
Varianz und die daraus berechnete Standardabweichung, Kennzahl für den Grad der „Streuung“ der Verteilung
Schiefe, Kennzahl für die Asymmetrie der Verteilung
Wölbung, Kennzahl für die „Spitzigkeit“ der Verteilung

Des Weiteren gibt es

den Median, der sich über die verallgemeinerte inverse Verteilungsfunktion berechnen lässt
allgemeiner die Quantile, beispielsweise die Terzile, Quartile, Dezile etc.

Allgemein unterscheidet man zwischen Lagemaßen und Dispersionsmaßen. Lagemaße wie der Erwartungswert geben an, „wo“ sich die Wahrscheinlichkeitsverteilung befindet und was „typische“ Werte sind, Dispersionsmaße wie die Varianz hingegen geben an, wie sehr die Verteilung um diese typischen Werte streut.

Wichtige Wahrscheinlichkeitsmaße

Diskret

Eine der elementaren Wahrscheinlichkeitsverteilungen ist die Bernoulli-Verteilung. Sie modelliert einen Münzwurf mit einer möglicherweise gezinkten Münze. Dementsprechend gibt es zwei Ausgänge: Kopf oder Zahl, häufig der Einfachheit halber mit 0 und 1 codiert. Darauf aufbauend ist die Binomialverteilung. Sie gibt die Wahrscheinlichkeit an, bei n Würfen mit einer Münze k-mal Kopf zu werfen.

Eine weitere wichtige Wahrscheinlichkeitsverteilung ist die diskrete Gleichverteilung. Sie entspricht dem Würfeln mit einem fairen, n-flächigen Würfel. Jede Fläche hat demnach dieselbe Wahrscheinlichkeit. Ihr Bedeutung kommt daher, dass sich aus der diskreten Gleichverteilung über das Urnenmodell eine große Anzahl weiterer Wahrscheinlichkeitsverteilungen als Verteilung von entsprechenden Zufallsvariablen erzeugen lassen. Auf diese Weise lassen sich beispielsweise die hypergeometrische Verteilung, die geometrische Verteilung und die negative Binomialverteilung erzeugen.

Stetig

Herausragend unter den stetigen Verteilungen ist die Normalverteilung. Diese Sonderstellung ist auf den zentralen Grenzwertsatz zurückzuführen. Er besagt, dass unter gewissen Umständen eine Überlagerung zufälliger Ereignisse sich immer mehr der Normalverteilung annähert. Dementsprechend wichtig ist die Normalverteilung in der Statistik. Direkt aus ihr abgeleitet sind die Chi-Quadrat-Verteilung und die Studentsche t-Verteilung, die zur Parameterschätzung in der Statistik verwendet werden.

Verteilungsklassen

→ Hauptartikel: Verteilungsklasse

Als Verteilungsklassen bezeichnet man eine Menge von Wahrscheinlichkeitsmaßen, die sich durch eine gemeinsame, mehr oder weniger allgemein formulierte Eigenschaft auszeichnen. Eine zentrale Verteilungsklasse in der Statistik ist die Exponentialfamilie, sie zeichnet sich durch eine allgemeine Dichtefunktion aus. Wichtige Verteilungsklassen in der Stochastik sind beispielsweise die unendlich teilbaren Verteilungen oder die alpha-stabilen Verteilungen.

Konvergenz von Wahrscheinlichkeitsmaßen

Die Konvergenz von Wahrscheinlichkeitsmaßen wird Konvergenz in Verteilung oder schwache Konvergenz genannt. Dabei betont die Benennung als

Konvergenz in Verteilung, dass es sich um die Konvergenz von Verteilungen von Zufallsvariablen handelt,
schwache Konvergenz, dass es sich um einen Spezialfall der schwachen Konvergenz von Maßen aus der Maßtheorie handelt.

Meist wird die Konvergenz in Verteilung als Bezeichnung bevorzugt, da dies einen besseren Vergleich mit den Konvergenzarten der Stochastik (Konvergenz in Wahrscheinlichkeit, Konvergenz im p-ten Mittel und fast sichere Konvergenz) ermöglicht, die alle Konvergenzarten von Zufallsvariablen und nicht von Wahrscheinlichkeitsmaßen sind.

Es existieren viele äquivalente Charakterisierungen der schwachen Konvergenz / Konvergenz in Verteilung. Diese werden im Portmanteau-Theorem aufgezählt.

Auf den reellen Zahlen

Die Konvergenz in Verteilung wird auf den reellen Zahlen über die Verteilungsfunktionen definiert:

Eine Folge von Wahrscheinlichkeitsmaßen $P_{1},P_{2},\dots$ konvergiert genau dann schwach gegen das Wahrscheinlichkeitsmaß , wenn die Verteilungsfunktionen $F_{P_{1}},F_{P_{2}},\dots$ an jeder Stetigkeitsstelle der Verteilungsfunktion $F_{P}$ punktweise gegen diese konvergieren.
Eine Folge von Zufallsvariablen $X_{1},X_{2},\dots$ heißt konvergent in Verteilung gegen , wenn die Verteilungsfunktionen $F_{X_{1}},F_{X_{2}},\dots$ an jeder Stetigkeitsstelle der Verteilungsfunktion $F_{X}$ punktweise gegen diese konvergieren.

Diese Charakterisierung der schwachen Konvergenz / Konvergenz in Verteilung ist eine Folgerung aus dem Satz von Helly-Bray, wird aber oft als Definition genutzt, da sie leichter zugänglich ist als die allgemeine Definition. Die obige Definition entspricht der schwachen Konvergenz von Verteilungsfunktionen für den Spezialfall von Wahrscheinlichkeitsmaßen, wo sie der Konvergenz bezüglich des Lévy-Abstandes entspricht. Der Satz von Helly-Bray liefert die Äquivalenz der schwachen Konvergenz von Verteilungsfunktionen und der schwachen Konvergenz / Konvergenz in Verteilung auf $\mathbb {R}$ .

Allgemeiner Fall

Im allgemeinen Fall wird die schwache Konvergenz / Konvergenz in Verteilung durch eine trennende Familie charakterisiert. Ist $(\Omega ,d)$ ein metrischer Raum, sei als σ-Algebra immer die Borelsche σ-Algebra gewählt und sei $C_{b}(\Omega )$ die Menge der beschränkten stetigen Funktionen. Dann heißt

eine Folge von Wahrscheinlichkeitsmaßen $(P_{n})_{n\in \mathbb {N} }$ schwach konvergent gegen das Wahrscheinlichkeitsmaß , wenn

$\lim _{n\to \infty }\int _{\Omega }f\mathrm {d} P_{n}=\int _{\Omega }f\mathrm {d} P{\text{ für alle }}f\in C_{b}(\Omega ),$

eine Folge von Zufallsvariablen $(X_{n})_{{n\in \mathbb{N} }}$ konvergent in Verteilung gegen , wenn

$\lim _{n\to \infty }\operatorname {E} (f\circ X_{n})=\operatorname {E} (f\circ X){\text{ für alle }}f\in C_{b}(\Omega ).$

Meist werden noch weitere strukturelle Eigenschaften von der Grundmenge gefordert, um gewisse Eigenschaften der Konvergenz zu garantieren.

Räume von Wahrscheinlichkeitsmaßen

Die Eigenschaften der Menge von Wahrscheinlichkeitsmaßen hängen maßgeblich von den Eigenschaften des Grundraumes und der σ-Algebra ab. Im Folgenden wird eine Übersicht über die wichtigsten Eigenschaften der Menge der Wahrscheinlichkeitsmaße gegeben. Dabei sind die allgemeinsten Eigenschaften zuerst genannt und folgen, soweit nicht explizit anders erwähnt, auch für alle weiter unten stehenden Abschnitte. Als Notation sei vereinbart:

${\mathcal B}$ ist die Borelsche σ-Algebra, falls $\Omega$ mindestens ein topologischer Raum ist.
${\mathcal {M}}_{f}(\Omega ,\Sigma )$ ist die Menge der endlichen signierten Maße auf dem Messraum $(\Omega ,\Sigma )$ .
${\mathcal {M}}_{f}^{+}(\Omega ,\Sigma )$ ist die Menge der endlichen Maße auf dem entsprechenden Messraum.
${\mathcal {M}}_{\leq 1}^{+}(\Omega ,\Sigma )$ ist die Menge der Sub-Wahrscheinlichkeitsmaße auf dem entsprechenden Messraum.
${\mathcal {M}}_{1}^{+}(\Omega ,\Sigma )$ ist die Menge der Wahrscheinlichkeitsmaße auf dem entsprechenden Messraum.

Allgemeine Grundräume

Auf allgemeinen Mengen sind die Wahrscheinlichkeitsmaße eine Teilmenge des reellen Vektorraumes der endlichen signierten Maße. Es gelten demnach die Inklusionen

${\mathcal {M}}_{1}^{+}(\Omega ,\Sigma )\subset {\mathcal {M}}_{\leq 1}^{+}(\Omega ,\Sigma )\subset {\mathcal {M}}_{f}^{+}(\Omega ,\Sigma )\subset {\mathcal {M}}_{f}(\Omega ,\Sigma )$ .

Der Vektorraum der endlichen signierten Maße wird mit der Totalvariationsnorm $\|\cdot \|_{TV}$ zu einem normierten Vektorraum. Da die Wahrscheinlichkeitsmaße aber nur eine Teilmenge und kein Untervektorraum der signierten Maße sind, sind sie selbst kein normierter Raum. Anstelle dessen werden sie mit dem Totalvariationsabstand

$d_{TV}(P_{1},P_{2}):=\|P_{1}-P_{2}\|_{TV}$

zu einem metrischen Raum. Ist ${\mathcal {D}}\subset {\mathcal {M}}_{1}^{+}(\Omega ,\Sigma )$ eine dominierte Verteilungsklasse, besitzen also alle Maße in dieser Menge eine Wahrscheinlichkeitsdichtefunktion bezüglich eines einzigen σ-endlichen Maßes, so ist die Konvergenz bezüglich des Totalvariationsabstandes äquivalent zur Konvergenz bezüglich des Hellingerabstandes.

Metrische Räume

Ist $\Omega$ ein metrischer Raum, so lässt sich auf ${\mathcal {M}}_{f}^{+}(\Omega ,{\mathcal {B}})$ die schwache Konvergenz definieren. Bezeichnet man die von der schwachen Konvergenz erzeugten Topologie mit $\tau _{f}$ und die entsprechenden Spurtopologie auf den Wahrscheinlichkeitsmaßen als $\tau _{1}$ , so wird $({\mathcal {M}}_{1}^{+}(\Omega ,{\mathcal {B}}),\tau _{1})$ zu einem topologischen Raum, der sogar ein Hausdorff-Raum ist. Außerdem sind Limites schwach konvergenter Folgen von Wahrscheinlichkeitsmaßen immer selbst Wahrscheinlichkeitsmaße (setze dazu $f\equiv 1$ in der Definition). Die Konvergenz bezüglich des Totalvariationsabstandes impliziert immer die schwache Konvergenz, die Umkehrung gilt aber im Allgemeinen nicht. Somit ist die vom Totalvariationsabstand erzeugte Topologie $\tau _{TV}$ stärker als $\tau _{1}$ .

Des Weiteren lässt sich noch die Prochorow-Metrik $d_{P}$ auf ${\mathcal {M}}_{1}^{+}(\Omega ,{\mathcal {B}})$ definieren. Sie macht $({\mathcal {M}}_{1}^{+}(\Omega ,{\mathcal {B}}),d_{P})$ zu einem metrischen Raum. Außerdem impliziert die Konvergenz bezüglich der Prochorow-Metrik in allgemeinen metrischen Räumen die schwache Konvergenz. Die von ihr erzeugte Topologie ist demnach stärker als $\tau _{1}$ .

Separable metrische Räume

Ist $\Omega$ ein separabler metrischer Raum, so ist auch $({\mathcal {M}}_{f}^{+}(\Omega ,{\mathcal {B}}),d_{P})$ ein separabler metrischer Raum (tatsächlich gilt auch der Umkehrschluss). Da sich bei metrischen Räumen die Separabilität auf Teilmengen überträgt, ist auch ${\mathcal {M}}_{1}^{+}(\Omega ,{\mathcal {B}})$ separabel.

Außerdem sind auf separablen metrischen Räumen die schwache Konvergenz und die Konvergenz bezüglich der Prochorow-Metrik äquivalent. Die Prochorow-Metrik metrisiert also $\tau _{1}$ .

Polnische Räume

Ist $\Omega$ ein polnischer Raum, so ist auch $({\mathcal {M}}_{f}^{+}(\Omega ,{\mathcal {B}}),d_{P})$ ein polnischer Raum. Da ${\mathcal {M}}_{1}^{+}(\Omega ,{\mathcal {B}})$ abgeschlossen ist in ${\mathcal {M}}_{f}^{+}(\Omega ,{\mathcal {B}})$ , ist auch ${\mathcal {M}}_{1}^{+}(\Omega ,{\mathcal {B}})$ ein polnischer Raum.

Basierend auf einem Artikel in:

Wikipedia.de