Satz von Bayes - LinkFang.de





Satz von Bayes


Der Satz von Bayes ist ein mathematischer Satz aus der Wahrscheinlichkeitstheorie, der die Berechnung bedingter Wahrscheinlichkeiten beschreibt. Er ist nach dem englischen Mathematiker Thomas Bayes benannt, der ihn erstmals in einem Spezialfall in der 1763 posthum veröffentlichten Abhandlung An Essay Towards Solving a Problem in the Doctrine of Chances beschrieb. Er wird auch Formel von Bayes oder (als Lehnübersetzung) Bayes-Theorem genannt.

Formel

Für zwei Ereignisse [math]A[/math] und [math]B[/math] mit [math]P(B) \gt 0[/math] lässt sich die Wahrscheinlichkeit von [math]A[/math] unter der Bedingung, dass [math]B[/math] eingetreten ist, durch die Wahrscheinlichkeit von [math]B[/math] unter der Bedingung, dass [math]A[/math] eingetreten ist, errechnen:

[math]P(A\mid B) \; = \; \frac {P(B\mid A) \cdot P(A)} {P(B)}[/math].

Hierbei ist

[math]P(A\mid B)[/math] die (bedingte) Wahrscheinlichkeit des Ereignisses [math]A[/math] unter der Bedingung, dass [math]B[/math] eingetreten ist,
[math]P(B\mid A)[/math] die (bedingte) Wahrscheinlichkeit des Ereignisses [math]B[/math] unter der Bedingung, dass [math]A[/math] eingetreten ist,
[math]P(A)[/math] die A-priori-Wahrscheinlichkeit des Ereignisses [math]A[/math] und
[math]P(B)[/math] die A-priori-Wahrscheinlichkeit des Ereignisses [math]B[/math].

Bei endlich vielen Ereignissen lautet der Satz von Bayes:

Wenn [math]A_{i},\; i = 1, \dotsc, N[/math] eine Zerlegung der Ergebnismenge in disjunkte Ereignisse ist, gilt für die A-posteriori-Wahrscheinlichkeit [math]P(A_i \mid B)[/math]

[math] P(A_i \mid B) \; = \; \frac{P(B\mid A_i) \cdot P(A_i)}{P(B)} \; = \; \frac{P\left(B\mid A_i\right)\cdot P(A_i)}{\sum_{j=1} ^{N} P\left(B\mid A_j\right) \cdot P(A_j)} [/math].

Den letzten Umformungsschritt bezeichnet man auch als Marginalisierung.

Da ein Ereignis [math]A[/math] und sein Komplement [math]A^c[/math] stets eine Zerlegung der Ergebnismenge darstellen, gilt insbesondere

[math] P(A \mid B) \; = \; \frac{P(B \mid A) \cdot P(A)}{P(B \mid A) \cdot P(A) + P(B \mid A^c) \cdot P(A^c)}[/math].

Des Weiteren gilt der Satz auch für eine Zerlegung des Grundraumes [math] \Omega [/math] in abzählbar viele paarweise disjunkte Ereignisse.

Beweis

Der Satz folgt unmittelbar aus der Definition der bedingten Wahrscheinlichkeit:

[math]P\left(A\mid B\right) \; = \; \frac{P(A \cap B)}{P(B)} \; = \; \frac{\frac{P(A\cap B)}{P(A)} \cdot P(A)}{P(B)} \; = \; \frac{P\left(B\mid A\right)\cdot P(A)}{P\left(B\right)}[/math].

Die Beziehung

[math]P(B)\; = \; \sum_{j=1}^N P\left(A_j\cap B\right) \; = \; {\sum_{j=1}^{N} P\left(B\mid A_j\right)\cdot P\left(A_j\right)}[/math]

ist eine Anwendung des Gesetzes der totalen Wahrscheinlichkeit.

Interpretation

Der Satz von Bayes erlaubt in gewissem Sinn das Umkehren von Schlussfolgerungen: Man geht von einem bekannten Wert [math]P(B \mid A)[/math] aus, ist aber eigentlich an dem Wert [math]P(A \mid B)[/math] interessiert. Beispielsweise ist es von Interesse, wie groß die Wahrscheinlichkeit ist, dass jemand eine bestimmte Krankheit hat, wenn ein dafür entwickelter Schnelltest ein positives Ergebnis zeigt. Aus empirischen Studien kennt man in der Regel die Wahrscheinlichkeit dafür, mit der der Test bei einer von dieser Krankheit befallenen Person zu einem positiven Ergebnis führt. Die gewünschte Umrechnung ist nur dann möglich, wenn man die Prävalenz der Krankheit kennt, das heißt die (absolute) Wahrscheinlichkeit, mit der die betreffende Krankheit in der Gesamtpopulation auftritt (siehe Rechenbeispiel 2).

Für das Verständnis kann ein Entscheidungsbaum oder eine Vierfeldertafel helfen. Das Verfahren ist auch als Rückwärtsinduktion bekannt.

Mitunter begegnet man dem Fehlschluss, direkt von [math]P(B \mid A)[/math] auf [math]P(A \mid B)[/math] schließen zu wollen, ohne die A-priori-Wahrscheinlichkeit [math]P(A)[/math] zu berücksichtigen, beispielsweise indem angenommen wird, die beiden bedingten Wahrscheinlichkeiten müssten ungefähr gleich groß sein (siehe Prävalenzfehler). Wie der Satz von Bayes zeigt, ist das aber nur dann der Fall, wenn auch [math]P(A)[/math] und [math]P(B)[/math] ungefähr gleich groß sind.

Ebenso ist zu beachten, dass bedingte Wahrscheinlichkeiten für sich allein nicht dazu geeignet sind, eine bestimmte Kausalbeziehung nachzuweisen.

Anwendungsgebiete

Rechenbeispiel 1

In den beiden Urnen A und B befinden sich jeweils zehn Kugeln. In A sind sieben rote und drei weiße Kugeln, in B eine rote und neun weiße. Es wird nun eine beliebige Kugel aus einer zufällig gewählten Urne gezogen. Anders ausgedrückt: Ob aus Urne A oder B gezogen wird, ist a priori gleich wahrscheinlich. Das Ergebnis der Ziehung ist: Die Kugel ist rot. Gesucht ist die Wahrscheinlichkeit, dass diese rote Kugel aus Urne A stammt.

Es sei

[math]A[/math] das Ereignis „Die Kugel stammt aus Urne A“,
[math]B[/math] das Ereignis „Die Kugel stammt aus Urne B“ und
[math]R[/math] das Ereignis „Die Kugel ist rot“.

Dann gilt:

[math]P(A) = P(B) = {1 \over 2}[/math]  (beide Urnen sind a priori gleich wahrscheinlich)

[math]P(R \mid A) = {7 \over 10}[/math]  (in Urne A sind 10 Kugeln, davon 7 rote)

[math]P(R \mid B) = {1 \over 10}[/math]  (in Urne B sind 10 Kugeln, davon 1 rote)

[math]P(R) = P(R \mid A) \cdot P(A) + P(R \mid B) \cdot P(B) = {7 \over 10} \cdot {1 \over 2} + {1 \over 10} \cdot {1 \over 2} = {2 \over 5}[/math]  (totale Wahrscheinlichkeit, eine rote Kugel zu ziehen)

Damit ist [math]P(A \mid R) = \frac {P(R \mid A) \cdot P(A)} {P(R)} = {{{7 \over 10} \cdot {1 \over 2}} \over {2 \over 5}} = { 7 \over 8 }[/math] .

Die bedingte Wahrscheinlichkeit, dass die gezogene rote Kugel aus der Urne A gezogen wurde, beträgt also [math]\tfrac{7}{8} = 87{,}5\;\%[/math].

Das Ergebnis der Bayes-Formel in diesem einfachen Beispiel kann leicht anschaulich eingesehen werden: Da beide Urnen a priori mit der gleichen Wahrscheinlichkeit ausgewählt werden und sich in beiden Urnen gleich viele Kugeln befinden, haben alle Kugeln – und damit auch alle acht roten Kugeln – die gleiche Wahrscheinlichkeit, gezogen zu werden. Wenn man wiederholt eine Kugel aus einer zufälligen Urne zieht und wieder in die richtige Urne zurücklegt, wird man im Durchschnitt in acht von 20 Fällen eine rote und in zwölf von 20 Fällen eine weiße Kugel ziehen (deshalb ist auch die totale Wahrscheinlichkeit, eine rote Kugel zu ziehen, gleich [math]\tfrac{8}{20} = \tfrac{2}{5}[/math]). Von diesen acht roten Kugeln kommen im Mittel sieben aus Urne A und eine aus Urne B. Die Wahrscheinlichkeit, dass eine gezogene rote Kugel aus Urne A stammt, ist daher gleich [math]\tfrac{7}{8}[/math].

Rechenbeispiel 2

Eine bestimmte Krankheit tritt mit einer Prävalenz von 20 pro 100.000 Personen auf. Der Sachverhalt [math]K[/math], dass ein Mensch diese Krankheit in sich trägt, hat also die Wahrscheinlichkeit [math]P(K) = 0{,}0002[/math].

Ist ein Screening der Gesamtbevölkerung ohne Rücksicht auf Risikofaktoren oder Symptome geeignet, Träger dieser Krankheit zu ermitteln? Es würden dabei weit überwiegend Personen aus dem Komplement [math]K^c[/math] von [math]K[/math] getestet, also Personen, die diese Krankheit nicht in sich tragen: Die Wahrscheinlichkeit, dass eine zu testende Person nicht Träger der Krankheit ist, beträgt [math]P(K^c) = 1 - P(K) = 0,9998[/math].

[math]T[/math] bezeichne die Tatsache, dass der Test bei einer Person „positiv“ ausgefallen ist, also die Krankheit anzeigt. Es sei bekannt, dass der Test [math]K[/math] mit 95 % Wahrscheinlichkeit anzeigt (Sensitivität [math]= P(T\mid K) = 0{,}95[/math]), aber manchmal auch bei Gesunden anspricht, d.h. ein falsch positives Testergebnis liefert, und zwar mit einer Wahrscheinlichkeit von [math]P(T\mid K^c) = 1 %[/math] (Spezifität [math]= 1 - P(T\mid K^c) = 1 - 0{,}01 = 0{,}99[/math]).

Nicht nur für die Eingangsfrage, sondern in jedem Einzelfall [math]T[/math], insbesondere vor dem Ergebnis weiterer Untersuchungen, interessiert die positiver prädiktiver Wert genannte bedingte Wahrscheinlichkeit [math]P(K \mid T)[/math], dass positiv Getestete Träger der Krankheit sind.

Berechnung mit dem Satz von Bayes

[math]P(K\mid T) = \frac{P(T\mid K)P(K)}{P(T\mid K)P(K) + P(T\mid K^c)P(K^c)}=\frac{0{,}95 \cdot 0{,}0002}{0{,}95 \cdot 0{,}0002 + 0{,}01 \cdot 0{,}9998}\approx 0{,}0186[/math].

Berechnung mittels Baumdiagramm

Probleme mit wenigen Klassen und einfachen Verteilungen lassen sich übersichtlich im Baumdiagramm für die Aufteilung der Häufigkeiten darstellen. Geht man von den Häufigkeiten auf relative Häufigkeiten bzw. auf (bedingte) Wahrscheinlichkeiten über, wird aus dem Baumdiagramm ein Ereignisbaum, ein Sonderfall des Entscheidungsbaums.

Den obigen Angaben folgend ergeben sich als absolute Häufigkeit bei 100.000 Personen 20 tatsächlich erkrankte Personen, 99.980 Personen sind gesund. Der Test diagnostiziert bei den 20 kranken Personen in 19 Fällen (95 Prozent Sensitivität) korrekt die Erkrankung. In einem Fall versagt der Test und zeigt die vorliegende Krankheit nicht an (falsch negativ). Bei wahrscheinlich 1000 der 99.980 gesunden Personen zeigt der Test fälschlicherweise eine Erkrankung an. Von den insgesamt 1.019 positiv getesteten Personen sind also nur 19 tatsächlich krank ([math]P(K\mid T) = \frac{19}{1019} \approx 0{,}0186[/math]).

Bedeutung des Ergebnisses

Der Preis, 19 Träger der Krankheit zu finden, möglicherweise rechtzeitig genug für eine Behandlung oder Isolation, besteht nicht nur in den Kosten für 100.000 Tests, sondern auch in den unnötigen Ängsten und womöglich Behandlungen von 1000 falsch positiv Getesteten. Obige Frage ist also zu verneinen.

Ohne Training in der Interpretation statistischer Aussagen werden Risiken oft falsch eingeschätzt oder vermittelt. Der Psychologe Gerd Gigerenzer spricht von Innumeracy im Umgang mit Unsicherheit und plädiert für eine breit angelegte didaktische Offensive.[1]

Bayessche Statistik

Hauptartikel: Bayessche Statistik

Die Bayessche Statistik verwendet der Satz von Bayes im Rahmen der induktiven Statistik zur Schätzung von Parametern und zum Testen von Hypothesen.

Problemstellung

Folgende Situation sei gegeben: [math]\vartheta[/math] ist ein unbekannter Umweltzustand (z. B. ein Parameter einer Wahrscheinlichkeitsverteilung), der auf der Basis einer Beobachtung [math]x[/math] einer Zufallsvariable [math]X[/math] geschätzt werden soll. Weiterhin ist Vorwissen in Form einer A-priori-Wahrscheinlichkeitsverteilung des unbekannten Parameters [math]\vartheta[/math] gegeben. Diese A-priori-Verteilung enthält die gesamte Information über den Umweltzustand [math]\vartheta[/math], die vor der Beobachtung der Stichprobe gegeben ist.

Je nach Kontext und philosophischer Schule wird die A-priori-Verteilung verstanden

  • als mathematische Modellierung des subjektiven degrees of belief (subjektiver Wahrscheinlichkeitsbegriff),
  • als adäquate Darstellung des allgemeinen Vorwissens (wobei Wahrscheinlichkeiten als natürliche Erweiterung der aristotelischen Logik in Bezug auf Unsicherheit verstanden werden – Cox' Postulate),
  • als aus Voruntersuchungen bekannte Wahrscheinlichkeitsverteilung eines tatsächlich zufälligen Parameters oder
  • als eine spezifisch gewählte Verteilung, die auf ideale Weise mit Unwissen über den Parameter korrespondiert (objektive A-priori-Verteilungen, zum Beispiel mithilfe der Maximum-Entropie-Methode).

Die bedingte Verteilung von [math]X[/math] unter der Bedingung, dass [math]\vartheta[/math] den Wert [math]\vartheta_0[/math] annimmt, wird im Folgenden mit [math]f(x \mid \vartheta_0 )[/math] bezeichnet. Diese Wahrscheinlichkeitsverteilung kann nach Beobachtung der Stichprobe bestimmt werden und wird auch als Likelihood des Parameterwerts [math]\vartheta_0[/math] bezeichnet.

Die A-posteriori-Wahrscheinlichkeit [math]P(\vartheta =\vartheta_0 \mid x)[/math] kann mit Hilfe des Satzes von Bayes berechnet werden. Im Spezialfall einer diskreten A-priori-Verteilung erhält man:[2]

[math] P(\vartheta=\vartheta_0 \mid x) = \frac{f(x \mid \vartheta_0) \, P(\vartheta=\vartheta_0)}{\displaystyle\sum_{\vartheta' \in \Theta} f(x \mid \vartheta') \, P(\vartheta=\vartheta') }[/math]

Falls die Menge aller möglichen Umweltzustände endlich ist, lässt sich die A-posteriori-Verteilung im Wert [math]\vartheta_0[/math] als die Wahrscheinlichkeit interpretieren, mit der man nach Beobachtung der Stichprobe und unter Einbeziehung des Vorwissens den Umweltzustand [math]\vartheta_0[/math] erwartet.

Als Schätzwert verwendet ein Anhänger der subjektivistischen Schule der Statistik in der Regel den Erwartungswert der A-posteriori-Verteilung, in manchen Fällen auch den Modalwert.

Beispiel

Ähnlich wie oben werde wieder eine Urne betrachtet, die mit zehn Kugeln gefüllt ist, aber nun sei unbekannt, wie viele davon rot sind. Die Anzahl [math]\vartheta[/math] der roten Kugeln ist hier der unbekannte Umweltzustand und als dessen A-priori-Verteilung soll angenommen werden, dass alle möglichen Werte von null bis zehn gleich wahrscheinlich sein sollen, d. h. es gilt [math]P(\vartheta=\vartheta_0) = \tfrac{1}{11}[/math] für alle [math]\vartheta_0 \in \{0,1,\dotsc,10\}[/math].

Nun werde fünfmal mit Zurücklegen eine Kugel aus der Urne gezogen und [math]X[/math] bezeichne die Zufallsvariable, die angibt, wie viele davon rot sind. Unter der Annahme [math]\vartheta = \vartheta_0[/math] ist dann [math]X[/math] binomialverteilt mit den Parametern [math]n = 5[/math] und [math]p = \tfrac{\vartheta_0}{10}[/math], es gilt also

[math]f(x \mid \vartheta_0) = \binom{5}{x} \left(\frac{\vartheta_0}{10}\right)^x \left(1-\frac{\vartheta_0}{10}\right)^{5-x}[/math]

für [math]x \in \{0,1,\dotsc, 5\}[/math].

Beispielsweise für [math]x = 2[/math], d. h. zwei der fünf gezogenen Kugeln waren rot, ergeben sich die folgenden Werte (auf drei Nachkommastellen gerundet)

[math]\vartheta_0[/math] 0 1 2 3 4 5 6 7 8 9 10
[math]P(\vartheta = \vartheta_0)[/math] 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091 0.091
[math]P(\vartheta = \vartheta_0 \mid X = 2)[/math] 0.000 0.044 0.123 0.185 0.207 0.188 0.138 0.079 0.031 0.005 0.000

Man sieht, dass im Gegensatz zur A-priori-Verteilung in der zweiten Zeile, in der alle Werte von [math]\vartheta[/math] als gleich wahrscheinlich angenommen wurden, unter der A-posteriori-Verteilung in der dritten Zeile [math]\vartheta = 4[/math] die größte Wahrscheinlichkeit besitzt, das heißt der A-posteriori-Modus ist [math]4[/math].

Als Erwartungswert der A-posteriori-Verteilung ergibt sich hier:

[math]\sum_{\vartheta_0 = 0}^{10} \vartheta_0 \cdot P(\vartheta = \vartheta_0 \mid X = 2) \approx 4.287[/math].

Siehe auch

Literatur

Weblinks

 Wikibooks: einige Beispiele – Lern- und Lehrmaterialien

Einzelnachweise

  1. Gerd Gigerenzer: Das Einmaleins der Skepsis. Piper, Berlin 2014, ISBN 978-3-8270-7792-9 (Rezension des engl. Originals in NEJM ).
  2. Bernhard Rüger (1988), S. 152 ff.

Kategorien: Bayessche Statistik | Wahrscheinlichkeitsrechnung | Satz (Mathematik)

Quelle: Wikipedia - http://de.wikipedia.org/wiki/Satz von Bayes (Vollständige Liste der Autoren des Textes [Versionsgeschichte])    Lizenz: CC-by-sa-3.0

Änderungen: Alle Bilder mit den meisten Bildunterschriften wurden entfernt. Ebenso alle zu nicht-existierenden Artikeln/Kategorien gehenden internen Wikipedia-Links (Bsp. Portal-Links, Redlinks, Bearbeiten-Links). Entfernung von Navigationsframes, Geo & Normdaten, Mediadateien, gesprochene Versionen, z.T. ID&Class-Namen, Style von Div-Containern, Metadaten, Vorlagen, wie lesenwerte Artikel. Ansonsten sind keine Inhaltsänderungen vorgenommen worden. Weiterhin kann es durch die maschinelle Bearbeitung des Inhalts zu Fehlern gerade in der Darstellung kommen. Darum würden wir jeden Besucher unserer Seite darum bitten uns diese Fehler über den Support mittels einer Nachricht mit Link zu melden. Vielen Dank!

Stand der Informationen: August 201& - Wichtiger Hinweis: Da die Inhalte maschinell von Wikipedia übernommen wurden, ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.de nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein, bitten wir Sie darum uns per Support oder E-Mail zu kontaktieren. Wir werden uns dann innerhalb von spätestens 10 Tagen um Ihr Anliegen kümmern. Auch ohne Anliegen erfolgt mindestens alle drei Monate ein Update der gesamten Inhalte.