Das Simpson-Paradoxon (auch simpsonsches Paradoxon oder Simpson’sches Paradoxon, benannt nach Edward Hugh Simpson) ist ein Paradoxon aus der Statistik. Dabei scheint es, dass die Bewertung verschiedener Gruppen unterschiedlich ausfällt, je nachdem ob man die Ergebnisse der Gruppen kombiniert oder nicht. Dieses Phänomen tritt oft bei statistischen Auswertungen in den Sozialwissenschaften und in der Medizin auf. Das Simpson-Paradoxon ist möglich, wenn mehrere Vierfeldertafeln mit einem Chancenquotienten kleiner (größer) als 1 zu einer Gesamttafel zusammengefasst werden, die einen Chancenquotienten größer (kleiner) als 1 aufweist.
Edward Hugh Simpson beschrieb das Phänomen 1951.[1] Er war aber nicht der Erste, der sich damit beschäftigte. So beschrieben bereits 1899 Karl Pearson et al.[2] und 1903 George Udny Yule[3] einen ähnlichen Sachverhalt. Die Bezeichnung Simpson-Paradoxon (englisch Simpson′s Paradox) wurde vermutlich 1972 von Colin R. Blyth eingeführt.[4]
Eine Fahrschule hat zwei Prüfungstage mit folgenden Ergebnissen:
männlich | weiblich | |||||
---|---|---|---|---|---|---|
bestanden | gesamt | Durchfallquote | bestanden | gesamt | Durchfallquote | |
1. Tag | 1 | 1 | 0 % | 7 | 8 | 12,5 % |
2. Tag | 2 | 3 | 33,3 % | 1 | 2 | 50 % |
Summe | 3 | 4 | 25 % | 8 | 10 | 20 % |
Obwohl die Männer an beiden Tagen eine geringere Durchfallquote als die Frauen haben, haben sie im Gesamtergebnis eine höhere.
Ursache ist der Umstand, dass die Einzelergebnisse mit unterschiedlichem Gewicht in das Gesamtergebnis eingehen. Das erkennt man leicht in der zahlenmäßig zugespitzten Variante der obigen Tabelle, die nachfolgend wiedergegeben wird:
männlich | weiblich | |||||
---|---|---|---|---|---|---|
bestanden | gesamt | Durchfallquote | bestanden | gesamt | Durchfallquote | |
1. Tag | 1 | 1 | 0 % | 999 | 1000 | 0,1 % |
2. Tag | 2 | 3 | 33,3 % | 1 | 2 | 50 % |
Summe | 3 | 4 | 25 % | 1000 | 1002 | 0,2 % |
Einer der bekanntesten Fälle des Simpson-Paradoxons tauchte auf, als die University of California, Berkeley verklagt wurde, weil Frauen offenbar geringere Chancen auf einen Graduierten-Studienplatz hätten als männliche Bewerber. Die Zahlen für Herbst 1973 zeigten, dass mehr Männer als Frauen zugelassen wurden – die Differenz war so groß, dass sie nicht mehr durch Zufall zu erklären war:
Bewerber | zugelassen | |
---|---|---|
Männer | 8442 | 44 % |
Frauen | 4321 | 35 % |
Ein Mann hat also eine 44-prozentige Chance, zum Studium zugelassen zu werden, eine Frau aber nur eine 35-prozentige.
Die Aufschlüsselung nach Fakultäten zeigte allerdings, dass Frauen kaum in bedeutender Weise diskriminiert wurden. Von 101 Departements der Universität hatten 16 nur erfolgreiche Bewerber, oder nur Bewerber des einen Geschlechts. Bei den übrigen 85 Departements ergab sich dieses Bild:
Ein Chi-Quadrat-Test zeigt eindrücklich, dass sich die Bewerbungen von Frauen und Männern von vorneherein nicht zufällig auf die 101 Departements verteilten (χ = 3091; p < 0,0001).
Dies führte zur Erklärung, dass keine Diskriminierung stattfand, sondern dass Frauen sich tendenziell dort bewarben, wo es für beide Geschlechter niedrigere Zulassungsraten gab, während Männer ihre Bewerbungen tendenziell dorthin sandten, wo es generell höhere Zulassungsraten gab. Die vorher angenommenen 44 gegenüber 35 Prozent bei den Erfolgsquoten lässt völlig außer acht, dass unterschiedliche Geschlechter auch unterschiedliche Vorlieben darin haben, bei welchem Departement sie sich um ein Studium bewerben – und dann geschlechtsunabhängig unterschiedliche Erfolgsquoten zu spüren bekommen.[5]
Liegen je nach Beurteilungsweise deutlich unterschiedliche Ergebnisse vor, kann dies auf nicht erfasste Einflussfaktoren zurückgeführt werden. Will der Auswertende mögliche Fehlschlüsse vermeiden, muss er diese Einflussfaktoren finden, soweit sie vorhanden sind. Das Vorliegen eines Simpson-Paradoxons kann hier als Indikator dienen.
Eine Methode für die Suche nach weiteren Einflussfaktoren ist die getrennte Auswertung von Teilgruppen, bei denen man spezifisches Verhalten erwartet, zum Beispiel das Krankheitsstadium der Patienten. Im obigen Beispiel aus Berkeley wären dies die Teilgruppen Departements mit niedrigen Zulassungsraten und Departements mit hohen Zulassungsraten.