Kolmogorow-Smirnow-Test - LinkFang.de





Kolmogorow-Smirnow-Test


Der Kolmogorow-Smirnow-Test (KS-Test) (nach Andrei Nikolajewitsch Kolmogorow und Nikolai Wassiljewitsch Smirnow) ist ein statistischer Test auf Übereinstimmung zweier Wahrscheinlichkeitsverteilungen.

Mit seiner Hilfe kann anhand von Zufallsstichproben geprüft werden, ob

  • zwei Zufallsvariablen die gleiche Verteilung besitzen oder
  • eine Zufallsvariable einer zuvor angenommenen Wahrscheinlichkeitsverteilung folgt.

Im Rahmen des letzteren (Einstichproben-)Anwendungsproblems spricht man auch vom Kolmogorow-Smirnow-Anpassungstest (KSA-Test).

Konzeption

Die Konzeption soll anhand des Anpassungstests erläutert werden, wobei der Vergleich zweier Merkmale analog zu verstehen ist. Man betrachtet ein statistisches Merkmal [math]X[/math], dessen Verteilung in der Grundgesamtheit unbekannt ist. Die zweiseitig formulierten Hypothesen lauten dann:

Nullhypothese :

[math]\!\,H_0\colon F_X(x) = F_0(x)[/math]

(Die Zufallsvariable [math]X[/math] besitzt die Wahrscheinlichkeitsverteilung [math]F_0[/math].)

Alternativhypothese :

[math]H_1\colon F_X(x) \neq F_0(x)[/math]

(Die Zufallsvariable [math]X[/math] besitzt eine andere Wahrscheinlichkeitsverteilung als [math]F_0[/math].)

Der Kolmogorow-Smirnow-Test vergleicht die empirische Verteilungsfunktion [math]F_n[/math] mit [math]F_0[/math], mittels der Teststatistik

[math]d_n=\|F_n-F_0\|=\sup_x|F_n(x)-F_0(x)|,[/math]

wobei sup das Supremum bezeichnet.

Nach dem Gliwenko-Cantelli-Satz strebt die empirische Verteilung gleichmäßig gegen die Verteilungsfunktion von [math]X[/math] (also unter [math]H_0[/math] gegen [math]F_0[/math]). Unter [math]H_1[/math] sollte man also größere Werte bekommen als unter [math]H_0[/math]. Die Teststatistik ist unabhängig von der hypothetischen Verteilung [math]F_0[/math]. Ist der Wert der Teststatistik größer als der entsprechende tabellierte kritische Wert, so wird die Nullhypothese verworfen.

Vorgehensweise beim Einstichprobenproblem (Anpassungstest)

Von einer reellen Zufallsvariablen [math]X[/math] liegen [math]n[/math] Beobachtungswerte [math]x_i[/math] ([math]i=1,\dotsc,n[/math]) vor, wobei angenommen werde, dass diese bereits aufsteigend sortiert sind: [math]x_1 \leq x_2 \leq \dotsb \leq x_n[/math]. Von diesen Beobachtungen wird die relative Summenfunktion (Summenhäufigkeit, empirische Verteilungsfunktion) [math]S(x_i)[/math] ermittelt. Diese empirische Verteilung wird nun mit der entsprechenden hypothetischen Verteilung der Grundgesamtheit verglichen: Es wird der Wert der Wahrscheinlichkeitsverteilung an der Stelle [math]x_i[/math] bestimmt: [math]F_0(x_i)[/math]. Wenn [math]X[/math] tatsächlich dieser Verteilung gehorcht, müssten die beobachtete Häufigkeit [math]S(x_i)[/math] und die erwartete Häufigkeit [math]F_0(x_i)[/math] in etwa gleich sein.

Falls [math]F_0[/math] stetig ist, kann die Teststatistik auf folgende Weise berechnet werden: Es werden für jedes [math]i = 1,\dotsc,n[/math] die absoluten Differenzen

[math] d_{oi} = |S(x_i)-F_0(x_i)|~[/math]

und

[math] d_{ui} = |S(x_{i-1})-F_0(x_i)|~[/math]

berechnet, wobei [math]S(x_0):=0[/math] gesetzt wird. Es wird sodann die absolut größte Differenz [math]d_\mathrm{max}[/math] aus allen Differenzen [math]d_{oi}[/math], [math]d_{ui}[/math] ermittelt. Wenn [math]d_\mathrm{max}[/math] einen kritischen Wert [math]d_{\alpha}[/math] übersteigt, wird die Hypothese bei einem Signifikanzniveau [math]\alpha[/math] abgelehnt.

Bis [math]n=35[/math] liegen die kritischen Werte tabelliert vor.[1] Für größere [math]n[/math] können sie näherungsweise mit Hilfe der einfachen Formel [math]d_\alpha=\tfrac{\sqrt{-0{,}5\ln\left(\frac{\alpha}{2}\right)}}{\sqrt{n}} [/math] bestimmt werden.[2]

Alternativ lassen sich die kritischen Werte von [math]d_\mathrm{max}[/math] für [math]n\gt35[/math] auch mit Hilfe der unten folgenden tabellierten Formeln errechnen.

[math]\textbf{Signifikanzniveau}\text{ }\boldsymbol{\alpha}[/math] [math]\boldsymbol{d_\mathrm{max}}[/math]
[math]20{,}00\text{ }\%[/math] [math]\frac{1{,}073}{\sqrt{n}}[/math]
[math]10{,}00\text{ }\%[/math] [math]\frac{1{,}224}{\sqrt{n}}[/math]
[math]5{,}00\text{ }\%[/math] [math]\frac{1{,}358}{\sqrt{n}}[/math]
[math]2{,}00\text{ }\%[/math] [math]\frac{1{,}517}{\sqrt{n}}[/math]
[math]1{,}00\text{ }\%[/math] [math]\frac{1{,}628}{\sqrt{n}}[/math]
[math]0{,}10\text{ }\%[/math] [math]\frac{1{,}949}{\sqrt{n}}[/math]

Vorgehensweise beim Zweistichprobenproblem

Liegt nun zusätzlich zur obigen Zufallsvariablen [math]X[/math] eine entsprechende Zufallsvariable [math]Y[/math] vor (mit [math]m[/math] geordneten Werten [math]y_i[/math]), so kann durch den Zweistichprobentest überprüft werden, ob [math]X[/math] und [math]Y[/math] derselben Verteilungsfunktion folgen. Von beiden Beobachtungen werden die relativen Summenfunktionen [math]S_X(x_i)[/math] bzw. [math]S_Y(y_i)[/math] ermittelt. Diese werden nun analog zum Einstichprobentest anhand ihrer absoluten Differenzen verglichen:

[math] d(z) = |S_X(z)-S_Y(z)|~[/math]

und

[math] d_\mathrm{max} = \sup_z d(z)~[/math] .

Die Nullhypothese wird bei einem Signifikanzniveau [math]\alpha[/math] abgelehnt, falls [math]d_\mathrm{max}[/math] den kritischen Wert [math]d_\mathrm{krit}(\alpha,n,m)[/math] überschreitet. Für kleine Werte von [math]n[/math] und [math]m[/math] liegen die kritischen Werte tabelliert vor [3] [4]. Für große Werte von n und m wird die Nullhypothese abgelehnt, falls

[math]\sqrt{\frac{n m}{n + m}}d_\mathrm{max}\gtK_\alpha[/math]

wobei [math]K_\alpha[/math] für große [math]n[/math] und [math]m[/math] näherungsweise als [math]K_\alpha=\sqrt{\frac{\ln\left(\frac{2}{\alpha}\right)}{2}} [/math] berechnet werden kann.

Anwendungsbeispiele

  • Der Kolmogorow-Smirnow-Test kann zum Testen von Zufallszahlen genutzt werden, beispielsweise um zu prüfen, ob die Zufallszahlen einer bestimmten Verteilung (z.B. Gleichverteilung) folgen.
  • Einige (parametrische) statistische Verfahren setzen voraus, dass die untersuchten Variablen in der Grundgesamtheit normalverteilt sind. Der KSA-Test kann genutzt werden, um zu testen, ob diese Annahme verworfen werden muss oder (unter Beachtung des [math]\beta\,[/math]-Fehlers) beibehalten werden kann.

Zahlenbeispiel

In einem Unternehmen, das hochwertige Parfüms herstellt, wurde im Rahmen der Qualitätssicherung an einer Abfüllanlage die abgefüllte Menge für [math]n = 8[/math] Flakons gemessen. Es ist das Merkmal [math]x[/math]: Abgefüllte Menge in ml.

Es soll geprüft werden, ob noch die bekannten Parameter der Verteilung von [math]X[/math] gelten.

Zunächst soll bei einem Signifikanzniveau [math]\alpha = 0{,}05[/math] getestet werden, ob das Merkmal [math]X[/math] in der Grundgesamtheit überhaupt normalverteilt mit den bekannten Parametern [math]\mu=11[/math] und [math]\sigma^2=\sigma=1[/math] ist, also

[math]H_0: F(x) = F_0(x) = \Phi (x|11;1)[/math]

mit [math]\Phi[/math] als Normalverteilungssymbol. Es ergibt sich folgende Tabelle:

[math]i[/math] [math]x_i[/math] [math]S(x_i)[/math] [math]F_0(x_i)[/math] [math]S(x_{i-1}) - F_0(x_i)[/math] [math]S(x_i) - F_0(x_i)[/math]
[math]1[/math] [math]9{,}41[/math] [math]0{,}125[/math] [math]0{,}056[/math] [math]-0{,}056[/math] [math]0{,}069[/math]
[math]2[/math] [math]9{,}92[/math] [math]0{,}250[/math] [math]0{,}140[/math] [math]-0{,}015[/math] [math]0{,}110[/math]
[math]3[/math] [math]11{,}55[/math] [math]0{,}375[/math] [math]0{,}709[/math] [math]\mathbf{-0{,}459}[/math] [math]-0{,}334[/math]
[math]4[/math] [math]11{,}60[/math] [math]0{,}500[/math] [math]0{,}726[/math] [math]-0{,}351[/math] [math]-0{,}226[/math]
[math]5[/math] [math]11{,}73[/math] [math]0{,}625[/math] [math]0{,}767[/math] [math]-0{,}267[/math] [math]-0{,}142[/math]
[math]6[/math] [math]12{,}00[/math] [math]0{,}750[/math] [math]0{,}841[/math] [math]-0{,}216[/math] [math]-0{,}091[/math]
[math]7[/math] [math]12{,}06[/math] [math]0{,}875[/math] [math]0{,}855[/math] [math]-0{,}105[/math] [math]0{,}020[/math]
[math]8[/math] [math]13{,}02[/math] [math]1{,}000[/math] [math]0{,}978[/math] [math]-0{,}103[/math] [math]0{,}022[/math]

Hier bezeichnen [math]x_i[/math] die [math]i[/math]-te Beobachtung, [math]S(x_i)[/math] den Wert der Summenfunktion der [math]i[/math]-ten Beobachtung und [math]F_0(x_i)[/math] den Wert der Normalverteilungsfunktion an der Stelle [math]x_i[/math] mit den genannten Parametern. Die nächsten Spalten geben die oben angeführten Differenzen an. Der kritische Wert, der bei [math]n = 8[/math] und [math]\alpha=0{,}05[/math] zur Ablehnung führte, wäre der Betrag [math]0{,}457[/math].[1] Die größte absolute Abweichung in der Tabelle ist [math]0{,}459[/math] in der 3. Zeile. Dieser Wert ist größer als der kritische Wert, daher wird die Hypothese gerade noch abgelehnt. Es ist also zu vermuten, dass die Verteilungshypothese falsch ist. Das kann bedeuten, dass die abgefüllte Menge nicht mehr normalverteilt ist, dass sich die durchschnittliche Abfüllmenge [math]\mu[/math] verschoben hat oder auch, dass sich die Varianz [math]\sigma^2[/math] der Abfüllmenge verändert hat.

Eigenschaften des KS-Tests

Beim Einstichprobenproblem ist der KS-Test im Gegensatz etwa zum [math]\chi^2[/math]-Test auch für kleine Stichproben geeignet.[5]

Der Kolmogorow-Smirnow-Test ist als nichtparametrischer Test sehr stabil und unanfällig. Ursprünglich wurde der Test für stetig verteilte metrische Merkmale entwickelt; er kann aber auch für diskrete und sogar rangskalierte Merkmale verwendet werden. In diesen Fällen ist der Test etwas weniger trennscharf, d.h. die Nullhypothese wird seltener abgelehnt als im stetigen Fall.

Ein großer Vorteil besteht darin, dass die zugrundeliegende Zufallsvariable keiner Normalverteilung folgen muss. Die Verteilung der Prüfgröße [math]d_n[/math] ist für alle (stetigen) Verteilungen identisch. Dies macht den Test vielseitig einsetzbar, bedingt aber auch seinen Nachteil, denn der KS-Test hat allgemein eine geringe Teststärke. Der Lilliefors-Test ist eine Anpassung des Kolmogorow-Smirnow-Tests für die Testung auf Normalverteilung. Mögliche Alternativen zum KS-Test sind der Cramér-von-Mises-Test, der für beide Anwendungsfälle geeignet ist, sowie der Anderson-Darling-Test für den Vergleich einer Stichprobe mit einer hypothetischen Wahrscheinlichkeitsverteilung.

Weblinks

Literatur

  • Lothar Sachs, Jürgen Hedderich: Angewandte Statistik. 12., vollständig überarbeitete und erweiterte Auflage. Springer, Berlin/ Heidelberg 2006, ISBN 978-3-540-32161-3.

Einzelnachweise

  1. 1,0 1,1 Tabelle der kritischen Werte
  2. Lothar Sachs, Jürgen Hedderich: Statistik: Angewandte Statistik. 12. Auflage. Springer, Berlin/ Heidelberg 2006, S. 338.
  3. Biometrika Tables for Statisticians, 2. Cambridge University Press, 1972, S. 117–123, Tables 54, 55.
  4. Tabelle der kritischen Werte für den Zweistichprobentest (PDF; 177 kB)
  5. Jürgen Janssen, Wilfried Laatz: Statistische Datenanalyse mit SPSS für Windows. 6. Auflage. Springer, 2007, S. 569.

Kategorien: Nichtparametrischer Test

Quelle: Wikipedia - http://de.wikipedia.org/wiki/Kolmogorow-Smirnow-Test (Vollständige Liste der Autoren des Textes [Versionsgeschichte])    Lizenz: CC-by-sa-3.0

Änderungen: Alle Bilder mit den meisten Bildunterschriften wurden entfernt. Ebenso alle zu nicht-existierenden Artikeln/Kategorien gehenden internen Wikipedia-Links (Bsp. Portal-Links, Redlinks, Bearbeiten-Links). Entfernung von Navigationsframes, Geo & Normdaten, Mediadateien, gesprochene Versionen, z.T. ID&Class-Namen, Style von Div-Containern, Metadaten, Vorlagen, wie lesenwerte Artikel. Ansonsten sind keine Inhaltsänderungen vorgenommen worden. Weiterhin kann es durch die maschinelle Bearbeitung des Inhalts zu Fehlern gerade in der Darstellung kommen. Darum würden wir jeden Besucher unserer Seite darum bitten uns diese Fehler über den Support mittels einer Nachricht mit Link zu melden. Vielen Dank!

Stand der Informationen: August 201& - Wichtiger Hinweis: Da die Inhalte maschinell von Wikipedia übernommen wurden, ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.de nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein, bitten wir Sie darum uns per Support oder E-Mail zu kontaktieren. Wir werden uns dann innerhalb von spätestens 10 Tagen um Ihr Anliegen kümmern. Auch ohne Anliegen erfolgt mindestens alle drei Monate ein Update der gesamten Inhalte.