Navigation auf uzh.ch
Wozu wird der Kruskal-Wallis-Test verwendet?
|
Der Kruskal-Wallis-Test – auch "H-Test" genannt – für unabhängige Stichproben testet, ob sich die zentralen Tendenzen mehrerer unabhängiger Stichproben unterscheiden. Der Kruskal-Wallis-Test wird verwendet, wenn die Voraussetzungen für eine Varianzanalyse nicht erfüllt sind.
Der Kruskal-Wallis-Test ist das nichtparametrische Äquivalent der einfaktoriellen Varianzanalyse und wird angewandt, wenn die Voraussetzungen für ein parametrisches Verfahren nicht erfüllt sind. Nicht-parametrische Verfahren sind auch bekannt als "voraussetzungsfreie Verfahren", weil sie geringere Anforderungen an die Verteilung der Messwerte in der Grundgesamtheit stellen. So müssen die Daten nicht normalverteilt sein und die Variablen müssen lediglich ordinalskaliert sein. Auch bei kleinen Stichproben und Ausreissern kann ein Kruskal-Wallis-Test berechnet werden.
Die Fragestellung des Kruskal-Wallis-Tests wird oft so verkürzt:
"Unterscheiden sich die zentralen Tendenzen mehrerer unabhängiger Stichproben?"
✓ | Die abhängige Variable ist mindestens ordinalskaliert |
✓ | Es liegt eine unabhängige Variable vor, mittels der die zu vergleichenden Gruppen gebildet werden |
Eine ärztliche Untersuchung hat gezeigt, dass Menschen in den Wintermonaten oft unter Vitaminmangel leiden und dies zu einer reduzierten Konzentrationsfähigkeit führen kann. Ein Pharmakonzern möchte daher ein neues Vitaminpräparat auf den Markt bringen, welches die Konzentrationsfähigkeit steigern soll. Nun wird die Wirksamkeit untersucht: Drei Gruppen werden verglichen, wobei eine Gruppe das Präparat nicht einnimmt, die zweite es einmal wöchentlich und eine letzte Gruppe es viermal wöchentlich einnimmt. Gemessen wird die Konzentrationsfähigkeit (Skala 0-100).
Der zu analysierende Datensatz enthält neben einer Probandennummer (ID) die Häufigkeit der Vitamineinnahme (Gruppe) sowie die Konzentrationsfähigkeit (Konz).
Der Datensatz kann unter Quick Start heruntergeladen werden.
Der Kruskal-Wallis-Test basiert auf der Idee der Rangierung der Daten. Das heisst, es wird nicht mit den Messwerten selbst gerechnet, sondern diese werden durch Ränge ersetzt, mit welchen der eigentliche Test durchgeführt wird. Damit beruht die Berechnung des Tests ausschliesslich auf der Ordnung der Daten (grösser als, kleiner als). Die absoluten Abstände zwischen den Werten werden nicht berücksichtigt.
Hierbei werden die Messwerte mit Rängen versehen. Zunächst werden die einzelnen Messwerte gemäss ihrer Grösse (von den kleinsten Werten aufsteigend) aufgereiht (siehe Abbildung 1, Spalte "Konz"). Dies geschieht unabhängig von der Gruppenzugehörigkeit (Spalte "Gruppe"). Danach werden die Messwerte rangiert (von 1 ausgehend und aufsteigend) und getrennt für jede Gruppe notiert. Diese Ränge sind in Abbildung 1 in den Spalten "Ränge 'Kein Vitamin'" bis "Ränge '4x Vitamin'" enthalten. Kommt ein Messwert mehrfach vor (engl. "ties"), so werden sogenannte "verbundene Ränge" gebildet. Wenn beispielsweise Rang 5 und 6 beide die gleichen Messwerte aufweisen, wird aus diesen beiden der Mittelwert gebildet ((5 + 6)/2 = 5.5) und die Ränge 5 und 6 werden neu beide mit dem Rang 5.5 versehen. Dies ist im vorliegenden Beispiel für die Ränge 1 und 2 (mittlerer Rang: (1+2)/2 = 1.5), sowie 17 bis 19 der Fall (mittlerer Rang: (17+18+19)/3 = 18).
Schliesslich werden aus diesen ermittelten Rängen sogenannte Rangsummen gebildet (siehe Abbildung 1, Zeile "Rangsummen"). Hierfür werden lediglich die Ränge der jeweiligen Gruppe aufsummiert. Dies ergibt eine Rangsumme von 35 für die Gruppe ohne Vitamin (n = 7), 40 für die Gruppe mit einer Dosis pro Woche (n = 4) und 115 für die Gruppe mit 4 Dosen (n = 8). Zur Berechnung der Teststatistik H werden diese Rangsummen verwendet:
mit
= | Rangsummen für jede Gruppe | |
= | Gesamtstichprobengrösse | |
= | Grösse der einzelnen Gruppe | |
= | Anzahl Gruppen |
Für das vorliegende Beispiel ergibt dies:
Liegen verbundene Ränge vor, so muss die Prüfgrösse korrigiert werden:
mit
|
= | Anzahl verbundene Ränge |
|
= | Anzahl Rohdatenwerte, die im j-ten Rangplatz stehen |
Da beim Beispiel verbundene Ränge vorliegen, muss die Korrekturformel angewandt werden. Es liegen zweimal verbundene Ränge vor (daher m = 2): Ränge 1 und 2 (daher t1 = 2) sowie 17 bis 19 (daher t2 = 3). Dies ergibt:
Der berechnete Wert muss nun auf Signifikanz geprüft werden. Je nach Stichprobengrösse gilt die Teststatistik als asymptotisch Chi-Quadrat-verteilt. Sie gilt als Chi-Quadrat-verteilt, wenn:
Ist keine dieser Bedingungen erfüllt, so wird auf einen exakten Test zurückgegriffen. Dies ist im vorliegenden Beispiel der Fall. Die Berechnung wird hier nicht näher erläutert, ist aber in der Anwendung in SPSS als Option einfach anzuwählen.
Kann von einer Chi-Quadrat-verteilten Teststatistik ausgegangen werden, so muss die Teststatistik mit dem kritischen Wert der durch die Freiheitsgrade bestimmten Chi-Quadrat-Verteilung verglichen werden. Dieser kritische Wert kann Tabellen entnommen werden. Für das vorliegende Beispiel betrüge der kritische Wert 5.99 bei df = 2 und α = .05. Ist der Betrag der Teststatistik höher als der kritische Wert, so ist der Unterschied signifikant. Dies wäre für das Beispiel der Fall (10.41 > 5.99). Es könnte daher davon ausgegangen werden, dass sich die zentralen Tendenzen unterscheiden (Chi-Quadrat(2) = 10.41, p = .002).
SPSS-Menü: Analysieren > Nicht-parametrische Tests > Klassische Dialogfelder > K unabhängige Stichproben
Hinweise
SPSS-Syntax
NPAR TESTS
K-W=Konz BY Gruppe(1 3)
/MISSING ANALYSIS
/METHOD=EXACT TIMER(5).
Die Tabelle "Ränge" (Abbildung 3) zeigt die Gruppengrössen und den gemittelten Rang der Gruppen (Rangsumme dividiert durch die Gruppengrösse). Ein Vergleich der mittleren Ränge zeigt, dass die Gruppen eine unterschiedliche zentrale Tendenz aufweisen könnten. Wären sie in etwa gleich rangiert, so wiesen sie einen ähnlichen mittleren Rang auf.
Abbildung 4 zeigt das Ergebnis des Tests. Wie bereits erläutert, wird bei drei Gruppen und Gruppengrössen < 9 auf die exakte Signifikanz zurückgegriffen: Für das Beispiel wird eine exakte Signifikanz von .002 ausgegeben. Also kann davon ausgegangen werden, dass es Unterschiede bezüglich der zentralen Tendenzen der Gruppen gibt (Chi-Quadrat(2) = 10.407, p = .002). Allerdings lässt sich aufgrund dieses Tests nicht bestimmen, welche der drei Gruppen sich signifikant voneinander unterscheiden. Es ist denkbar, dass sich lediglich ein Paar signifikant unterscheidet und zwischen den übrigen keine signifikanten Unterschiede vorliegen.
Obwohl der Kruskal-Wallis-Test zeigt, dass tatsächlich ein Effekt der Gruppenzugehörigkeit auf die Konzentration besteht, müssen Post-hoc-Tests durchgeführt werden, um zu bestimmen, welche Gruppen sich signifikant unterscheiden.
Post-hoc-Tests können einfach durchgeführt werden, sofern der Kruskal-Wallis-Test nicht über übersichtlicheren "Klassischen Dialogfelder", sondern über die neueren Dialoge durchgeführt wurde: Analysieren > Nichtparametrische Tests > Unabhängige Stichproben (siehe Abbildungen 6 und 7). Bei den derart durchgeführten Post-hoc-Tests handelt es sich um Dunn-Bonferroni-Tests.
Es zeigt sich, dass sich lediglich die Gruppen "kein Vitamin" und "viermal Vitamin" signifikant unterscheiden (z = -3.226, p = .004).
Um die Bedeutsamkeit eines Ergebnisses zu beurteilen, werden Effektstärken berechnet. Im Beispiel ist der Unterschied der zentralen Tendenzen zwar signifikant, doch es stellt sich die Frage, ob der Unterschied gross genug ist, um ihn als bedeutend einzustufen.
Es gibt verschiedene Arten die Effektstärke zu messen. Zu den bekanntesten zählen die Effektstärke von Cohen (d) und der Korrelationskoeffizient (r) von Pearson. Der Korrelationskoeffizient eignet sich sehr gut, da die Effektstärke dabei immer zwischen 0 (kein Effekt) und 1 (maximaler Effekt) liegt. Wenn sich jedoch die Gruppen hinsichtlich ihrer Grösse stark unterscheiden, wird empfohlen, d von Cohen zu wählen, da r durch die Grössenunterschiede verzerrt werden kann.
Da aufgrund von Post-hoc-Tests genauer eingegrenzt wurde, wo der Unterschied liegt, das heisst, welche Gruppen sich unterscheiden, ist oft weniger die Effektstärke des Kruskal-Wallis-Tests von Interesse, sondern eher die Effektstärke der einzelnen Vergleiche. Das bedeutet, dass die Effektstärke des Dunn-Bonferroni-Tests berechnet wird, die der Effektstärke eines Rangsummentests entspricht.
Zur Berechnung des Korrelationskoeffizienten r werden der z-Wert und die Stichprobengrösse (n) verwendet, die dem SPSS-Output entnommen werden können:
Für das obige Beispiel ergibt das folgende Effektstärke (mit den Werten des Dunn-Bonferroni-Tests):
Zur Beurteilung der Grösse des Effektes dient die Einteilung von Cohen (1992):
r = .10 entspricht einem schwachen Effekt
r = .30 entspricht einem mittleren Effekt
r = .50 entspricht einem starken Effekt
Damit entspricht eine Effektstärke von 0.83 einem starken Effekt.
Ein Kruskal-Wallis-Test zeigt, dass die Konzentrationsfähigkeit durch die Einnahme des Vitaminpräparats beeinflusst wird (Chi-Quadrat(2) = 10.407, p = .002). Anschliessend durchgeführte Post-hoc-Tests (Dunn-Bonferroni-Tests) zeigen, dass sich nur die Gruppen "kein Vitamin" und "viermal Vitamin" signifikant unterscheiden (z = -3.226, p = .004) sodass man annehmen kann, dass lediglich die höhere Dosierung des Vitaminpräparats den gewünschten Effekt der Konzentrationssteigerung bewirkt. Es handelt sich um einen starken Effekt nach Cohen (1992) mit r = .83.