Kruskal-Wallis-Test: Definition, Voraussetzungen & Beispiele

Der Kruskal-Wallis-Test ist das nicht-parametrische Pendant zur einfaktoriellen ANOVA. Er prüft, ob sich drei oder mehr unabhängige Gruppen in ihrer zentralen Tendenz unterscheiden. Definition, Voraussetzungen, Post-hoc-Tests und Anwendung in SPSS und R.

Definition

Der Kruskal-Wallis-Test (auch Kruskal-Wallis-H-Test oder einfaktorielle Rang-ANOVA) ist ein nicht-parametrischer Hypothesentest, der prüft, ob sich drei oder mehr unabhängige Gruppen in ihrer zentralen Tendenz unterscheiden. Er wurde 1952 von William Kruskal und W. Allen Wallis entwickelt und ist die rangbasierte Verallgemeinerung des Mann-Whitney-U-Tests auf k > 2 Gruppen.

Merke: Der Kruskal-Wallis-Test ist die Wahl, wenn die Voraussetzungen der parametrischen ANOVA verletzt sind — insbesondere bei nicht-normalverteilten Residuen, ordinalskalierten Daten oder kleinen Stichproben.

Die Nullhypothese H₀ lautet: Alle Gruppen stammen aus derselben Verteilung (identische zentrale Tendenz). Die Alternativhypothese H₁: Mindestens eine Gruppe unterscheidet sich von den anderen. Welche Gruppen sich genau unterscheiden, beantwortet der Test selbst nicht — dafür sind Post-hoc-Tests nötig.

Formel

Die Teststatistik H berechnet sich aus den Rangsummen:

$$H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1)$$

mit:

  • N = Gesamtzahl aller Beobachtungen
  • k = Anzahl der Gruppen
  • n_i = Stichprobengröße der i-ten Gruppe
  • R_i = Summe der Ränge in der i-ten Gruppe

Alle Werte aller Gruppen werden gemeinsam in eine aufsteigende Rangreihe gebracht. Bei verbundenen Rängen (Ties) wird die Statistik mit einem Korrekturfaktor adjustiert. Unter H₀ folgt H asymptotisch einer χ²-Verteilung mit k − 1 Freiheitsgraden.

Voraussetzungen

Der Kruskal-Wallis-Test ist deutlich weniger voraussetzungsreich als die parametrische ANOVA, aber nicht voraussetzungsfrei:

  • Mindestens drei unabhängige Gruppen — bei k = 2 Gruppen den Mann-Whitney-U-Test verwenden
  • Unabhängigkeit der Beobachtungen innerhalb und zwischen den Gruppen
  • Mindestens ordinales Skalenniveau der abhängigen Variable
  • Ähnliche Verteilungsform der Gruppen — sonst testet der H-Test streng genommen nur auf Verteilungsunterschiede, nicht auf Medianunterschiede
  • n_i ≥ 5 pro Gruppe für die χ²-Approximation; bei kleineren Gruppen exakte Variante nutzen

Praxis-Tipp: Wenn die Verteilungsformen sich stark unterscheiden (z.B. eine Gruppe rechtsschief, eine symmetrisch), ist die Interpretation als "Medianvergleich" nicht mehr zulässig. Der Test prüft dann nur, ob die Gruppen aus identischen Verteilungen stammen.

Mehr zur Voraussetzungsprüfung im Rahmen einer Promotion findest du im Leitfaden zu Statistik in der Doktorarbeit.

Interpretation

Die H-Statistik wird gegen die χ²-Verteilung mit df = k − 1 geprüft. Output:

Kennzahl Bedeutung
H (Chi-Quadrat) Teststatistik, höhere Werte = stärkere Gruppenunterschiede
df Freiheitsgrade = Anzahl Gruppen − 1
p-Wert Wahrscheinlichkeit unter H₀
ε² oder η²_H Effektstärke (Epsilon-Quadrat oder Eta-Quadrat-H)

Entscheidungsregel: Ist p < α (üblich 0,05), wird H₀ abgelehnt — mindestens eine Gruppe unterscheidet sich. Welche genau, klärt ein Post-hoc-Test.

Merke: Ein signifikanter Kruskal-Wallis-Test sagt nur "irgendwo gibt es einen Unterschied". Der Dunn-Test mit Bonferroni-Korrektur ist der gängigste Post-hoc-Test für paarweise Gruppenvergleiche.

Klinisches Anwendungsbeispiel

Studie: Vergleich der postoperativen Schmerzintensität (NRS-Skala 0–10, ordinal) zwischen drei Anästhesieverfahren bei Weisheitszahnentfernung (n = 30 pro Gruppe).

  • Gruppe A (Lokalanästhesie): Median = 5, IQR 4–7
  • Gruppe B (Lokalanästhesie + Sedierung): Median = 3, IQR 2–5
  • Gruppe C (Vollnarkose): Median = 4, IQR 3–6

Test: Da die NRS-Skala ordinal ist, ist Kruskal-Wallis indiziert.

H(2) = 12,84, p = 0,002
ε² = 0,143 (mittlerer Effekt)

Interpretation: Es gibt einen statistisch signifikanten Unterschied zwischen mindestens zwei Gruppen (p = 0,002). Der nachfolgende Dunn-Post-hoc-Test mit Bonferroni-Korrektur ergibt: A vs. B p = 0,001, A vs. C p = 0,18, B vs. C p = 0,09. Schlussfolgerung: Lokalanästhesie + Sedierung reduziert die postoperative Schmerzintensität signifikant gegenüber alleiniger Lokalanästhesie.

In SPSS berechnen

Analysieren → Nichtparametrische Tests → Alte Dialogfelder → K unabhängige Stichproben

  1. Testvariable ins entsprechende Feld ziehen (hier: NRS-Score)
  2. Gruppenvariable definieren (hier: Anästhesieverfahren, Bereich 1–3)
  3. Kruskal-Wallis-H als Testtyp aktivieren
  4. Über Optionen → Deskriptive Statistik mitanfordern

Im Output findest du:

  • Mittlere Ränge je Gruppe
  • Chi-Quadrat (H), df und Asymptotische Signifikanz = p-Wert

Für Post-hoc-Tests in SPSS: Analysieren → Nichtparametrische Tests → Unabhängige Stichproben. Hier liefert SPSS automatisch paarweise Vergleiche mit Bonferroni-Korrektur, wenn der Haupttest signifikant ist. Eine ausführliche SPSS-Anleitung gibt es im Tutorial.

In R berechnen

# Kruskal-Wallis-Test
kruskal.test(nrs ~ gruppe, data = df)
# Kruskal-Wallis chi-squared = 12.84, df = 2, p-value = 0.002

# Post-hoc: Dunn-Test mit Bonferroni-Korrektur
library(FSA)
dunnTest(nrs ~ gruppe, data = df, method = "bonferroni")

# Effektstärke: Epsilon-Quadrat
library(rstatix)
df %>% kruskal_effsize(nrs ~ gruppe)
# .y.   n  effsize  method     magnitude
# nrs  90  0.143    eta2[H]    moderate

Das Paket rstatix liefert tidy-kompatible Ausgaben, FSA bietet den klassischen Dunn-Test. Mehr Beispiele in der R-Statistik-Anleitung sowie im Mann-Whitney-Tutorial.

Häufige Fehler

Fehler 1: Kruskal-Wallis bei nur zwei Gruppen verwenden

Bei k = 2 ist der Mann-Whitney-U-Test das korrekte Pendant. Kruskal-Wallis liefert mathematisch dasselbe Ergebnis, ist aber konventionell nicht das Verfahren der Wahl.

Fehler 2: Kein Post-hoc-Test nach signifikantem H-Test

"H-Test signifikant" reicht nicht für die Diskussion. Ohne Post-hoc-Vergleiche bleibt offen, welche Gruppen sich unterscheiden. Standard: Dunn-Test mit Bonferroni- oder Holm-Korrektur.

Fehler 3: Verteilungsformen nicht geprüft

Wenn die Gruppen unterschiedlich geformte Verteilungen haben (z.B. unterschiedliche Schiefe), testet Kruskal-Wallis nicht mehr auf Medianunterschiede, sondern auf allgemeine Verteilungsunterschiede. Boxplots immer mit abbilden.

Fehler 4: Mediane berichten, obwohl H-Test signifikant aber Verteilungen ungleich

Korrekt: Bei homogenen Verteilungsformen → Medianvergleich. Bei heterogenen Formen → "Verteilungen unterscheiden sich" formulieren.

Fehler 5: Effektstärke vergessen

Der p-Wert sagt nichts über die Größe des Effekts. Berichte zusätzlich ε² (Epsilon-Quadrat) oder η²_H: < 0,01 = trivial, 0,01–0,06 = klein, 0,06–0,14 = mittel, > 0,14 = groß.

Verwandte Konzepte

  • Einfaktorielle ANOVA — parametrisches Pendant bei normalverteilten Residuen
  • Mann-Whitney-U-Test — nicht-parametrischer Test bei zwei Gruppen
  • Dunn-Test — Standard-Post-hoc-Test nach signifikantem Kruskal-Wallis
  • Bonferroni-Korrektur — Adjustierung des α-Niveaus bei multiplen Vergleichen
  • Friedman-Test — Pendant für abhängige Stichproben (k > 2 Messzeitpunkte)
  • Median-Test — alternativer, weniger trennscharfer nicht-parametrischer k-Gruppen-Test

Häufige Fragen

  • „Wann verwende ich den Kruskal-Wallis-Test statt einer ANOVA?" → Wenn die Voraussetzungen der ANOVA verletzt sind: nicht-normalverteilte Residuen (insbesondere bei kleinen n), ordinalskalierte abhängige Variable oder starke Heteroskedastizität trotz Transformationsversuch. Bei großen Stichproben (n > 30 pro Gruppe) ist die ANOVA durch den zentralen Grenzwertsatz oft auch bei Verletzungen robust — dann kann sie bevorzugt werden.
  • „Welcher Post-hoc-Test ist nach Kruskal-Wallis korrekt?" → Standard ist der Dunn-Test mit Bonferroni- oder Holm-Korrektur. Alternativen: Conover-Iman-Test (etwas trennschärfer), paarweise Mann-Whitney-U-Tests mit Adjustierung oder Steel-Dwass-Test. Wichtig ist, dass die Korrektur für multiples Testen explizit erfolgt.
  • „Kann ich den Kruskal-Wallis-Test bei sehr ungleichen Gruppengrößen verwenden?" → Ja, der Test funktioniert auch bei ungleichen n_i. Die Power leidet jedoch, wenn eine Gruppe deutlich kleiner ist als die anderen. Faustregel: Jede Gruppe sollte n ≥ 5 haben, idealerweise n ≥ 10. Bei stark unbalancierten Designs Effektstärke und Konfidenzintervalle besonders beachten.
  • „Wie berichte ich Kruskal-Wallis-Ergebnisse in einer Publikation?" → Üblich ist: "H(df) = X,XX, p = 0,XXX, ε² = 0,XX". Beispiel: "Die postoperative Schmerzintensität unterschied sich zwischen den drei Anästhesieverfahren (H(2) = 12,84, p = 0,002, ε² = 0,143)." Zusätzlich Mediane mit IQR pro Gruppe und Post-hoc-Ergebnisse berichten.
  • „Was bedeutet 'mittlerer Rang' im SPSS-Output?" → SPSS bildet aus allen Beobachtungen aller Gruppen eine gemeinsame Rangreihe und berechnet pro Gruppe den durchschnittlichen Rang. Höhere mittlere Ränge = höhere Werte in dieser Gruppe. Die mittleren Ränge sind die Grundlage der H-Statistik und helfen bei der Interpretation, welche Gruppen tendenziell höher/niedriger liegen.
  • „Gibt es eine Effektstärke für den Kruskal-Wallis-Test?" → Ja, gängig sind ε² (Epsilon-Quadrat) und η²_H (Eta-Quadrat-H). Beide werden ähnlich wie η² der ANOVA interpretiert: < 0,01 trivial, 0,01–0,06 klein, 0,06–0,14 mittel, > 0,14 groß. In R liefert rstatix::kruskal_effsize() den Wert direkt; SPSS gibt ihn nicht standardmäßig aus.
  • „Was ist der Unterschied zum Friedman-Test?" → Der Kruskal-Wallis-Test ist für unabhängige Gruppen (z.B. drei verschiedene Patientengruppen). Der Friedman-Test ist für abhängige Messungen an denselben Probanden (z.B. Schmerzintensität vor, 1 h nach und 24 h nach OP bei denselben Patienten). Verwechslung führt zu falschen p-Werten und ungültigen Schlussfolgerungen.
  • „Kann der Kruskal-Wallis-Test bei metrischen Daten verwendet werden?" → Ja, Kruskal-Wallis ist auch bei metrischen Daten zulässig — er ist dann nur weniger trennscharf als die ANOVA, wenn deren Voraussetzungen erfüllt sind (Effizienzverlust ca. 5 % bei Normalverteilung). Bei Voraussetzungsverletzungen ist er hingegen oft mächtiger und damit die bessere Wahl.
✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer