Mann-Whitney-U-Test: Definition, Anwendung & Berechnung
Der Mann-Whitney-U-Test ist das nicht-parametrische Pendant zum t-Test für unabhängige Stichproben. Definition, Voraussetzungen, Interpretation und Berechnung in SPSS und R für ordinale und nicht-normalverteilte metrische Daten.
Definition
Der Mann-Whitney-U-Test (auch Wilcoxon-Rangsummentest oder Wilcoxon-Mann-Whitney-Test) ist ein nicht-parametrischer Hypothesentest, der zwei unabhängige Stichproben hinsichtlich ihrer zentralen Tendenz vergleicht. Er ist das nicht-parametrische Pendant zum t-Test für unabhängige Stichproben und wird verwendet, wenn die Normalverteilungsannahme verletzt ist oder die Daten nur ordinal skaliert sind (z.B. Likert-Skalen, Schmerz-Ratings, Tumorstadien).
Statt der Originalmesswerte arbeitet der Test mit Rangplätzen: Alle Beobachtungen aus beiden Gruppen werden gemeinsam aufsteigend sortiert und durchnummeriert. Anschließend wird geprüft, ob die Rangsummen der beiden Gruppen sich systematisch unterscheiden.
Merke: Der Mann-Whitney-U-Test vergleicht streng genommen nicht die Mediane, sondern prüft, ob Werte einer Gruppe systematisch größer oder kleiner sind als Werte der anderen Gruppe (stochastische Dominanz). Nur unter der Zusatzannahme gleicher Verteilungsform wird er zum Median-Vergleich.
Formel
Die Teststatistik U wird für beide Gruppen berechnet:
$$U_1 = R_1 - \frac{n_1(n_1+1)}{2}$$
$$U_2 = R_2 - \frac{n_2(n_2+1)}{2}$$
Dabei ist:
- R₁, R₂ = Rangsumme der jeweiligen Gruppe
- n₁, n₂ = Stichprobengröße der jeweiligen Gruppe
Der kleinere der beiden U-Werte wird als Teststatistik verwendet. Bei großen Stichproben (n > 20 pro Gruppe) wird U über eine Normalverteilungs-Approximation in einen z-Wert überführt:
$$z = \frac{U - \mu_U}{\sigma_U}, \quad \mu_U = \frac{n_1 n_2}{2}, \quad \sigma_U = \sqrt{\frac{n_1 n_2 (n_1 + n_2 + 1)}{12}}$$
Bei kleinen Stichproben werden exakte p-Werte aus tabellierten Verteilungen oder per Permutation berechnet.
Voraussetzungen
Der Mann-Whitney-U-Test hat deutlich schwächere Annahmen als der t-Test, ist aber nicht voraussetzungsfrei:
- Unabhängige Stichproben — die beiden Gruppen müssen aus voneinander unabhängigen Beobachtungen bestehen (nicht: gepaarte Daten — dafür Wilcoxon-Vorzeichen-Rang-Test)
- Mindestens ordinales Skalenniveau — die Werte müssen sich in eine sinnvolle Rangfolge bringen lassen
- Stetige Verteilung (theoretisch) — viele Bindungen (gleiche Werte) reduzieren die Power; bei massiven Bindungen ggf. Korrektur verwenden
- Vergleichbare Verteilungsform — wenn der Test als Median-Vergleich interpretiert werden soll, müssen die Verteilungen in beiden Gruppen ähnlich geformt sein (gleiche Schiefe/Streuung)
Eine Übersicht zur Wahl des passenden Tests gibt es in der Statistik-Anleitung für Doktorarbeiten.
Hypothesen
- H₀: P(X < Y) = P(X > Y) — die Wahrscheinlichkeit, dass ein zufälliger Wert aus Gruppe A kleiner ist als ein zufälliger Wert aus Gruppe B, ist gleich groß wie umgekehrt.
- H₁: Eine Gruppe weist systematisch höhere (bzw. niedrigere) Werte auf.
Unter der Zusatzannahme gleicher Verteilungsform vereinfacht sich H₀ zu: Median₁ = Median₂.
Interpretation
| p-Wert | Interpretation |
|---|---|
| p < 0,05 | H₀ ablehnen — die Gruppen unterscheiden sich signifikant in ihrer zentralen Tendenz |
| p ≥ 0,05 | H₀ beibehalten — kein statistisch signifikanter Unterschied nachweisbar |
Praxis-Tipp: Berichte zusätzlich die Mediane mit Interquartilsabstand (IQR) beider Gruppen sowie eine Effektstärke (z.B. r = z / √N oder Cliff's Delta). Ein signifikanter U-Test ohne Effektstärke ist publikationstechnisch unvollständig.
Klinisches Anwendungsbeispiel
Studie: Vergleich postoperativer Schmerzscores (NRS-Skala 0–10, ordinal) zwischen zwei Analgesie-Regimes 24 h nach Weisheitszahnextraktion.
- Gruppe A (Ibuprofen 600 mg): n = 32, Median = 4, IQR = 3–5
- Gruppe B (Ibuprofen + Dexamethason): n = 30, Median = 2, IQR = 1–4
- U = 285,5; z = -3,12; p = 0,002
- Effektstärke: r = 0,40 (mittlerer Effekt)
Interpretation: Die Schmerzscores der Gruppe B sind systematisch niedriger als die der Gruppe A. Die H₀ wird verworfen (p = 0,002). Der mittlere Effekt (r = 0,40) zeigt, dass der Unterschied auch klinisch relevant ist.
Warum kein t-Test? NRS-Werte sind ordinal — Abstände zwischen den Stufen (z.B. 3 → 4 vs. 7 → 8) sind nicht zwingend gleich. Außerdem zeigt der Shapiro-Wilk-Test in beiden Gruppen Abweichungen von der Normalverteilung (p < 0,05).
In SPSS berechnen
Analysieren → Nichtparametrische Tests → Alte Dialogfelder → Zwei unabhängige Stichproben
- Testvariable: Schmerzscore (Messgröße)
- Gruppenvariable: Therapie (Gruppen 1 und 2 definieren)
- Test: Mann-Whitney-U anhaken
Im Output findest du:
- Mann-Whitney-U = U-Wert
- Wilcoxon-W = kleinere Rangsumme (entspricht der Wilcoxon-Statistik)
- Z = z-Wert der Normalapproximation
- Asymptotische Signifikanz (zweiseitig) = p-Wert
Hinweis: Bei n < 20 pro Gruppe immer den exakten p-Wert statt der asymptotischen Näherung verwenden (über Schaltfläche "Exakt..." im Dialog). Eine vollständige SPSS-Anleitung gibt es im Begleit-Tutorial.
In R berechnen
# Mann-Whitney-U-Test (entspricht Wilcoxon-Rangsummentest in R)
result <- wilcox.test(schmerz ~ gruppe, data = df,
paired = FALSE, exact = FALSE, correct = TRUE)
print(result)
# Wilcoxon rank sum test with continuity correction
# W = 285.5, p-value = 0.002
# Effektstärke r berechnen
library(rstatix)
df %>% wilcox_effsize(schmerz ~ gruppe)
# effsize = 0.40 (magnitude: moderate)
# Deskriptiv: Mediane + IQR
library(dplyr)
df %>% group_by(gruppe) %>%
summarise(median = median(schmerz),
q25 = quantile(schmerz, 0.25),
q75 = quantile(schmerz, 0.75))
Achtung: R nennt die Teststatistik W (statt U) — das ist nicht der Wilcoxon-Vorzeichen-Rang-Test, sondern lediglich eine Notationsvariante. Bei
paired = TRUEwürde es zum Wilcoxon-Vorzeichen-Rang-Test wechseln. Mehr in der R-Anleitung zum Wilcoxon-Mann-Whitney-Test.
Häufige Fehler
Fehler 1: Mann-Whitney-U mit Wilcoxon-Vorzeichen-Rang-Test verwechseln
Der Mann-Whitney-U-Test ist für unabhängige Stichproben (z.B. Therapie A vs. Therapie B). Der Wilcoxon-Vorzeichen-Rang-Test ist für gepaarte Daten (z.B. prä vs. post bei denselben Patienten). In R unterscheidet das Argument paired = FALSE/TRUE.
Fehler 2: Test als reinen "Mediantest" interpretieren
Der U-Test prüft stochastische Dominanz, nicht direkt Mediane. Wenn die Verteilungen sehr unterschiedliche Formen haben (z.B. eine schief, die andere symmetrisch), kann der Test signifikant sein, obwohl die Mediane gleich sind.
Fehler 3: Nur p-Wert ohne Effektstärke berichten
"U = 285, p = 0,002" allein reicht nicht. Standard ist die Angabe von Mediane (IQR) plus r oder Cliff's Delta. Bei Reviewer-Anfragen wird dies regelmäßig nachgefordert.
Fehler 4: Bei normalverteilten Daten Mann-Whitney statt t-Test verwenden
Wenn die Normalverteilungsannahme erfüllt ist, hat der parametrische t-Test eine höhere Power (~95 % der Power des U-Tests). Den U-Test "vorsichtshalber" zu wählen, kostet Sensitivität.
Fehler 5: Asymptotischen p-Wert bei kleinen Stichproben
Bei n < 20 pro Gruppe oder vielen Bindungen liefert die Normalapproximation ungenaue p-Werte. Dann exakten Test verwenden (exact = TRUE in R, "Exakt..."-Schaltfläche in SPSS).
Fehler 6: U-Test bei mehr als zwei Gruppen
Für drei oder mehr unabhängige Gruppen ist der Kruskal-Wallis-Test das passende Verfahren. Mehrfache U-Tests ohne Korrektur erhöhen den Alpha-Fehler dramatisch.
Verwandte Konzepte
- t-Test für unabhängige Stichproben — parametrisches Pendant bei normalverteilten Daten
- Wilcoxon-Vorzeichen-Rang-Test — gepaarte Variante (z.B. prä/post-Vergleich)
- Kruskal-Wallis-Test — Erweiterung auf mehr als zwei unabhängige Gruppen
- Median — robuste Lagemaß, das beim U-Test typischerweise mit IQR berichtet wird
- p-Wert — Wahrscheinlichkeit unter H₀
- Effektstärke — r = z/√N oder Cliff's Delta zur Quantifizierung des Effekts
Häufige Fragen
- „Wann soll ich den Mann-Whitney-U-Test statt des t-Tests verwenden?" → Wenn deine Daten ordinal skaliert sind (z.B. Likert-Skala, Schmerz-NRS, Tumorstadien) oder wenn die Normalverteilungsannahme bei metrischen Daten verletzt ist (Shapiro-Wilk p < 0,05) und die Stichprobe pro Gruppe klein ist (n < 30). Bei ausreichend großen Stichproben ist der t-Test wegen des zentralen Grenzwertsatzes meist robust.
- „Vergleicht der Mann-Whitney-U-Test wirklich die Mediane?" → Streng genommen nein. Er prüft, ob Werte einer Gruppe systematisch größer/kleiner sind als die der anderen (stochastische Dominanz). Nur wenn beide Verteilungen die gleiche Form haben (gleiche Streuung, gleiche Schiefe), ist er äquivalent zu einem Mediantest. Bei sehr unterschiedlich geformten Verteilungen kann er signifikant sein, obwohl die Mediane identisch sind.
- „Was ist der Unterschied zwischen Mann-Whitney-U und Wilcoxon-Rangsummentest?" → Es handelt sich um denselben Test in unterschiedlicher Notation. Mann und Whitney (1947) entwickelten die U-Statistik, Wilcoxon (1945) die Rangsummen-Statistik W. Beide führen zu identischen p-Werten — daher die häufige Bezeichnung "Wilcoxon-Mann-Whitney-Test". R verwendet
wilcox.test(), SPSS nennt es Mann-Whitney-U. - „Welche Effektstärke soll ich beim U-Test berichten?" → Üblich sind: (1) r = z/√N, mit Konventionen 0,1 = klein, 0,3 = mittel, 0,5 = groß; oder (2) Cliff's Delta (-1 bis +1), mit Schwellen 0,15 / 0,33 / 0,47. Beide sind in R einfach berechenbar (Paket
rstatixodereffsize). SPSS gibt keine direkte Effektstärke aus — manuell z/√N berechnen. - „Was bedeutet 'Wilcoxon-W' in SPSS?" → SPSS gibt zusätzlich zum U-Wert die Wilcoxon-Statistik W aus, das ist die kleinere der beiden Rangsummen. Beide Statistiken liefern dasselbe Testergebnis und denselben p-Wert. In Publikationen wird üblicherweise nur U oder W mit p-Wert berichtet, nicht beide.
- „Wie gehe ich mit Bindungen (gleichen Werten) um?" → Bei wenigen Bindungen verwenden Software-Pakete automatisch eine Mittelwert-Rangbindung und ggf. eine Bindungskorrektur der Varianz. Bei vielen Bindungen (häufig bei Likert-Daten) sinkt die Power. Alternativen: exakte Permutationstests oder ordinale Regressionsmodelle (z.B. proportional-odds-Modell).
- „Kann ich den U-Test auf Likert-Daten anwenden?" → Ja, der U-Test ist gut geeignet für Likert-Skalen, wenn zwei Gruppen verglichen werden. Bei Einzel-Items ist er dem t-Test vorzuziehen. Bei Summenscores aus mehreren Items kann der t-Test gerechtfertigt sein, wenn der Score annähernd normalverteilt ist.
- „Wie groß muss die Stichprobe für einen aussagekräftigen U-Test sein?" → Für einen mittleren Effekt (r = 0,3) und Power = 0,80 bei α = 0,05 (zweiseitig) brauchst du etwa 67 Probanden pro Gruppe. Bei kleinen Effekten (r = 0,1) etwa 615 pro Gruppe. Power-Analysen sind in G*Power und im R-Paket
pwrmöglich. Eine A-priori-Fallzahlplanung ist Pflicht für valide Studienprotokolle. - „Ist der U-Test einseitig oder zweiseitig zu rechnen?" → In der medizinischen Forschung standardmäßig zweiseitig — auch wenn eine Richtung erwartet wird. Einseitige Tests halbieren zwar den p-Wert, sind aber nur dann legitim, wenn die Richtung des Effekts vor Datenerhebung mit guter Begründung festgelegt wurde. Reviewer akzeptieren einseitige Tests in der Medizin nur in Ausnahmefällen.
- „Wie zitiere ich den Mann-Whitney-U-Test in der Methodik?" → Beispielformulierung: "Gruppenunterschiede wurden mit dem Mann-Whitney-U-Test geprüft, da die Daten ordinal skaliert waren / die Normalverteilungsannahme verletzt war (Shapiro-Wilk p < 0,05). Berichtet werden Median (IQR), U-Statistik, z-Wert, p-Wert sowie die Effektstärke r. Das Signifikanzniveau wurde auf α = 0,05 (zweiseitig) festgelegt."