Mann-Whitney-U-Test: Definition, Anwendung & Berechnung

Der Mann-Whitney-U-Test ist das nicht-parametrische Pendant zum t-Test für unabhängige Stichproben. Definition, Voraussetzungen, Interpretation und Berechnung in SPSS und R für ordinale und nicht-normalverteilte metrische Daten.

Definition

Der Mann-Whitney-U-Test (auch Wilcoxon-Rangsummentest oder Wilcoxon-Mann-Whitney-Test) ist ein nicht-parametrischer Hypothesentest, der zwei unabhängige Stichproben hinsichtlich ihrer zentralen Tendenz vergleicht. Er ist das nicht-parametrische Pendant zum t-Test für unabhängige Stichproben und wird verwendet, wenn die Normalverteilungsannahme verletzt ist oder die Daten nur ordinal skaliert sind (z.B. Likert-Skalen, Schmerz-Ratings, Tumorstadien).

Statt der Originalmesswerte arbeitet der Test mit Rangplätzen: Alle Beobachtungen aus beiden Gruppen werden gemeinsam aufsteigend sortiert und durchnummeriert. Anschließend wird geprüft, ob die Rangsummen der beiden Gruppen sich systematisch unterscheiden.

Merke: Der Mann-Whitney-U-Test vergleicht streng genommen nicht die Mediane, sondern prüft, ob Werte einer Gruppe systematisch größer oder kleiner sind als Werte der anderen Gruppe (stochastische Dominanz). Nur unter der Zusatzannahme gleicher Verteilungsform wird er zum Median-Vergleich.

Formel

Die Teststatistik U wird für beide Gruppen berechnet:

$$U_1 = R_1 - \frac{n_1(n_1+1)}{2}$$

$$U_2 = R_2 - \frac{n_2(n_2+1)}{2}$$

Dabei ist:

  • R₁, R₂ = Rangsumme der jeweiligen Gruppe
  • n₁, n₂ = Stichprobengröße der jeweiligen Gruppe

Der kleinere der beiden U-Werte wird als Teststatistik verwendet. Bei großen Stichproben (n > 20 pro Gruppe) wird U über eine Normalverteilungs-Approximation in einen z-Wert überführt:

$$z = \frac{U - \mu_U}{\sigma_U}, \quad \mu_U = \frac{n_1 n_2}{2}, \quad \sigma_U = \sqrt{\frac{n_1 n_2 (n_1 + n_2 + 1)}{12}}$$

Bei kleinen Stichproben werden exakte p-Werte aus tabellierten Verteilungen oder per Permutation berechnet.

Voraussetzungen

Der Mann-Whitney-U-Test hat deutlich schwächere Annahmen als der t-Test, ist aber nicht voraussetzungsfrei:

  • Unabhängige Stichproben — die beiden Gruppen müssen aus voneinander unabhängigen Beobachtungen bestehen (nicht: gepaarte Daten — dafür Wilcoxon-Vorzeichen-Rang-Test)
  • Mindestens ordinales Skalenniveau — die Werte müssen sich in eine sinnvolle Rangfolge bringen lassen
  • Stetige Verteilung (theoretisch) — viele Bindungen (gleiche Werte) reduzieren die Power; bei massiven Bindungen ggf. Korrektur verwenden
  • Vergleichbare Verteilungsform — wenn der Test als Median-Vergleich interpretiert werden soll, müssen die Verteilungen in beiden Gruppen ähnlich geformt sein (gleiche Schiefe/Streuung)

Eine Übersicht zur Wahl des passenden Tests gibt es in der Statistik-Anleitung für Doktorarbeiten.

Hypothesen

  • H₀: P(X < Y) = P(X > Y) — die Wahrscheinlichkeit, dass ein zufälliger Wert aus Gruppe A kleiner ist als ein zufälliger Wert aus Gruppe B, ist gleich groß wie umgekehrt.
  • H₁: Eine Gruppe weist systematisch höhere (bzw. niedrigere) Werte auf.

Unter der Zusatzannahme gleicher Verteilungsform vereinfacht sich H₀ zu: Median₁ = Median₂.

Interpretation

p-Wert Interpretation
p < 0,05 H₀ ablehnen — die Gruppen unterscheiden sich signifikant in ihrer zentralen Tendenz
p ≥ 0,05 H₀ beibehalten — kein statistisch signifikanter Unterschied nachweisbar

Praxis-Tipp: Berichte zusätzlich die Mediane mit Interquartilsabstand (IQR) beider Gruppen sowie eine Effektstärke (z.B. r = z / √N oder Cliff's Delta). Ein signifikanter U-Test ohne Effektstärke ist publikationstechnisch unvollständig.

Klinisches Anwendungsbeispiel

Studie: Vergleich postoperativer Schmerzscores (NRS-Skala 0–10, ordinal) zwischen zwei Analgesie-Regimes 24 h nach Weisheitszahnextraktion.

  • Gruppe A (Ibuprofen 600 mg): n = 32, Median = 4, IQR = 3–5
  • Gruppe B (Ibuprofen + Dexamethason): n = 30, Median = 2, IQR = 1–4
  • U = 285,5; z = -3,12; p = 0,002
  • Effektstärke: r = 0,40 (mittlerer Effekt)

Interpretation: Die Schmerzscores der Gruppe B sind systematisch niedriger als die der Gruppe A. Die H₀ wird verworfen (p = 0,002). Der mittlere Effekt (r = 0,40) zeigt, dass der Unterschied auch klinisch relevant ist.

Warum kein t-Test? NRS-Werte sind ordinal — Abstände zwischen den Stufen (z.B. 3 → 4 vs. 7 → 8) sind nicht zwingend gleich. Außerdem zeigt der Shapiro-Wilk-Test in beiden Gruppen Abweichungen von der Normalverteilung (p < 0,05).

In SPSS berechnen

Analysieren → Nichtparametrische Tests → Alte Dialogfelder → Zwei unabhängige Stichproben

  1. Testvariable: Schmerzscore (Messgröße)
  2. Gruppenvariable: Therapie (Gruppen 1 und 2 definieren)
  3. Test: Mann-Whitney-U anhaken

Im Output findest du:

  • Mann-Whitney-U = U-Wert
  • Wilcoxon-W = kleinere Rangsumme (entspricht der Wilcoxon-Statistik)
  • Z = z-Wert der Normalapproximation
  • Asymptotische Signifikanz (zweiseitig) = p-Wert

Hinweis: Bei n < 20 pro Gruppe immer den exakten p-Wert statt der asymptotischen Näherung verwenden (über Schaltfläche "Exakt..." im Dialog). Eine vollständige SPSS-Anleitung gibt es im Begleit-Tutorial.

In R berechnen

# Mann-Whitney-U-Test (entspricht Wilcoxon-Rangsummentest in R)
result <- wilcox.test(schmerz ~ gruppe, data = df,
                     paired = FALSE, exact = FALSE, correct = TRUE)
print(result)
# Wilcoxon rank sum test with continuity correction
# W = 285.5, p-value = 0.002

# Effektstärke r berechnen
library(rstatix)
df %>% wilcox_effsize(schmerz ~ gruppe)
# effsize = 0.40 (magnitude: moderate)

# Deskriptiv: Mediane + IQR
library(dplyr)
df %>% group_by(gruppe) %>%
  summarise(median = median(schmerz),
            q25 = quantile(schmerz, 0.25),
            q75 = quantile(schmerz, 0.75))

Achtung: R nennt die Teststatistik W (statt U) — das ist nicht der Wilcoxon-Vorzeichen-Rang-Test, sondern lediglich eine Notationsvariante. Bei paired = TRUE würde es zum Wilcoxon-Vorzeichen-Rang-Test wechseln. Mehr in der R-Anleitung zum Wilcoxon-Mann-Whitney-Test.

Häufige Fehler

Fehler 1: Mann-Whitney-U mit Wilcoxon-Vorzeichen-Rang-Test verwechseln

Der Mann-Whitney-U-Test ist für unabhängige Stichproben (z.B. Therapie A vs. Therapie B). Der Wilcoxon-Vorzeichen-Rang-Test ist für gepaarte Daten (z.B. prä vs. post bei denselben Patienten). In R unterscheidet das Argument paired = FALSE/TRUE.

Fehler 2: Test als reinen "Mediantest" interpretieren

Der U-Test prüft stochastische Dominanz, nicht direkt Mediane. Wenn die Verteilungen sehr unterschiedliche Formen haben (z.B. eine schief, die andere symmetrisch), kann der Test signifikant sein, obwohl die Mediane gleich sind.

Fehler 3: Nur p-Wert ohne Effektstärke berichten

"U = 285, p = 0,002" allein reicht nicht. Standard ist die Angabe von Mediane (IQR) plus r oder Cliff's Delta. Bei Reviewer-Anfragen wird dies regelmäßig nachgefordert.

Fehler 4: Bei normalverteilten Daten Mann-Whitney statt t-Test verwenden

Wenn die Normalverteilungsannahme erfüllt ist, hat der parametrische t-Test eine höhere Power (~95 % der Power des U-Tests). Den U-Test "vorsichtshalber" zu wählen, kostet Sensitivität.

Fehler 5: Asymptotischen p-Wert bei kleinen Stichproben

Bei n < 20 pro Gruppe oder vielen Bindungen liefert die Normalapproximation ungenaue p-Werte. Dann exakten Test verwenden (exact = TRUE in R, "Exakt..."-Schaltfläche in SPSS).

Fehler 6: U-Test bei mehr als zwei Gruppen

Für drei oder mehr unabhängige Gruppen ist der Kruskal-Wallis-Test das passende Verfahren. Mehrfache U-Tests ohne Korrektur erhöhen den Alpha-Fehler dramatisch.

Verwandte Konzepte

Häufige Fragen

  • „Wann soll ich den Mann-Whitney-U-Test statt des t-Tests verwenden?" → Wenn deine Daten ordinal skaliert sind (z.B. Likert-Skala, Schmerz-NRS, Tumorstadien) oder wenn die Normalverteilungsannahme bei metrischen Daten verletzt ist (Shapiro-Wilk p < 0,05) und die Stichprobe pro Gruppe klein ist (n < 30). Bei ausreichend großen Stichproben ist der t-Test wegen des zentralen Grenzwertsatzes meist robust.
  • „Vergleicht der Mann-Whitney-U-Test wirklich die Mediane?" → Streng genommen nein. Er prüft, ob Werte einer Gruppe systematisch größer/kleiner sind als die der anderen (stochastische Dominanz). Nur wenn beide Verteilungen die gleiche Form haben (gleiche Streuung, gleiche Schiefe), ist er äquivalent zu einem Mediantest. Bei sehr unterschiedlich geformten Verteilungen kann er signifikant sein, obwohl die Mediane identisch sind.
  • „Was ist der Unterschied zwischen Mann-Whitney-U und Wilcoxon-Rangsummentest?" → Es handelt sich um denselben Test in unterschiedlicher Notation. Mann und Whitney (1947) entwickelten die U-Statistik, Wilcoxon (1945) die Rangsummen-Statistik W. Beide führen zu identischen p-Werten — daher die häufige Bezeichnung "Wilcoxon-Mann-Whitney-Test". R verwendet wilcox.test(), SPSS nennt es Mann-Whitney-U.
  • „Welche Effektstärke soll ich beim U-Test berichten?" → Üblich sind: (1) r = z/√N, mit Konventionen 0,1 = klein, 0,3 = mittel, 0,5 = groß; oder (2) Cliff's Delta (-1 bis +1), mit Schwellen 0,15 / 0,33 / 0,47. Beide sind in R einfach berechenbar (Paket rstatix oder effsize). SPSS gibt keine direkte Effektstärke aus — manuell z/√N berechnen.
  • „Was bedeutet 'Wilcoxon-W' in SPSS?" → SPSS gibt zusätzlich zum U-Wert die Wilcoxon-Statistik W aus, das ist die kleinere der beiden Rangsummen. Beide Statistiken liefern dasselbe Testergebnis und denselben p-Wert. In Publikationen wird üblicherweise nur U oder W mit p-Wert berichtet, nicht beide.
  • „Wie gehe ich mit Bindungen (gleichen Werten) um?" → Bei wenigen Bindungen verwenden Software-Pakete automatisch eine Mittelwert-Rangbindung und ggf. eine Bindungskorrektur der Varianz. Bei vielen Bindungen (häufig bei Likert-Daten) sinkt die Power. Alternativen: exakte Permutationstests oder ordinale Regressionsmodelle (z.B. proportional-odds-Modell).
  • „Kann ich den U-Test auf Likert-Daten anwenden?" → Ja, der U-Test ist gut geeignet für Likert-Skalen, wenn zwei Gruppen verglichen werden. Bei Einzel-Items ist er dem t-Test vorzuziehen. Bei Summenscores aus mehreren Items kann der t-Test gerechtfertigt sein, wenn der Score annähernd normalverteilt ist.
  • „Wie groß muss die Stichprobe für einen aussagekräftigen U-Test sein?" → Für einen mittleren Effekt (r = 0,3) und Power = 0,80 bei α = 0,05 (zweiseitig) brauchst du etwa 67 Probanden pro Gruppe. Bei kleinen Effekten (r = 0,1) etwa 615 pro Gruppe. Power-Analysen sind in G*Power und im R-Paket pwr möglich. Eine A-priori-Fallzahlplanung ist Pflicht für valide Studienprotokolle.
  • „Ist der U-Test einseitig oder zweiseitig zu rechnen?" → In der medizinischen Forschung standardmäßig zweiseitig — auch wenn eine Richtung erwartet wird. Einseitige Tests halbieren zwar den p-Wert, sind aber nur dann legitim, wenn die Richtung des Effekts vor Datenerhebung mit guter Begründung festgelegt wurde. Reviewer akzeptieren einseitige Tests in der Medizin nur in Ausnahmefällen.
  • „Wie zitiere ich den Mann-Whitney-U-Test in der Methodik?" → Beispielformulierung: "Gruppenunterschiede wurden mit dem Mann-Whitney-U-Test geprüft, da die Daten ordinal skaliert waren / die Normalverteilungsannahme verletzt war (Shapiro-Wilk p < 0,05). Berichtet werden Median (IQR), U-Statistik, z-Wert, p-Wert sowie die Effektstärke r. Das Signifikanzniveau wurde auf α = 0,05 (zweiseitig) festgelegt."
✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer