Wilcoxon-Test & Mann-Whitney-U-Test: Wann und wie anwenden?
Wilcoxon-Test vs. Mann-Whitney-U-Test: Unterschiede, Voraussetzungen, Effektgröße & SPSS-Anleitung mit medizinischen Beispielen für Doktor- und Masterarbeiten.
Wilcoxon-Test oder Mann-Whitney-U-Test – diese Frage taucht in jeder zweiten Doktorarbeit und Masterarbeit auf, und die Antwort hängt von einer einzigen Entscheidung ab: Sind deine Stichproben unabhängig oder verbunden? Wer das verwechselt, setzt einen methodisch falschen Test ein – und das fällt Gutachtern sofort auf. Dieser Artikel klärt den Unterschied, zeigt die konkreten Voraussetzungen, erklärt die Effektgröße und gibt dir einen vollständigen SPSS-Workflow für beide Tests.
Die wichtigste Unterscheidung zuerst: Zwei Tests, zwei Situationen
In der Praxis werden „Wilcoxon-Test" und „Mann-Whitney-U-Test" oft synonym verwendet – das ist falsch. Es handelt sich um zwei verschiedene nicht-parametrische Tests, die für unterschiedliche Stichprobenstrukturen gedacht sind:
| Mann-Whitney-U-Test | Wilcoxon-Vorzeichen-Rang-Test | |
|---|---|---|
| Stichproben | 2 unabhängige Gruppen | 2 verbundene (gepaarte) Messungen |
| Typische Frage | Unterscheiden sich Gruppe A und Gruppe B? | Verändert sich der Wert vor vs. nach einer Intervention? |
| Medizinisches Beispiel | Schmerz-NRS: Laparoskopie vs. offene OP | Blutdruck: Messung vor vs. nach Medikation |
| Parametrisches Äquivalent | Ungepaarter t-Test | Gepaarter t-Test |
| SPSS-Menüpfad | Nichtparametrische Tests → 2 unabhängige Stichproben | Nichtparametrische Tests → 2 verbundene Stichproben |
| Teststatistik | U-Wert (manchmal als W ausgegeben) | Z-Wert (aus Rangsumme der Differenzen) |
Merke: Mann-Whitney-U = unabhängig. Wilcoxon-Vorzeichen-Rang = verbunden (Prä/Post). Diese Verwechslung ist einer der häufigsten Testfehler in medizinischen Abschlussarbeiten – und lässt sich mit einem Satz vermeiden: Kommen die beiden Datenpunkte vom selben Probanden? Dann Wilcoxon. Von verschiedenen Probanden? Dann Mann-Whitney-U.
Wann sind nicht-parametrische Tests überhaupt nötig?
Beide Tests sind nicht-parametrische Alternativen zu den entsprechenden t-Tests. Sie setzen keine Normalverteilung voraus und arbeiten nicht mit den Rohdaten, sondern mit deren Rängen. Das macht sie robust gegenüber:
- Nicht-normalverteilten Daten (z.B. stark rechtsschiefe Laborwerte)
- Ausreißern, die den Mittelwert verzerren würden
- Kleinen Stichproben (n < 30), bei denen der zentrale Grenzwertsatz nicht greift
- Ordinalen Daten (z.B. Schmerzskalen, Likert-Items)
Wann bleibt der t-Test die bessere Wahl? Wenn deine Daten normalverteilt sind (Shapiro-Wilk p > 0,05) und die Stichprobe ausreichend groß ist (n ≥ 30), hat der t-Test eine höhere statistische Power – er entdeckt echte Unterschiede zuverlässiger als der nicht-parametrische Test. Wechsle also nicht vorsorglich auf Mann-Whitney, wenn deine Daten die t-Test-Voraussetzungen erfüllen.
Mann-Whitney-U-Test: Voraussetzungen, Berechnung & Interpretation
Voraussetzungen
- Zwei unabhängige Stichproben (kein Proband in beiden Gruppen)
- Abhängige Variable mindestens ordinalskaliert
- Beide Gruppen haben idealerweise die gleiche Verteilungsform (Symmetrie-Annahme – relevant für die Medianinterpretation)
- Keine Normalverteilung erforderlich
Wie der Test funktioniert (Prinzip)
Der Mann-Whitney-U-Test rangiert alle Messwerte beider Gruppen gemeinsam – von 1 (kleinster Wert) bis N (größter Wert), unabhängig von der Gruppenzugehörigkeit. Anschließend werden die Rangsummen pro Gruppe berechnet. Wenn eine Gruppe systematisch höhere Ränge hat, deutet das auf höhere Werte hin.
Die U-Statistik ist im Kern die Anzahl aller Paare (ein Wert aus Gruppe 1, ein Wert aus Gruppe 2), bei denen der Wert aus Gruppe 1 größer ist. Bei n₁ = n₂ = 20 gibt es 400 mögliche Paare. Liegt U nahe bei 200, sind die Gruppen ähnlich. Liegt U nahe bei 0 oder 400, dominiert eine Gruppe klar.
Medizinisches Beispiel
Fragestellung: Unterscheidet sich die postoperative Schmerzintensität (NRS 0–10, 24h nach OP) zwischen Patienten mit laparoskopischer (n = 35) und offener Appendektomie (n = 32)?
Voraussetzungsprüfung: Shapiro-Wilk-Test: beide Gruppen p < 0,05 → Normalverteilung nicht gegeben → Mann-Whitney-U-Test indiziert.
Ergebnisbeispiel: „Die postoperative Schmerzintensität war in der laparoskopischen Gruppe signifikant niedriger als in der offenen Gruppe (Mdn = 3,0, IQR = 2,0–4,5 vs. Mdn = 5,5, IQR = 4,0–7,0; U = 218, z = −4,12, p < 0,001, r = 0,48)."
SPSS-Workflow Mann-Whitney-U-Test
1. Analysieren → Nichtparametrische Tests → Klassische Dialogfelder
→ 2 unabhängige Stichproben
2. Testvariable: metrische/ordinale AV (z.B. NRS-Wert)
3. Gruppenvariable: Gruppenkodiervariable (z.B. 1 = laparoskopisch, 2 = offen)
→ Gruppen definieren: Minimum = 1, Maximum = 2
4. Testtyp: Mann-Whitney-U (standardmäßig ausgewählt)
5. OK → Output lesen:
- Mann-Whitney-U-Wert
- Wilcoxon-W (Rangsumme, identische Information)
- z-Wert (für große Stichproben)
- Asymptotische Signifikanz (2-seitig) = p-Wert
6. Effektgröße r manuell berechnen: r = |z| / √N
(z aus SPSS-Output, N = Gesamtstichprobengröße)
Wilcoxon-Vorzeichen-Rang-Test: Voraussetzungen, Berechnung & Interpretation
Voraussetzungen
- Zwei verbundene Messungen (dieselben Probanden zu zwei Zeitpunkten oder gematchte Paare)
- Abhängige Variable mindestens ordinalskaliert
- Die Differenzen zwischen den Paaren sollten annähernd symmetrisch verteilt sein
- Keine Normalverteilung der Ausgangsdaten erforderlich
Wie der Test funktioniert (Prinzip)
Der Test berechnet für jedes Messwertpaar die Differenz (Nachher − Vorher). Differenzen von null werden ausgeschlossen. Die übrigen Differenzen werden nach ihrem Betrag rangiert, dann wird das Vorzeichen wieder zugewiesen. Die Teststatistik T ist die kleinere der beiden Rangsummen (positive vs. negative Vorzeichen). Ist T klein, dominiert eine Richtung – es gibt eine systematische Veränderung.
Medizinisches Beispiel
Fragestellung: Sinkt der diastolische Blutdruck bei Hypertonikern nach 4-wöchiger Lifestyle-Intervention signifikant? (Prä/Post-Messung, n = 28)
Voraussetzungsprüfung: Differenzen (Post − Prä) sind nicht normalverteilt (Shapiro-Wilk p = 0,02) → Wilcoxon-Vorzeichen-Rang-Test indiziert.
Ergebnisbeispiel: „Der diastolische Blutdruck sank nach der Intervention signifikant (Mdn_prä = 94 mmHg, IQR = 90–98 vs. Mdn_post = 87 mmHg, IQR = 83–92; Z = −3,84, p < 0,001, r = 0,51)."
SPSS-Workflow Wilcoxon-Vorzeichen-Rang-Test
1. Analysieren → Nichtparametrische Tests → Klassische Dialogfelder
→ 2 verbundene Stichproben
2. Testpaare: Variable 1 = Prä-Messung, Variable 2 = Post-Messung
(Achtung: Reihenfolge bestimmt die Richtung der Differenzen!)
3. Testtyp: Wilcoxon (standardmäßig ausgewählt)
4. OK → Output lesen:
- Ränge-Tabelle: negative Ränge, positive Ränge, Bindungen
- Z-Wert und asymptotische Signifikanz (2-seitig) = p-Wert
5. Effektgröße r = |Z| / √N (N = Anzahl der Paare ohne Bindungen)
Effektgröße: Was du über r beim Wilcoxon/Mann-Whitney berichten musst
Ein häufiger Fehler: SPSS gibt für nicht-parametrische Tests keine Effektgröße automatisch aus. Du musst sie manuell berechnen und im Ergebnisteil berichten – das ist heute Standard in peer-reviewten Journalen und wird von Gutachtern zunehmend eingefordert.
Formel für r (Effektgröße aus z-Wert):
r = |Z| / √N
Z = z-Wert aus dem SPSS-Output (Vorzeichen ignorieren)
N = Gesamtgröße der Stichprobe (Mann-Whitney: n₁ + n₂; Wilcoxon: Anzahl Paare)
Interpretation nach Cohen:
| r-Wert | Effektstärke | Klinische Einordnung |
|---|---|---|
| 0,10–0,29 | Klein | Statistisch nachweisbar, klinisch meist wenig relevant |
| 0,30–0,49 | Mittel | Klinisch beachtlich, im Kontext interpretieren |
| ≥ 0,50 | Groß | Klinisch bedeutsamer Unterschied |
Beispielrechnung: Z = −3,84, N = 28 → r = 3,84 / √28 = 3,84 / 5,29 = 0,73 → großer Effekt.
Merke: Berichtet immer r zusammen mit dem p-Wert. Ein p < 0,001 bei r = 0,12 bedeutet: statistisch signifikant, klinisch aber kaum relevant. Ein p = 0,03 bei r = 0,62 bedeutet: kleines n, aber klinisch bedeutsamer Effekt. Erst beides zusammen ergibt ein vollständiges Bild.
Häufige Fehler und Missverständnisse
Fehler 1: Wilcoxon-Rangsummentest ≠ Wilcoxon-Vorzeichen-Rang-Test
Es gibt zwei Tests mit dem Namen „Wilcoxon". In SPSS unter „2 unabhängige Stichproben" ist der Wilcoxon-Rangsummentest dasselbe wie der Mann-Whitney-U-Test – SPSS gibt sogar beide Namen aus (U-Wert + W-Wert). Der Wilcoxon-Vorzeichen-Rang-Test hingegen ist unter „2 verbundene Stichproben" zu finden. Verwechsle sie nicht – und nenne den Test im Methodenteil immer vollständig: „Wilcoxon-Vorzeichen-Rang-Test für verbundene Stichproben" oder „Mann-Whitney-U-Test für unabhängige Stichproben".
Fehler 2: Mittelwert statt Median berichten
Bei nicht-parametrischen Tests ist der Median mit IQR die korrekte Kennzahl – nicht Mittelwert und SD. Wer trotzdem M ± SD berichtet (weil es SPSS so ausgibt), untergräbt die methodische Konsistenz. Der Mittelwert kann zusätzlich genannt werden, aber der Median steht bei nicht-normalverteilten Daten im Vordergrund.
Fehler 3: Bindungen (Ties) ignorieren
Wenn viele Messwerte identisch sind (z.B. NRS = 5 bei 30% der Patienten), entstehen Bindungen in der Rangzuweisung. SPSS verwendet eine Korrekturformel – aber du solltest im Methodenteil erwähnen, dass Bindungen vorkamen und wie viele, da sie die Teststärke reduzieren.
Fehler 4: Keine Voraussetzungsprüfung dokumentiert
Warum hast du den Mann-Whitney-U-Test verwendet und nicht den t-Test? Diese Frage muss der Methodenteil beantworten. „Da der Shapiro-Wilk-Test eine signifikante Abweichung von der Normalverteilung ergab (p = 0,018), wurde für den Gruppenvergleich der Mann-Whitney-U-Test eingesetzt." – das ist eine vollständige Begründung.
Fehler 5: Einseitiger vs. zweiseitiger Test nicht begründet
SPSS gibt standardmäßig den zweiseitigen p-Wert aus. Ein einseitiger Test ist nur zulässig, wenn du vorab – also vor Datenerhebung – eine gerichtete Hypothese formuliert hast. Wer post-hoc auf einseitig wechselt, um p < 0,05 zu erreichen, begeht einen methodischen Fehler.
Nicht-parametrische Tests für mehr als zwei Gruppen
Mann-Whitney und Wilcoxon sind auf zwei Gruppen bzw. zwei Messzeitpunkte begrenzt. Für komplexere Designs gibt es nicht-parametrische Erweiterungen:
| Design | Nicht-parametrischer Test | Parametrisches Äquivalent |
|---|---|---|
| ≥ 3 unabhängige Gruppen | Kruskal-Wallis-Test | Einfaktorielle ANOVA |
| ≥ 3 verbundene Messungen | Friedman-Test | Messwiederholungs-ANOVA |
| Post-hoc nach Kruskal-Wallis | Dunn-Test mit Bonferroni-Korrektur | Tukey HSD / Bonferroni |
Nach einem signifikanten Kruskal-Wallis-Test musst du – wie nach einer ANOVA – Post-hoc-Tests durchführen, um zu ermitteln, welche Gruppen sich unterscheiden. In SPSS: Analysieren → Nichtparametrische Tests → Unabhängige Stichproben → Post-hoc.
Wilcoxon & Mann-Whitney in R – für Fortgeschrittene
Für Doktorarbeiten mit reproduzierbarer Analyse oder wenn SPSS keine Campuslizenz verfügbar ist, bietet R eine kompakte Umsetzung:
# Mann-Whitney-U-Test (unabhängige Stichproben)
wilcox.test(nrs_wert ~ gruppe, data = df, exact = FALSE)
# Wilcoxon-Vorzeichen-Rang-Test (verbundene Stichproben)
wilcox.test(df$post, df$pre, paired = TRUE, exact = FALSE)
# Effektgröße r berechnen
library(rstatix)
df %>% wilcox_effsize(nrs_wert ~ gruppe)
Das rstatix-Paket berechnet r direkt – das spart die manuelle Berechnung aus dem Z-Wert.
Wenn du dir nach der Testauswahl noch unsicher bist oder dein Studiendesign komplexere nicht-parametrische Verfahren (z.B. Kruskal-Wallis mit Post-hoc, Friedman-Test) erfordert, unterstützt der Biostatistik-Service von SCIORA dich bei Methodenwahl, Durchführung und korrekter Ergebnisdarstellung.
Weiterführende Artikel: Promotion Statistik auswerten gibt einen Überblick über alle Verfahren auf Promotionsniveau; Master Statistik auswerten erklärt, wann komplexere Modelle nötig werden.
Häufige Fragen
- „Was ist der Unterschied zwischen Wilcoxon-Test und Mann-Whitney-U-Test?" → Der Mann-Whitney-U-Test vergleicht zwei unabhängige Gruppen; der Wilcoxon-Vorzeichen-Rang-Test vergleicht zwei verbundene Messungen (z.B. Prä/Post beim selben Probanden) – beide sind nicht-parametrisch, aber für verschiedene Designs.
- „Wann nehme ich Mann-Whitney statt t-Test?" → Wenn der Shapiro-Wilk-Test eine signifikante Abweichung von der Normalverteilung zeigt (p ≤ 0,05), die Stichprobe klein ist (n < 30) oder die Daten nur ordinalskaliert sind.
- „Welche Effektgröße berichte ich beim Mann-Whitney-U-Test?" → Die Effektgröße r = |Z| / √N; Orientierungswerte: r = 0,10 (klein), 0,30 (mittel), 0,50 (groß) – SPSS berechnet sie nicht automatisch, sie muss manuell ergänzt werden.
- „Was mache ich, wenn ich mehr als zwei Gruppen vergleichen will?" → Für ≥ 3 unabhängige Gruppen: Kruskal-Wallis-Test; für ≥ 3 verbundene Messungen: Friedman-Test – beide sind nicht-parametrische Erweiterungen von ANOVA.
- „Muss ich den Median oder den Mittelwert berichten?" → Bei nicht-parametrischen Tests immer Median mit Interquartilsabstand (IQR) – nicht Mittelwert und SD, da diese bei nicht-normalverteilten Daten irreführend sein können.
🔬 Teste dein Wissen zu diesem Thema
MC-Fragen nach IMPP-Katalog mit Erklärungen zu jeder Antwortoption. Von Fachärzten geprüft.
14 Tage kostenlos testen Keine Kreditkarte erforderlich