Wilcoxon-Test & Mann-Whitney-U-Test: Wann und wie anwenden?

Wilcoxon-Test vs. Mann-Whitney-U-Test: Unterschiede, Voraussetzungen, Effektgröße & SPSS-Anleitung mit medizinischen Beispielen für Doktor- und Masterarbeiten.

Statistik · Dr. mult. Dr. h.c. Babak Saravi · 14. April 2026 · 11 Min. Lesezeit

Wilcoxon-Test oder Mann-Whitney-U-Test – diese Frage taucht in jeder zweiten Doktorarbeit und Masterarbeit auf, und die Antwort hängt von einer einzigen Entscheidung ab: Sind deine Stichproben unabhängig oder verbunden? Wer das verwechselt, setzt einen methodisch falschen Test ein – und das fällt Gutachtern sofort auf. Dieser Artikel klärt den Unterschied, zeigt die konkreten Voraussetzungen, erklärt die Effektgröße und gibt dir einen vollständigen SPSS-Workflow für beide Tests.


Die wichtigste Unterscheidung zuerst: Zwei Tests, zwei Situationen

In der Praxis werden „Wilcoxon-Test" und „Mann-Whitney-U-Test" oft synonym verwendet – das ist falsch. Es handelt sich um zwei verschiedene nicht-parametrische Tests, die für unterschiedliche Stichprobenstrukturen gedacht sind:

Mann-Whitney-U-Test Wilcoxon-Vorzeichen-Rang-Test
Stichproben 2 unabhängige Gruppen 2 verbundene (gepaarte) Messungen
Typische Frage Unterscheiden sich Gruppe A und Gruppe B? Verändert sich der Wert vor vs. nach einer Intervention?
Medizinisches Beispiel Schmerz-NRS: Laparoskopie vs. offene OP Blutdruck: Messung vor vs. nach Medikation
Parametrisches Äquivalent Ungepaarter t-Test Gepaarter t-Test
SPSS-Menüpfad Nichtparametrische Tests → 2 unabhängige Stichproben Nichtparametrische Tests → 2 verbundene Stichproben
Teststatistik U-Wert (manchmal als W ausgegeben) Z-Wert (aus Rangsumme der Differenzen)

Merke: Mann-Whitney-U = unabhängig. Wilcoxon-Vorzeichen-Rang = verbunden (Prä/Post). Diese Verwechslung ist einer der häufigsten Testfehler in medizinischen Abschlussarbeiten – und lässt sich mit einem Satz vermeiden: Kommen die beiden Datenpunkte vom selben Probanden? Dann Wilcoxon. Von verschiedenen Probanden? Dann Mann-Whitney-U.


Wann sind nicht-parametrische Tests überhaupt nötig?

Beide Tests sind nicht-parametrische Alternativen zu den entsprechenden t-Tests. Sie setzen keine Normalverteilung voraus und arbeiten nicht mit den Rohdaten, sondern mit deren Rängen. Das macht sie robust gegenüber:

Wann bleibt der t-Test die bessere Wahl? Wenn deine Daten normalverteilt sind (Shapiro-Wilk p > 0,05) und die Stichprobe ausreichend groß ist (n ≥ 30), hat der t-Test eine höhere statistische Power – er entdeckt echte Unterschiede zuverlässiger als der nicht-parametrische Test. Wechsle also nicht vorsorglich auf Mann-Whitney, wenn deine Daten die t-Test-Voraussetzungen erfüllen.


Mann-Whitney-U-Test: Voraussetzungen, Berechnung & Interpretation

Voraussetzungen

Wie der Test funktioniert (Prinzip)

Der Mann-Whitney-U-Test rangiert alle Messwerte beider Gruppen gemeinsam – von 1 (kleinster Wert) bis N (größter Wert), unabhängig von der Gruppenzugehörigkeit. Anschließend werden die Rangsummen pro Gruppe berechnet. Wenn eine Gruppe systematisch höhere Ränge hat, deutet das auf höhere Werte hin.

Die U-Statistik ist im Kern die Anzahl aller Paare (ein Wert aus Gruppe 1, ein Wert aus Gruppe 2), bei denen der Wert aus Gruppe 1 größer ist. Bei n₁ = n₂ = 20 gibt es 400 mögliche Paare. Liegt U nahe bei 200, sind die Gruppen ähnlich. Liegt U nahe bei 0 oder 400, dominiert eine Gruppe klar.

Medizinisches Beispiel

Fragestellung: Unterscheidet sich die postoperative Schmerzintensität (NRS 0–10, 24h nach OP) zwischen Patienten mit laparoskopischer (n = 35) und offener Appendektomie (n = 32)?

Voraussetzungsprüfung: Shapiro-Wilk-Test: beide Gruppen p < 0,05 → Normalverteilung nicht gegeben → Mann-Whitney-U-Test indiziert.

Ergebnisbeispiel: „Die postoperative Schmerzintensität war in der laparoskopischen Gruppe signifikant niedriger als in der offenen Gruppe (Mdn = 3,0, IQR = 2,0–4,5 vs. Mdn = 5,5, IQR = 4,0–7,0; U = 218, z = −4,12, p < 0,001, r = 0,48)."

SPSS-Workflow Mann-Whitney-U-Test

1. Analysieren → Nichtparametrische Tests → Klassische Dialogfelder
   → 2 unabhängige Stichproben
2. Testvariable: metrische/ordinale AV (z.B. NRS-Wert)
3. Gruppenvariable: Gruppenkodiervariable (z.B. 1 = laparoskopisch, 2 = offen)
   → Gruppen definieren: Minimum = 1, Maximum = 2
4. Testtyp: Mann-Whitney-U (standardmäßig ausgewählt)
5. OK → Output lesen:
   - Mann-Whitney-U-Wert
   - Wilcoxon-W (Rangsumme, identische Information)
   - z-Wert (für große Stichproben)
   - Asymptotische Signifikanz (2-seitig) = p-Wert
6. Effektgröße r manuell berechnen: r = |z| / √N
   (z aus SPSS-Output, N = Gesamtstichprobengröße)

Wilcoxon-Vorzeichen-Rang-Test: Voraussetzungen, Berechnung & Interpretation

Voraussetzungen

Wie der Test funktioniert (Prinzip)

Der Test berechnet für jedes Messwertpaar die Differenz (Nachher − Vorher). Differenzen von null werden ausgeschlossen. Die übrigen Differenzen werden nach ihrem Betrag rangiert, dann wird das Vorzeichen wieder zugewiesen. Die Teststatistik T ist die kleinere der beiden Rangsummen (positive vs. negative Vorzeichen). Ist T klein, dominiert eine Richtung – es gibt eine systematische Veränderung.

Medizinisches Beispiel

Fragestellung: Sinkt der diastolische Blutdruck bei Hypertonikern nach 4-wöchiger Lifestyle-Intervention signifikant? (Prä/Post-Messung, n = 28)

Voraussetzungsprüfung: Differenzen (Post − Prä) sind nicht normalverteilt (Shapiro-Wilk p = 0,02) → Wilcoxon-Vorzeichen-Rang-Test indiziert.

Ergebnisbeispiel: „Der diastolische Blutdruck sank nach der Intervention signifikant (Mdn_prä = 94 mmHg, IQR = 90–98 vs. Mdn_post = 87 mmHg, IQR = 83–92; Z = −3,84, p < 0,001, r = 0,51)."

SPSS-Workflow Wilcoxon-Vorzeichen-Rang-Test

1. Analysieren → Nichtparametrische Tests → Klassische Dialogfelder
   → 2 verbundene Stichproben
2. Testpaare: Variable 1 = Prä-Messung, Variable 2 = Post-Messung
   (Achtung: Reihenfolge bestimmt die Richtung der Differenzen!)
3. Testtyp: Wilcoxon (standardmäßig ausgewählt)
4. OK → Output lesen:
   - Ränge-Tabelle: negative Ränge, positive Ränge, Bindungen
   - Z-Wert und asymptotische Signifikanz (2-seitig) = p-Wert
5. Effektgröße r = |Z| / √N  (N = Anzahl der Paare ohne Bindungen)

Effektgröße: Was du über r beim Wilcoxon/Mann-Whitney berichten musst

Ein häufiger Fehler: SPSS gibt für nicht-parametrische Tests keine Effektgröße automatisch aus. Du musst sie manuell berechnen und im Ergebnisteil berichten – das ist heute Standard in peer-reviewten Journalen und wird von Gutachtern zunehmend eingefordert.

Formel für r (Effektgröße aus z-Wert):

r = |Z| / √N

Z = z-Wert aus dem SPSS-Output (Vorzeichen ignorieren)
N = Gesamtgröße der Stichprobe (Mann-Whitney: n₁ + n₂; Wilcoxon: Anzahl Paare)

Interpretation nach Cohen:

r-Wert Effektstärke Klinische Einordnung
0,10–0,29 Klein Statistisch nachweisbar, klinisch meist wenig relevant
0,30–0,49 Mittel Klinisch beachtlich, im Kontext interpretieren
≥ 0,50 Groß Klinisch bedeutsamer Unterschied

Beispielrechnung: Z = −3,84, N = 28 → r = 3,84 / √28 = 3,84 / 5,29 = 0,73 → großer Effekt.

Merke: Berichtet immer r zusammen mit dem p-Wert. Ein p < 0,001 bei r = 0,12 bedeutet: statistisch signifikant, klinisch aber kaum relevant. Ein p = 0,03 bei r = 0,62 bedeutet: kleines n, aber klinisch bedeutsamer Effekt. Erst beides zusammen ergibt ein vollständiges Bild.


Häufige Fehler und Missverständnisse

Fehler 1: Wilcoxon-Rangsummentest ≠ Wilcoxon-Vorzeichen-Rang-Test

Es gibt zwei Tests mit dem Namen „Wilcoxon". In SPSS unter „2 unabhängige Stichproben" ist der Wilcoxon-Rangsummentest dasselbe wie der Mann-Whitney-U-Test – SPSS gibt sogar beide Namen aus (U-Wert + W-Wert). Der Wilcoxon-Vorzeichen-Rang-Test hingegen ist unter „2 verbundene Stichproben" zu finden. Verwechsle sie nicht – und nenne den Test im Methodenteil immer vollständig: „Wilcoxon-Vorzeichen-Rang-Test für verbundene Stichproben" oder „Mann-Whitney-U-Test für unabhängige Stichproben".

Fehler 2: Mittelwert statt Median berichten

Bei nicht-parametrischen Tests ist der Median mit IQR die korrekte Kennzahl – nicht Mittelwert und SD. Wer trotzdem M ± SD berichtet (weil es SPSS so ausgibt), untergräbt die methodische Konsistenz. Der Mittelwert kann zusätzlich genannt werden, aber der Median steht bei nicht-normalverteilten Daten im Vordergrund.

Fehler 3: Bindungen (Ties) ignorieren

Wenn viele Messwerte identisch sind (z.B. NRS = 5 bei 30% der Patienten), entstehen Bindungen in der Rangzuweisung. SPSS verwendet eine Korrekturformel – aber du solltest im Methodenteil erwähnen, dass Bindungen vorkamen und wie viele, da sie die Teststärke reduzieren.

Fehler 4: Keine Voraussetzungsprüfung dokumentiert

Warum hast du den Mann-Whitney-U-Test verwendet und nicht den t-Test? Diese Frage muss der Methodenteil beantworten. „Da der Shapiro-Wilk-Test eine signifikante Abweichung von der Normalverteilung ergab (p = 0,018), wurde für den Gruppenvergleich der Mann-Whitney-U-Test eingesetzt." – das ist eine vollständige Begründung.

Fehler 5: Einseitiger vs. zweiseitiger Test nicht begründet

SPSS gibt standardmäßig den zweiseitigen p-Wert aus. Ein einseitiger Test ist nur zulässig, wenn du vorab – also vor Datenerhebung – eine gerichtete Hypothese formuliert hast. Wer post-hoc auf einseitig wechselt, um p < 0,05 zu erreichen, begeht einen methodischen Fehler.


Nicht-parametrische Tests für mehr als zwei Gruppen

Mann-Whitney und Wilcoxon sind auf zwei Gruppen bzw. zwei Messzeitpunkte begrenzt. Für komplexere Designs gibt es nicht-parametrische Erweiterungen:

Design Nicht-parametrischer Test Parametrisches Äquivalent
≥ 3 unabhängige Gruppen Kruskal-Wallis-Test Einfaktorielle ANOVA
≥ 3 verbundene Messungen Friedman-Test Messwiederholungs-ANOVA
Post-hoc nach Kruskal-Wallis Dunn-Test mit Bonferroni-Korrektur Tukey HSD / Bonferroni

Nach einem signifikanten Kruskal-Wallis-Test musst du – wie nach einer ANOVA – Post-hoc-Tests durchführen, um zu ermitteln, welche Gruppen sich unterscheiden. In SPSS: Analysieren → Nichtparametrische Tests → Unabhängige Stichproben → Post-hoc.


Wilcoxon & Mann-Whitney in R – für Fortgeschrittene

Für Doktorarbeiten mit reproduzierbarer Analyse oder wenn SPSS keine Campuslizenz verfügbar ist, bietet R eine kompakte Umsetzung:

# Mann-Whitney-U-Test (unabhängige Stichproben)
wilcox.test(nrs_wert ~ gruppe, data = df, exact = FALSE)

# Wilcoxon-Vorzeichen-Rang-Test (verbundene Stichproben)
wilcox.test(df$post, df$pre, paired = TRUE, exact = FALSE)

# Effektgröße r berechnen
library(rstatix)
df %>% wilcox_effsize(nrs_wert ~ gruppe)

Das rstatix-Paket berechnet r direkt – das spart die manuelle Berechnung aus dem Z-Wert.


Wenn du dir nach der Testauswahl noch unsicher bist oder dein Studiendesign komplexere nicht-parametrische Verfahren (z.B. Kruskal-Wallis mit Post-hoc, Friedman-Test) erfordert, unterstützt der Biostatistik-Service von SCIORA dich bei Methodenwahl, Durchführung und korrekter Ergebnisdarstellung.

Weiterführende Artikel: Promotion Statistik auswerten gibt einen Überblick über alle Verfahren auf Promotionsniveau; Master Statistik auswerten erklärt, wann komplexere Modelle nötig werden.


Häufige Fragen

🔬 Teste dein Wissen zu diesem Thema

MC-Fragen nach IMPP-Katalog mit Erklärungen zu jeder Antwortoption. Von Fachärzten geprüft.

14 Tage kostenlos testen Keine Kreditkarte erforderlich