Wann nehme ich den Wilcoxon-Vorzeichen-Rang-Test statt eines gepaarten t-Tests?

Wenn die Differenzen der gepaarten Messungen nicht normalverteilt sind (geprüft via Shapiro-Wilk-Test oder Q-Q-Plot), das Skalenniveau nur ordinal ist (z.B. VAS-Schmerzskala, Likert-Items) oder die Stichprobe klein ist (n < 30) und die Normalverteilung nicht überzeugend gezeigt werden kann.

Was ist der Unterschied zwischen Wilcoxon-Vorzeichen-Rang-Test und Mann-Whitney-U-Test?

Der Vorzeichen-Rang-Test ist für

Welche Voraussetzungen muss ich prüfen?

Die Stichproben müssen gepaart sein, das Skalenniveau mindestens ordinal, und die Differenzen sollten symmetrisch um den Median verteilt sein. Die Rohdaten müssen

Was bedeutet die Teststatistik W bzw. V im R-Output?

W (in SPSS) oder V (in R) ist die Summe der positiven Vorzeichen-Ränge. Unter H₀ (kein Unterschied) sollte W etwa n(n+1)/4 betragen. Stark abweichende Werte sprechen gegen H₀. Für die Interpretation ist primär der p-Wert relevant; W selbst sollte aber ebenfalls berichtet werden.

Wie gehe ich mit Bindungen (gleichen Differenzwerten) um?

Bei Bindungen werden mittlere Ränge vergeben (z.B. Ränge 4 und 5 → beide bekommen Rang 4,5). Bei vielen Bindungen oder Nullen sollte der

Welche Effektstärke berichte ich beim Wilcoxon-Test?

Üblich ist r = |Z| / √N, wobei Z aus dem Output kommt und N die Anzahl gepaarter Beobachtungen ist (inkl. Nullen). Interpretation nach Cohen: r ≈ 0,1 = klein, 0,3 = mittel, 0,5 = groß. Alternativ: Median der Differenzen + 95%-KI über den Hodges-Lehmann-Schätzer.

Kann ich den Wilcoxon-Test bei mehr als zwei Messzeitpunkten verwenden?

Nein, nicht direkt. Bei drei oder mehr abhängigen Messungen wird der

Wie berichte ich den Test in einer Publikation?

Vollständig z.B.: "Die Sondierungstiefe sank von im Median 6,2 mm (IQR 5,7–6,8) auf 4,6 mm (IQR 4,3–4,9). Der Wilcoxon-Vorzeichen-Rang-Test zeigt eine signifikante Reduktion (V = 14, p = 0,003, n = 18, Hodges-Lehmann-Schätzer der Differenz: −1,8 mm, 95%-KI: −2,4 bis −1,1 mm; r = 0,70)." So sind sowohl Signifikanz als auch Effektgröße transparent.

Was passiert mit Paaren, deren Differenz null ist?

Klassisch werden Null-Differenzen vor der Rangbildung entfernt (Wilcoxons ursprüngliche Methode), wodurch sich n reduziert. Moderne Varianten (z.B. Pratts Methode) behalten die Nullen bei der Rangbildung. R verwendet standardmäßig die klassische Methode. Bei vielen Null-Differenzen sollte dies im Methodenteil erwähnt werden.

Wilcoxon-Vorzeichen-Rang-Test: Definition & Anwendung

Q: Was ist der Unterschied zwischen Wilcoxon-Vorzeichen-Rang-Test und Mann-Whitney-U-Test?

Der Vorzeichen-Rang-Test ist für

Q: Welche Voraussetzungen muss ich prüfen?

Die Stichproben müssen gepaart sein, das Skalenniveau mindestens ordinal, und die Differenzen sollten symmetrisch um den Median verteilt sein. Die Rohdaten müssen

Q: Was bedeutet die Teststatistik W bzw. V im R-Output?

W (in SPSS) oder V (in R) ist die Summe der positiven Vorzeichen-Ränge. Unter H₀ (kein Unterschied) sollte W etwa n(n+1)/4 betragen. Stark abweichende Werte sprechen gegen H₀. Für die Interpretation ist primär der p-Wert relevant; W selbst sollte aber ebenfalls berichtet werden.

Q: Wie gehe ich mit Bindungen (gleichen Differenzwerten) um?

Bei Bindungen werden mittlere Ränge vergeben (z.B. Ränge 4 und 5 → beide bekommen Rang 4,5). Bei vielen Bindungen oder Nullen sollte der

Q: Welche Effektstärke berichte ich beim Wilcoxon-Test?

Üblich ist r = |Z| / √N, wobei Z aus dem Output kommt und N die Anzahl gepaarter Beobachtungen ist (inkl. Nullen). Interpretation nach Cohen: r ≈ 0,1 = klein, 0,3 = mittel, 0,5 = groß. Alternativ: Median der Differenzen + 95%-KI über den Hodges-Lehmann-Schätzer.

Q: Kann ich den Wilcoxon-Test bei mehr als zwei Messzeitpunkten verwenden?

Nein, nicht direkt. Bei drei oder mehr abhängigen Messungen wird der

Q: Wie berichte ich den Test in einer Publikation?

Vollständig z.B.: "Die Sondierungstiefe sank von im Median 6,2 mm (IQR 5,7–6,8) auf 4,6 mm (IQR 4,3–4,9). Der Wilcoxon-Vorzeichen-Rang-Test zeigt eine signifikante Reduktion (V = 14, p = 0,003, n = 18, Hodges-Lehmann-Schätzer der Differenz: −1,8 mm, 95%-KI: −2,4 bis −1,1 mm; r = 0,70)." So sind sowohl Signifikanz als auch Effektgröße transparent.

Q: Was passiert mit Paaren, deren Differenz null ist?

Klassisch werden Null-Differenzen vor der Rangbildung entfernt (Wilcoxons ursprüngliche Methode), wodurch sich n reduziert. Moderne Varianten (z.B. Pratts Methode) behalten die Nullen bei der Rangbildung. R verwendet standardmäßig die klassische Methode. Bei vielen Null-Differenzen sollte dies im Methodenteil erwähnt werden.

Der Wilcoxon-Vorzeichen-Rang-Test ist der nichtparametrische Pendant zum gepaarten t-Test. Definition, Voraussetzungen, Interpretation und Anwendung in SPSS und R mit klinischem Beispiel.

📊 Hypothesentests · ⏱️ 8 Min. · Aktualisiert 2026-05-10

Definition

Der Wilcoxon-Vorzeichen-Rang-Test (engl. Wilcoxon signed-rank test) ist ein nichtparametrischer Hypothesentest für den Vergleich zweier abhängiger (gepaarter) Stichproben. Er prüft, ob sich die zentrale Tendenz (in der Praxis: der Median) zweier verbundener Messungen unterscheidet — z.B. Vorher-Nachher-Messungen am selben Patienten oder Messungen am rechten vs. linken Quadranten.

Er ist die nichtparametrische Alternative zum gepaarten t-Test und wird verwendet, wenn die Differenzen nicht normalverteilt sind, das Skalenniveau nur ordinal ist oder die Stichprobe klein ist (n < 30).

Merke: Nicht verwechseln mit dem Wilcoxon-Rangsummen-Test (= Mann-Whitney-U-Test) für unabhängige Stichproben. Beide tragen den Namen Wilcoxon, prüfen aber unterschiedliche Designs.

Voraussetzungen

Damit der Test korrekt angewendet werden kann, müssen folgende Bedingungen erfüllt sein:

Abhängige (gepaarte) Stichproben — z.B. Messwiederholung am selben Probanden, Matched-Pairs-Design, Vorher-Nachher
Mindestens ordinales Skalenniveau der Differenzen — Ränge müssen sinnvoll bildbar sein
Symmetrische Verteilung der Differenzen um den Median (klassische Annahme; bei stark asymmetrischen Differenzen besser den Vorzeichentest verwenden)
Stichprobengröße — sinnvoll ab n ≥ 6 Paaren; ab n ≥ 20 Paaren ist die Normalapproximation der Teststatistik gültig

Die Annahme der Normalverteilung der Rohdaten ist nicht erforderlich — das ist der Hauptvorteil gegenüber dem t-Test.

Funktionsweise

Der Test läuft in vier Schritten:

Differenzen bilden: für jedes Paar i wird d_i = x_i − y_i berechnet
Nullen entfernen: Paare mit d_i = 0 werden ausgeschlossen (Stichprobengröße sinkt entsprechend)
Beträge ranken: |d_i| werden aufsteigend rangiert; bei Ranggleichheit (Ties) werden mittlere Ränge vergeben
Vorzeichen-Ränge summieren: W⁺ = Summe der Ränge mit positiven Differenzen, W⁻ = Summe mit negativen. Die Teststatistik W ist die kleinere der beiden Summen

Unter H₀ (kein Unterschied) sollten W⁺ und W⁻ etwa gleich groß sein. Weicht W stark ab, spricht das gegen H₀.

Hypothesen

H₀: Der Median der Differenzen ist null — beide Messungen stammen aus derselben Verteilung
H₁ (zweiseitig): Der Median der Differenzen ist ungleich null
H₁ (einseitig): Der Median der Differenzen ist größer (bzw. kleiner) als null

Klinisches Anwendungsbeispiel

Studie: Reduktion der Sondierungstiefe (PD in mm) an parodontal vorgeschädigten Zähnen vor und 3 Monate nach geschlossener Kürettage (n = 18 Patienten, ein Indexzahn pro Patient).

Patient	PD vorher	PD nachher	Differenz
1	6,5	4,0	−2,5
2	5,8	4,2	−1,6
3	7,1	4,5	−2,6
…	…	…	…
18	5,3	5,5	+0,2

Da die Differenzen rechtsschief verteilt sind (Shapiro-Wilk p = 0,02), wird statt des gepaarten t-Tests der Wilcoxon-Vorzeichen-Rang-Test gewählt.

Ergebnis: W = 14, n = 18, p = 0,003, Median der Differenzen = −1,8 mm (95%-KI: −2,4 bis −1,1 mm).

Interpretation: Die Sondierungstiefen nach Kürettage sind statistisch signifikant geringer als vorher (p = 0,003). Die mediane Reduktion von 1,8 mm ist klinisch relevant (Schwelle für Therapieerfolg ≥ 1 mm).

Praxis-Tipp: Berichte zusätzlich zum p-Wert immer den Median der Differenzen plus 95%-Konfidenzintervall (z.B. via Hodges-Lehmann-Schätzer). Der p-Wert allein ist nicht publikationsreif.

In SPSS berechnen

Analysieren → Nichtparametrische Tests → Alte Dialogfelder → Zwei verbundene Stichproben

Variablenpaar (z.B. pd_vorher und pd_nachher) in das Feld "Testpaare" ziehen
Häkchen bei Wilcoxon setzen (Standard)
OK

Im Output findest du:

Ränge-Tabelle: Anzahl der negativen, positiven und Bindungs-Ränge plus mittlere Ränge
Teststatistik-Tabelle: Z-Wert (z.B. Z = −2,98) und Asymptotische Signifikanz (zweiseitig) = p-Wert

Bei kleinen Stichproben (n < 20) zusätzlich Exakt → Exakter Test aktivieren — sonst nutzt SPSS die Normalapproximation, die bei n < 20 ungenau ist.

Eine ausführliche SPSS-Anleitung führt durch alle Schritte inkl. Voraussetzungsprüfung.

In R berechnen

# Daten
pd_vorher  <- c(6.5, 5.8, 7.1, 6.2, 5.9, 6.8, 7.3, 5.5,
                6.0, 6.7, 5.4, 7.0, 6.3, 5.7, 6.1, 6.9, 5.6, 5.3)
pd_nachher <- c(4.0, 4.2, 4.5, 4.8, 4.3, 5.0, 4.7, 4.4,
                4.6, 4.9, 4.1, 5.1, 4.5, 4.8, 4.6, 5.2, 4.7, 5.5)

# Wilcoxon-Vorzeichen-Rang-Test (gepaart!)
result <- wilcox.test(pd_vorher, pd_nachher,
                      paired = TRUE,
                      conf.int = TRUE,
                      exact = TRUE)
print(result)
# V = 14, p-value = 0.003
# 95 percent confidence interval: -2.40  -1.10
# (Hodges-Lehmann estimator)

Das Argument paired = TRUE ist entscheidend — sonst rechnet R den Mann-Whitney-U-Test für unabhängige Stichproben. Mit conf.int = TRUE erhältst du den Hodges-Lehmann-Schätzer als robustes Lagemaß plus 95%-KI.

Mehr Beispiele in der R-Statistik-Anleitung und im Tutorial zu Wilcoxon- und Mann-Whitney-Tests.

Häufige Fehler

Fehler 1: Verwechslung mit dem Mann-Whitney-U-Test

Beide werden umgangssprachlich "Wilcoxon-Test" genannt — sind aber für unterschiedliche Designs:

Vorzeichen-Rang-Test → gepaarte/abhängige Stichproben (paired = TRUE)
Mann-Whitney-U-Test → unabhängige Stichproben

Fehler 2: Anwendung trotz stark asymmetrischer Differenzen

Der Test setzt Symmetrie der Differenzen um den Median voraus. Bei stark schiefen Differenzen (z.B. Boden-/Deckeneffekte) ist der einfache Vorzeichentest robuster, auch wenn er weniger Power hat.

Fehler 3: Bindungen (Ties) ignorieren

Bei vielen identischen Differenzwerten oder vielen Nullen wird die Normalapproximation ungenau. Bei n < 20 oder vielen Bindungen sollte der exakte Test gewählt werden (exact = TRUE in R; "Exakte Tests" in SPSS).

Fehler 4: Nur den p-Wert berichten

Ohne Median der Differenzen und 95%-Konfidenzintervall (Hodges-Lehmann) ist die klinische Relevanz nicht beurteilbar. Auch eine Effektstärke wie r = Z / √N sollte angegeben werden.

Fehler 5: Anwendung bei n < 6

Bei sehr kleinen Stichproben hat der Test fast keine Power — selbst bei perfekter Effektrichtung kann der p-Wert nicht unter 0,05 fallen. Mindestens n ≥ 6 Paare, besser n ≥ 10.

Fehler 6: Mehrfachvergleiche ohne Korrektur

Bei mehr als zwei Messzeitpunkten am selben Patienten ist nicht der Wilcoxon-Test, sondern der Friedman-Test mit anschließenden post-hoc-Wilcoxon-Tests inklusive Bonferroni-Korrektur korrekt.

Häufige Fragen

„Wann nehme ich den Wilcoxon-Vorzeichen-Rang-Test statt eines gepaarten t-Tests?" → Wenn die Differenzen der gepaarten Messungen nicht normalverteilt sind (geprüft via Shapiro-Wilk-Test oder Q-Q-Plot), das Skalenniveau nur ordinal ist (z.B. VAS-Schmerzskala, Likert-Items) oder die Stichprobe klein ist (n < 30) und die Normalverteilung nicht überzeugend gezeigt werden kann.
„Was ist der Unterschied zwischen Wilcoxon-Vorzeichen-Rang-Test und Mann-Whitney-U-Test?" → Der Vorzeichen-Rang-Test ist für gepaarte/abhängige Stichproben (z.B. Vorher-Nachher am selben Patienten), der Mann-Whitney-U-Test (auch Wilcoxon-Rangsummen-Test) für unabhängige Stichproben (z.B. Behandlungs- vs. Kontrollgruppe). In R: paired = TRUE vs. paired = FALSE.
„Welche Voraussetzungen muss ich prüfen?" → Die Stichproben müssen gepaart sein, das Skalenniveau mindestens ordinal, und die Differenzen sollten symmetrisch um den Median verteilt sein. Die Rohdaten müssen nicht normalverteilt sein — das ist gerade der Vorteil gegenüber dem t-Test.
„Was bedeutet die Teststatistik W bzw. V im R-Output?" → W (in SPSS) oder V (in R) ist die Summe der positiven Vorzeichen-Ränge. Unter H₀ (kein Unterschied) sollte W etwa n(n+1)/4 betragen. Stark abweichende Werte sprechen gegen H₀. Für die Interpretation ist primär der p-Wert relevant; W selbst sollte aber ebenfalls berichtet werden.
„Wie gehe ich mit Bindungen (gleichen Differenzwerten) um?" → Bei Bindungen werden mittlere Ränge vergeben (z.B. Ränge 4 und 5 → beide bekommen Rang 4,5). Bei vielen Bindungen oder Nullen sollte der exakte Test verwendet werden, da die Normalapproximation ungenau wird. In R: wilcox.test(..., exact = TRUE); in SPSS: Option "Exakte Tests".
„Welche Effektstärke berichte ich beim Wilcoxon-Test?" → Üblich ist r = |Z| / √N, wobei Z aus dem Output kommt und N die Anzahl gepaarter Beobachtungen ist (inkl. Nullen). Interpretation nach Cohen: r ≈ 0,1 = klein, 0,3 = mittel, 0,5 = groß. Alternativ: Median der Differenzen + 95%-KI über den Hodges-Lehmann-Schätzer.
„Kann ich den Wilcoxon-Test bei mehr als zwei Messzeitpunkten verwenden?" → Nein, nicht direkt. Bei drei oder mehr abhängigen Messungen wird der Friedman-Test verwendet. Bei signifikantem Friedman-Test können post-hoc-Wilcoxon-Tests paarweise durchgeführt werden — dann aber zwingend mit Bonferroni- oder Holm-Korrektur für multiples Testen.
„Wie berichte ich den Test in einer Publikation?" → Vollständig z.B.: "Die Sondierungstiefe sank von im Median 6,2 mm (IQR 5,7–6,8) auf 4,6 mm (IQR 4,3–4,9). Der Wilcoxon-Vorzeichen-Rang-Test zeigt eine signifikante Reduktion (V = 14, p = 0,003, n = 18, Hodges-Lehmann-Schätzer der Differenz: −1,8 mm, 95%-KI: −2,4 bis −1,1 mm; r = 0,70)." So sind sowohl Signifikanz als auch Effektgröße transparent.
„Was passiert mit Paaren, deren Differenz null ist?" → Klassisch werden Null-Differenzen vor der Rangbildung entfernt (Wilcoxons ursprüngliche Methode), wodurch sich n reduziert. Moderne Varianten (z.B. Pratts Methode) behalten die Nullen bei der Rangbildung. R verwendet standardmäßig die klassische Methode. Bei vielen Null-Differenzen sollte dies im Methodenteil erwähnt werden.

✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer