Wilcoxon-Vorzeichen-Rang-Test: Definition & Anwendung
Der Wilcoxon-Vorzeichen-Rang-Test ist der nichtparametrische Pendant zum gepaarten t-Test. Definition, Voraussetzungen, Interpretation und Anwendung in SPSS und R mit klinischem Beispiel.
Definition
Der Wilcoxon-Vorzeichen-Rang-Test (engl. Wilcoxon signed-rank test) ist ein nichtparametrischer Hypothesentest für den Vergleich zweier abhängiger (gepaarter) Stichproben. Er prüft, ob sich die zentrale Tendenz (in der Praxis: der Median) zweier verbundener Messungen unterscheidet — z.B. Vorher-Nachher-Messungen am selben Patienten oder Messungen am rechten vs. linken Quadranten.
Er ist die nichtparametrische Alternative zum gepaarten t-Test und wird verwendet, wenn die Differenzen nicht normalverteilt sind, das Skalenniveau nur ordinal ist oder die Stichprobe klein ist (n < 30).
Merke: Nicht verwechseln mit dem Wilcoxon-Rangsummen-Test (= Mann-Whitney-U-Test) für unabhängige Stichproben. Beide tragen den Namen Wilcoxon, prüfen aber unterschiedliche Designs.
Voraussetzungen
Damit der Test korrekt angewendet werden kann, müssen folgende Bedingungen erfüllt sein:
- Abhängige (gepaarte) Stichproben — z.B. Messwiederholung am selben Probanden, Matched-Pairs-Design, Vorher-Nachher
- Mindestens ordinales Skalenniveau der Differenzen — Ränge müssen sinnvoll bildbar sein
- Symmetrische Verteilung der Differenzen um den Median (klassische Annahme; bei stark asymmetrischen Differenzen besser den Vorzeichentest verwenden)
- Stichprobengröße — sinnvoll ab n ≥ 6 Paaren; ab n ≥ 20 Paaren ist die Normalapproximation der Teststatistik gültig
Die Annahme der Normalverteilung der Rohdaten ist nicht erforderlich — das ist der Hauptvorteil gegenüber dem t-Test.
Funktionsweise
Der Test läuft in vier Schritten:
- Differenzen bilden: für jedes Paar i wird d_i = x_i − y_i berechnet
- Nullen entfernen: Paare mit d_i = 0 werden ausgeschlossen (Stichprobengröße sinkt entsprechend)
- Beträge ranken: |d_i| werden aufsteigend rangiert; bei Ranggleichheit (Ties) werden mittlere Ränge vergeben
- Vorzeichen-Ränge summieren: W⁺ = Summe der Ränge mit positiven Differenzen, W⁻ = Summe mit negativen. Die Teststatistik W ist die kleinere der beiden Summen
Unter H₀ (kein Unterschied) sollten W⁺ und W⁻ etwa gleich groß sein. Weicht W stark ab, spricht das gegen H₀.
Hypothesen
- H₀: Der Median der Differenzen ist null — beide Messungen stammen aus derselben Verteilung
- H₁ (zweiseitig): Der Median der Differenzen ist ungleich null
- H₁ (einseitig): Der Median der Differenzen ist größer (bzw. kleiner) als null
Klinisches Anwendungsbeispiel
Studie: Reduktion der Sondierungstiefe (PD in mm) an parodontal vorgeschädigten Zähnen vor und 3 Monate nach geschlossener Kürettage (n = 18 Patienten, ein Indexzahn pro Patient).
| Patient | PD vorher | PD nachher | Differenz |
|---|---|---|---|
| 1 | 6,5 | 4,0 | −2,5 |
| 2 | 5,8 | 4,2 | −1,6 |
| 3 | 7,1 | 4,5 | −2,6 |
| … | … | … | … |
| 18 | 5,3 | 5,5 | +0,2 |
Da die Differenzen rechtsschief verteilt sind (Shapiro-Wilk p = 0,02), wird statt des gepaarten t-Tests der Wilcoxon-Vorzeichen-Rang-Test gewählt.
Ergebnis: W = 14, n = 18, p = 0,003, Median der Differenzen = −1,8 mm (95%-KI: −2,4 bis −1,1 mm).
Interpretation: Die Sondierungstiefen nach Kürettage sind statistisch signifikant geringer als vorher (p = 0,003). Die mediane Reduktion von 1,8 mm ist klinisch relevant (Schwelle für Therapieerfolg ≥ 1 mm).
Praxis-Tipp: Berichte zusätzlich zum p-Wert immer den Median der Differenzen plus 95%-Konfidenzintervall (z.B. via Hodges-Lehmann-Schätzer). Der p-Wert allein ist nicht publikationsreif.
In SPSS berechnen
Analysieren → Nichtparametrische Tests → Alte Dialogfelder → Zwei verbundene Stichproben
- Variablenpaar (z.B.
pd_vorherundpd_nachher) in das Feld "Testpaare" ziehen - Häkchen bei Wilcoxon setzen (Standard)
- OK
Im Output findest du:
- Ränge-Tabelle: Anzahl der negativen, positiven und Bindungs-Ränge plus mittlere Ränge
- Teststatistik-Tabelle: Z-Wert (z.B. Z = −2,98) und Asymptotische Signifikanz (zweiseitig) = p-Wert
Bei kleinen Stichproben (n < 20) zusätzlich Exakt → Exakter Test aktivieren — sonst nutzt SPSS die Normalapproximation, die bei n < 20 ungenau ist.
Eine ausführliche SPSS-Anleitung führt durch alle Schritte inkl. Voraussetzungsprüfung.
In R berechnen
# Daten
pd_vorher <- c(6.5, 5.8, 7.1, 6.2, 5.9, 6.8, 7.3, 5.5,
6.0, 6.7, 5.4, 7.0, 6.3, 5.7, 6.1, 6.9, 5.6, 5.3)
pd_nachher <- c(4.0, 4.2, 4.5, 4.8, 4.3, 5.0, 4.7, 4.4,
4.6, 4.9, 4.1, 5.1, 4.5, 4.8, 4.6, 5.2, 4.7, 5.5)
# Wilcoxon-Vorzeichen-Rang-Test (gepaart!)
result <- wilcox.test(pd_vorher, pd_nachher,
paired = TRUE,
conf.int = TRUE,
exact = TRUE)
print(result)
# V = 14, p-value = 0.003
# 95 percent confidence interval: -2.40 -1.10
# (Hodges-Lehmann estimator)
Das Argument paired = TRUE ist entscheidend — sonst rechnet R den Mann-Whitney-U-Test für unabhängige Stichproben. Mit conf.int = TRUE erhältst du den Hodges-Lehmann-Schätzer als robustes Lagemaß plus 95%-KI.
Mehr Beispiele in der R-Statistik-Anleitung und im Tutorial zu Wilcoxon- und Mann-Whitney-Tests.
Häufige Fehler
Fehler 1: Verwechslung mit dem Mann-Whitney-U-Test
Beide werden umgangssprachlich "Wilcoxon-Test" genannt — sind aber für unterschiedliche Designs:
- Vorzeichen-Rang-Test → gepaarte/abhängige Stichproben (
paired = TRUE) - Mann-Whitney-U-Test → unabhängige Stichproben
Fehler 2: Anwendung trotz stark asymmetrischer Differenzen
Der Test setzt Symmetrie der Differenzen um den Median voraus. Bei stark schiefen Differenzen (z.B. Boden-/Deckeneffekte) ist der einfache Vorzeichentest robuster, auch wenn er weniger Power hat.
Fehler 3: Bindungen (Ties) ignorieren
Bei vielen identischen Differenzwerten oder vielen Nullen wird die Normalapproximation ungenau. Bei n < 20 oder vielen Bindungen sollte der exakte Test gewählt werden (exact = TRUE in R; "Exakte Tests" in SPSS).
Fehler 4: Nur den p-Wert berichten
Ohne Median der Differenzen und 95%-Konfidenzintervall (Hodges-Lehmann) ist die klinische Relevanz nicht beurteilbar. Auch eine Effektstärke wie r = Z / √N sollte angegeben werden.
Fehler 5: Anwendung bei n < 6
Bei sehr kleinen Stichproben hat der Test fast keine Power — selbst bei perfekter Effektrichtung kann der p-Wert nicht unter 0,05 fallen. Mindestens n ≥ 6 Paare, besser n ≥ 10.
Fehler 6: Mehrfachvergleiche ohne Korrektur
Bei mehr als zwei Messzeitpunkten am selben Patienten ist nicht der Wilcoxon-Test, sondern der Friedman-Test mit anschließenden post-hoc-Wilcoxon-Tests inklusive Bonferroni-Korrektur korrekt.
Verwandte Konzepte
- Gepaarter t-Test — parametrisches Pendant bei normalverteilten Differenzen
- Mann-Whitney-U-Test — nichtparametrische Alternative für unabhängige Stichproben
- Median — robustes Lagemaß; primärer Zielparameter beim Wilcoxon-Test
- Friedman-Test — Erweiterung auf mehr als zwei abhängige Messungen (z.B. drei Messzeitpunkte)
- Vorzeichentest — einfachere Alternative bei stark asymmetrischen Differenzen
- Hodges-Lehmann-Schätzer — robustes Lagemaß für die mediane Differenz inkl. Konfidenzintervall
Häufige Fragen
- „Wann nehme ich den Wilcoxon-Vorzeichen-Rang-Test statt eines gepaarten t-Tests?" → Wenn die Differenzen der gepaarten Messungen nicht normalverteilt sind (geprüft via Shapiro-Wilk-Test oder Q-Q-Plot), das Skalenniveau nur ordinal ist (z.B. VAS-Schmerzskala, Likert-Items) oder die Stichprobe klein ist (n < 30) und die Normalverteilung nicht überzeugend gezeigt werden kann.
- „Was ist der Unterschied zwischen Wilcoxon-Vorzeichen-Rang-Test und Mann-Whitney-U-Test?" → Der Vorzeichen-Rang-Test ist für gepaarte/abhängige Stichproben (z.B. Vorher-Nachher am selben Patienten), der Mann-Whitney-U-Test (auch Wilcoxon-Rangsummen-Test) für unabhängige Stichproben (z.B. Behandlungs- vs. Kontrollgruppe). In R:
paired = TRUEvs.paired = FALSE. - „Welche Voraussetzungen muss ich prüfen?" → Die Stichproben müssen gepaart sein, das Skalenniveau mindestens ordinal, und die Differenzen sollten symmetrisch um den Median verteilt sein. Die Rohdaten müssen nicht normalverteilt sein — das ist gerade der Vorteil gegenüber dem t-Test.
- „Was bedeutet die Teststatistik W bzw. V im R-Output?" → W (in SPSS) oder V (in R) ist die Summe der positiven Vorzeichen-Ränge. Unter H₀ (kein Unterschied) sollte W etwa n(n+1)/4 betragen. Stark abweichende Werte sprechen gegen H₀. Für die Interpretation ist primär der p-Wert relevant; W selbst sollte aber ebenfalls berichtet werden.
- „Wie gehe ich mit Bindungen (gleichen Differenzwerten) um?" → Bei Bindungen werden mittlere Ränge vergeben (z.B. Ränge 4 und 5 → beide bekommen Rang 4,5). Bei vielen Bindungen oder Nullen sollte der exakte Test verwendet werden, da die Normalapproximation ungenau wird. In R:
wilcox.test(..., exact = TRUE); in SPSS: Option "Exakte Tests". - „Welche Effektstärke berichte ich beim Wilcoxon-Test?" → Üblich ist r = |Z| / √N, wobei Z aus dem Output kommt und N die Anzahl gepaarter Beobachtungen ist (inkl. Nullen). Interpretation nach Cohen: r ≈ 0,1 = klein, 0,3 = mittel, 0,5 = groß. Alternativ: Median der Differenzen + 95%-KI über den Hodges-Lehmann-Schätzer.
- „Kann ich den Wilcoxon-Test bei mehr als zwei Messzeitpunkten verwenden?" → Nein, nicht direkt. Bei drei oder mehr abhängigen Messungen wird der Friedman-Test verwendet. Bei signifikantem Friedman-Test können post-hoc-Wilcoxon-Tests paarweise durchgeführt werden — dann aber zwingend mit Bonferroni- oder Holm-Korrektur für multiples Testen.
- „Wie berichte ich den Test in einer Publikation?" → Vollständig z.B.: "Die Sondierungstiefe sank von im Median 6,2 mm (IQR 5,7–6,8) auf 4,6 mm (IQR 4,3–4,9). Der Wilcoxon-Vorzeichen-Rang-Test zeigt eine signifikante Reduktion (V = 14, p = 0,003, n = 18, Hodges-Lehmann-Schätzer der Differenz: −1,8 mm, 95%-KI: −2,4 bis −1,1 mm; r = 0,70)." So sind sowohl Signifikanz als auch Effektgröße transparent.
- „Was passiert mit Paaren, deren Differenz null ist?" → Klassisch werden Null-Differenzen vor der Rangbildung entfernt (Wilcoxons ursprüngliche Methode), wodurch sich n reduziert. Moderne Varianten (z.B. Pratts Methode) behalten die Nullen bei der Rangbildung. R verwendet standardmäßig die klassische Methode. Bei vielen Null-Differenzen sollte dies im Methodenteil erwähnt werden.