Wilcoxon-Vorzeichen-Rang-Test: Definition & Anwendung

Der Wilcoxon-Vorzeichen-Rang-Test ist der nichtparametrische Pendant zum gepaarten t-Test. Definition, Voraussetzungen, Interpretation und Anwendung in SPSS und R mit klinischem Beispiel.

Definition

Der Wilcoxon-Vorzeichen-Rang-Test (engl. Wilcoxon signed-rank test) ist ein nichtparametrischer Hypothesentest für den Vergleich zweier abhängiger (gepaarter) Stichproben. Er prüft, ob sich die zentrale Tendenz (in der Praxis: der Median) zweier verbundener Messungen unterscheidet — z.B. Vorher-Nachher-Messungen am selben Patienten oder Messungen am rechten vs. linken Quadranten.

Er ist die nichtparametrische Alternative zum gepaarten t-Test und wird verwendet, wenn die Differenzen nicht normalverteilt sind, das Skalenniveau nur ordinal ist oder die Stichprobe klein ist (n < 30).

Merke: Nicht verwechseln mit dem Wilcoxon-Rangsummen-Test (= Mann-Whitney-U-Test) für unabhängige Stichproben. Beide tragen den Namen Wilcoxon, prüfen aber unterschiedliche Designs.

Voraussetzungen

Damit der Test korrekt angewendet werden kann, müssen folgende Bedingungen erfüllt sein:

  • Abhängige (gepaarte) Stichproben — z.B. Messwiederholung am selben Probanden, Matched-Pairs-Design, Vorher-Nachher
  • Mindestens ordinales Skalenniveau der Differenzen — Ränge müssen sinnvoll bildbar sein
  • Symmetrische Verteilung der Differenzen um den Median (klassische Annahme; bei stark asymmetrischen Differenzen besser den Vorzeichentest verwenden)
  • Stichprobengröße — sinnvoll ab n ≥ 6 Paaren; ab n ≥ 20 Paaren ist die Normalapproximation der Teststatistik gültig

Die Annahme der Normalverteilung der Rohdaten ist nicht erforderlich — das ist der Hauptvorteil gegenüber dem t-Test.

Funktionsweise

Der Test läuft in vier Schritten:

  1. Differenzen bilden: für jedes Paar i wird d_i = x_i − y_i berechnet
  2. Nullen entfernen: Paare mit d_i = 0 werden ausgeschlossen (Stichprobengröße sinkt entsprechend)
  3. Beträge ranken: |d_i| werden aufsteigend rangiert; bei Ranggleichheit (Ties) werden mittlere Ränge vergeben
  4. Vorzeichen-Ränge summieren: W⁺ = Summe der Ränge mit positiven Differenzen, W⁻ = Summe mit negativen. Die Teststatistik W ist die kleinere der beiden Summen

Unter H₀ (kein Unterschied) sollten W⁺ und W⁻ etwa gleich groß sein. Weicht W stark ab, spricht das gegen H₀.

Hypothesen

  • H₀: Der Median der Differenzen ist null — beide Messungen stammen aus derselben Verteilung
  • H₁ (zweiseitig): Der Median der Differenzen ist ungleich null
  • H₁ (einseitig): Der Median der Differenzen ist größer (bzw. kleiner) als null

Klinisches Anwendungsbeispiel

Studie: Reduktion der Sondierungstiefe (PD in mm) an parodontal vorgeschädigten Zähnen vor und 3 Monate nach geschlossener Kürettage (n = 18 Patienten, ein Indexzahn pro Patient).

Patient PD vorher PD nachher Differenz
1 6,5 4,0 −2,5
2 5,8 4,2 −1,6
3 7,1 4,5 −2,6
18 5,3 5,5 +0,2

Da die Differenzen rechtsschief verteilt sind (Shapiro-Wilk p = 0,02), wird statt des gepaarten t-Tests der Wilcoxon-Vorzeichen-Rang-Test gewählt.

Ergebnis: W = 14, n = 18, p = 0,003, Median der Differenzen = −1,8 mm (95%-KI: −2,4 bis −1,1 mm).

Interpretation: Die Sondierungstiefen nach Kürettage sind statistisch signifikant geringer als vorher (p = 0,003). Die mediane Reduktion von 1,8 mm ist klinisch relevant (Schwelle für Therapieerfolg ≥ 1 mm).

Praxis-Tipp: Berichte zusätzlich zum p-Wert immer den Median der Differenzen plus 95%-Konfidenzintervall (z.B. via Hodges-Lehmann-Schätzer). Der p-Wert allein ist nicht publikationsreif.

In SPSS berechnen

Analysieren → Nichtparametrische Tests → Alte Dialogfelder → Zwei verbundene Stichproben

  1. Variablenpaar (z.B. pd_vorher und pd_nachher) in das Feld "Testpaare" ziehen
  2. Häkchen bei Wilcoxon setzen (Standard)
  3. OK

Im Output findest du:

  • Ränge-Tabelle: Anzahl der negativen, positiven und Bindungs-Ränge plus mittlere Ränge
  • Teststatistik-Tabelle: Z-Wert (z.B. Z = −2,98) und Asymptotische Signifikanz (zweiseitig) = p-Wert

Bei kleinen Stichproben (n < 20) zusätzlich Exakt → Exakter Test aktivieren — sonst nutzt SPSS die Normalapproximation, die bei n < 20 ungenau ist.

Eine ausführliche SPSS-Anleitung führt durch alle Schritte inkl. Voraussetzungsprüfung.

In R berechnen

# Daten
pd_vorher  <- c(6.5, 5.8, 7.1, 6.2, 5.9, 6.8, 7.3, 5.5,
                6.0, 6.7, 5.4, 7.0, 6.3, 5.7, 6.1, 6.9, 5.6, 5.3)
pd_nachher <- c(4.0, 4.2, 4.5, 4.8, 4.3, 5.0, 4.7, 4.4,
                4.6, 4.9, 4.1, 5.1, 4.5, 4.8, 4.6, 5.2, 4.7, 5.5)

# Wilcoxon-Vorzeichen-Rang-Test (gepaart!)
result <- wilcox.test(pd_vorher, pd_nachher,
                      paired = TRUE,
                      conf.int = TRUE,
                      exact = TRUE)
print(result)
# V = 14, p-value = 0.003
# 95 percent confidence interval: -2.40  -1.10
# (Hodges-Lehmann estimator)

Das Argument paired = TRUE ist entscheidend — sonst rechnet R den Mann-Whitney-U-Test für unabhängige Stichproben. Mit conf.int = TRUE erhältst du den Hodges-Lehmann-Schätzer als robustes Lagemaß plus 95%-KI.

Mehr Beispiele in der R-Statistik-Anleitung und im Tutorial zu Wilcoxon- und Mann-Whitney-Tests.

Häufige Fehler

Fehler 1: Verwechslung mit dem Mann-Whitney-U-Test

Beide werden umgangssprachlich "Wilcoxon-Test" genannt — sind aber für unterschiedliche Designs:

  • Vorzeichen-Rang-Test → gepaarte/abhängige Stichproben (paired = TRUE)
  • Mann-Whitney-U-Test → unabhängige Stichproben

Fehler 2: Anwendung trotz stark asymmetrischer Differenzen

Der Test setzt Symmetrie der Differenzen um den Median voraus. Bei stark schiefen Differenzen (z.B. Boden-/Deckeneffekte) ist der einfache Vorzeichentest robuster, auch wenn er weniger Power hat.

Fehler 3: Bindungen (Ties) ignorieren

Bei vielen identischen Differenzwerten oder vielen Nullen wird die Normalapproximation ungenau. Bei n < 20 oder vielen Bindungen sollte der exakte Test gewählt werden (exact = TRUE in R; "Exakte Tests" in SPSS).

Fehler 4: Nur den p-Wert berichten

Ohne Median der Differenzen und 95%-Konfidenzintervall (Hodges-Lehmann) ist die klinische Relevanz nicht beurteilbar. Auch eine Effektstärke wie r = Z / √N sollte angegeben werden.

Fehler 5: Anwendung bei n < 6

Bei sehr kleinen Stichproben hat der Test fast keine Power — selbst bei perfekter Effektrichtung kann der p-Wert nicht unter 0,05 fallen. Mindestens n ≥ 6 Paare, besser n ≥ 10.

Fehler 6: Mehrfachvergleiche ohne Korrektur

Bei mehr als zwei Messzeitpunkten am selben Patienten ist nicht der Wilcoxon-Test, sondern der Friedman-Test mit anschließenden post-hoc-Wilcoxon-Tests inklusive Bonferroni-Korrektur korrekt.

Verwandte Konzepte

  • Gepaarter t-Test — parametrisches Pendant bei normalverteilten Differenzen
  • Mann-Whitney-U-Test — nichtparametrische Alternative für unabhängige Stichproben
  • Median — robustes Lagemaß; primärer Zielparameter beim Wilcoxon-Test
  • Friedman-Test — Erweiterung auf mehr als zwei abhängige Messungen (z.B. drei Messzeitpunkte)
  • Vorzeichentest — einfachere Alternative bei stark asymmetrischen Differenzen
  • Hodges-Lehmann-Schätzer — robustes Lagemaß für die mediane Differenz inkl. Konfidenzintervall

Häufige Fragen

  • „Wann nehme ich den Wilcoxon-Vorzeichen-Rang-Test statt eines gepaarten t-Tests?" → Wenn die Differenzen der gepaarten Messungen nicht normalverteilt sind (geprüft via Shapiro-Wilk-Test oder Q-Q-Plot), das Skalenniveau nur ordinal ist (z.B. VAS-Schmerzskala, Likert-Items) oder die Stichprobe klein ist (n < 30) und die Normalverteilung nicht überzeugend gezeigt werden kann.
  • „Was ist der Unterschied zwischen Wilcoxon-Vorzeichen-Rang-Test und Mann-Whitney-U-Test?" → Der Vorzeichen-Rang-Test ist für gepaarte/abhängige Stichproben (z.B. Vorher-Nachher am selben Patienten), der Mann-Whitney-U-Test (auch Wilcoxon-Rangsummen-Test) für unabhängige Stichproben (z.B. Behandlungs- vs. Kontrollgruppe). In R: paired = TRUE vs. paired = FALSE.
  • „Welche Voraussetzungen muss ich prüfen?" → Die Stichproben müssen gepaart sein, das Skalenniveau mindestens ordinal, und die Differenzen sollten symmetrisch um den Median verteilt sein. Die Rohdaten müssen nicht normalverteilt sein — das ist gerade der Vorteil gegenüber dem t-Test.
  • „Was bedeutet die Teststatistik W bzw. V im R-Output?" → W (in SPSS) oder V (in R) ist die Summe der positiven Vorzeichen-Ränge. Unter H₀ (kein Unterschied) sollte W etwa n(n+1)/4 betragen. Stark abweichende Werte sprechen gegen H₀. Für die Interpretation ist primär der p-Wert relevant; W selbst sollte aber ebenfalls berichtet werden.
  • „Wie gehe ich mit Bindungen (gleichen Differenzwerten) um?" → Bei Bindungen werden mittlere Ränge vergeben (z.B. Ränge 4 und 5 → beide bekommen Rang 4,5). Bei vielen Bindungen oder Nullen sollte der exakte Test verwendet werden, da die Normalapproximation ungenau wird. In R: wilcox.test(..., exact = TRUE); in SPSS: Option "Exakte Tests".
  • „Welche Effektstärke berichte ich beim Wilcoxon-Test?" → Üblich ist r = |Z| / √N, wobei Z aus dem Output kommt und N die Anzahl gepaarter Beobachtungen ist (inkl. Nullen). Interpretation nach Cohen: r ≈ 0,1 = klein, 0,3 = mittel, 0,5 = groß. Alternativ: Median der Differenzen + 95%-KI über den Hodges-Lehmann-Schätzer.
  • „Kann ich den Wilcoxon-Test bei mehr als zwei Messzeitpunkten verwenden?" → Nein, nicht direkt. Bei drei oder mehr abhängigen Messungen wird der Friedman-Test verwendet. Bei signifikantem Friedman-Test können post-hoc-Wilcoxon-Tests paarweise durchgeführt werden — dann aber zwingend mit Bonferroni- oder Holm-Korrektur für multiples Testen.
  • „Wie berichte ich den Test in einer Publikation?" → Vollständig z.B.: "Die Sondierungstiefe sank von im Median 6,2 mm (IQR 5,7–6,8) auf 4,6 mm (IQR 4,3–4,9). Der Wilcoxon-Vorzeichen-Rang-Test zeigt eine signifikante Reduktion (V = 14, p = 0,003, n = 18, Hodges-Lehmann-Schätzer der Differenz: −1,8 mm, 95%-KI: −2,4 bis −1,1 mm; r = 0,70)." So sind sowohl Signifikanz als auch Effektgröße transparent.
  • „Was passiert mit Paaren, deren Differenz null ist?" → Klassisch werden Null-Differenzen vor der Rangbildung entfernt (Wilcoxons ursprüngliche Methode), wodurch sich n reduziert. Moderne Varianten (z.B. Pratts Methode) behalten die Nullen bei der Rangbildung. R verwendet standardmäßig die klassische Methode. Bei vielen Null-Differenzen sollte dies im Methodenteil erwähnt werden.
✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer