p-Wert: Definition, Interpretation & Beispiele
Der p-Wert ist die Wahrscheinlichkeit, ein mindestens so extremes Testergebnis zu beobachten wie das tatsächliche — gegeben die Nullhypothese ist wahr. Definition, Interpretation, Fehler und Anwendung in SPSS und R.
Definition
Der p-Wert (auch: p-value, Überschreitungswahrscheinlichkeit) ist die Wahrscheinlichkeit, unter Annahme der Nullhypothese H₀ ein Testergebnis zu beobachten, das mindestens so extrem ist wie das tatsächlich beobachtete. Er ist kein Maß für die Wahrscheinlichkeit, dass H₀ wahr oder falsch ist — eine Verwechslung, die in der medizinischen Forschungspraxis häufig vorkommt.
Merke: p-Wert ≠ Wahrscheinlichkeit, dass H₀ wahr ist. Der p-Wert sagt nur, wie wahrscheinlich die beobachteten Daten unter H₀ wären — er sagt nichts darüber, ob H₀ tatsächlich gilt.
Formel
Für eine Teststatistik T mit beobachtetem Wert t_obs:
$$p = P(T \geq t_{obs} \mid H_0)$$
bei einseitigem Test. Bei zweiseitigem Test:
$$p = P(|T| \geq |t_{obs}| \mid H_0)$$
In der Praxis wird der p-Wert von der Statistik-Software automatisch aus der Verteilung der Teststatistik berechnet (z.B. t-Verteilung beim t-Test, F-Verteilung bei der ANOVA, χ²-Verteilung beim Chi-Quadrat-Test).
Voraussetzungen
Damit ein p-Wert sinnvoll interpretiert werden kann, müssen die Voraussetzungen des verwendeten Tests erfüllt sein:
- Test korrekt zur Fragestellung gewählt — passendes Skalenniveau, passende Gruppenanzahl
- Verteilungsannahmen erfüllt — z.B. annähernde Normalverteilung beim parametrischen t-Test, Varianzhomogenität bei der ANOVA
- Stichprobe unabhängig — Beobachtungen dürfen nicht voneinander abhängen (sonst korrigierte Tests notwendig)
- Hypothesen vor Datenerhebung definiert — sonst wird der p-Wert durch p-Hacking manipuliert
Eine ausführliche Diskussion der Voraussetzungen findest du in der Übersicht zu Statistik in der Doktorarbeit.
Interpretation
Die klassische Schwelle in der medizinischen Forschung ist α = 0,05 (5 %-Signifikanzniveau). Daraus ergibt sich die übliche Interpretation:
| p-Wert | Übliche Interpretation |
|---|---|
| p < 0,001 | sehr stark signifikant |
| p < 0,01 | stark signifikant |
| p < 0,05 | signifikant — H₀ ablehnen |
| 0,05 ≤ p < 0,10 | tendenziell signifikant (heikel — siehe unten) |
| p ≥ 0,10 | nicht signifikant — H₀ beibehalten |
Wichtig: "Signifikant" bedeutet statistisch signifikant, nicht klinisch relevant. Bei sehr großen Stichproben (n > 1.000) werden auch klinisch bedeutungslose Effekte signifikant. Daher gehört zu jedem p-Wert die zugehörige Effektstärke plus 95%-Konfidenzintervall.
Klinisches Anwendungsbeispiel
Studie: Vergleich der mittleren systolischen Blutdrucksenkung zwischen zwei Antihypertensiva (n = 100 pro Gruppe).
- Gruppe A: M = -12,4 mmHg, SD = 8,2
- Gruppe B: M = -9,8 mmHg, SD = 7,9
- Mittelwertdifferenz: 2,6 mmHg, t(198) = 2,28
- p = 0,024
Interpretation: Wenn beide Medikamente in Wahrheit gleich wirksam wären (H₀), würde man bei 100 Wiederholungen der Studie nur in 2,4 % der Fälle eine Differenz von ≥ 2,6 mmHg beobachten. Die H₀ wird verworfen — Gruppe A wirkt statistisch signifikant stärker als Gruppe B.
ABER: Ist eine Differenz von 2,6 mmHg klinisch relevant? Hier muss ergänzend die Effektstärke (Cohens d ≈ 0,32 — kleiner Effekt) und das 95%-Konfidenzintervall (z.B. 0,3 bis 4,9 mmHg) betrachtet werden.
In SPSS berechnen
Analysieren → Mittelwerte vergleichen → t-Test bei unabhängigen Stichproben
Im Output-Tab "Test bei unabhängigen Stichproben" findest du:
- Signifikanz (zweiseitig) = p-Wert (zweiseitig)
- Ist der Wert "0,000" angezeigt → das bedeutet p < 0,001 (SPSS-Anzeigeeigenheit, nicht "p = 0")
Eine ausführliche SPSS-Anleitung mit weiteren Tests gibt es im Begleit-Tutorial.
In R berechnen
# t-Test bei unabhängigen Stichproben
result <- t.test(blutdruck ~ gruppe, data = df, var.equal = TRUE)
result$p.value
# [1] 0.02385
# Komplettes Output
print(result)
# t = 2.28, df = 198, p-value = 0.02385
# 95 percent confidence interval: 0.35 to 4.85
Die Funktionen chisq.test(), wilcox.test(), aov() etc. liefern alle p-Werte zurück. Mehr in unserer R-Statistik-Anleitung.
Häufige Fehler
Fehler 1: p-Wert als "Wahrscheinlichkeit dass H₀ wahr ist" interpretieren
Falsch: "p = 0,03 bedeutet, H₀ ist mit 3 % Wahrscheinlichkeit wahr." Richtig: "Wenn H₀ wahr wäre, läge die Wahrscheinlichkeit für unser Ergebnis (oder ein extremeres) bei 3 %."
Fehler 2: p < 0,05 = "signifikant" mit "klinisch relevant" gleichsetzen
Bei n = 5.000 wird auch eine Differenz von 0,5 mmHg signifikant. Klinisch ist das aber bedeutungslos. Effektstärke + Konfidenzintervall mit angeben.
Fehler 3: Multiple Tests ohne Korrektur
Bei 20 unabhängigen Tests à α = 0,05 erwartet man eine falsch-positive Signifikanz allein durch Zufall. Korrektur via Bonferroni, Holm oder False Discovery Rate (FDR) ist Pflicht.
Fehler 4: p-Hacking
Tests so lange variieren bis irgendeiner signifikant wird, dann nur diesen berichten. Wissenschaftlich unredlich, aber in der Praxis häufig.
Fehler 5: "p = 0,06 → tendenziell signifikant"
Es gibt entweder signifikant (p < α) oder nicht. "Tendenziell" ist ein Trostpreis-Wort und gehört nicht in publikationsreife Methodik.
Verwandte Konzepte
- Signifikanzniveau α — vorab gesetzte Schwelle, klassisch 0,05
- Konfidenzintervall — gibt im Gegensatz zum p-Wert auch die Effektgröße + Präzision an
- Effektstärke — wie groß der beobachtete Effekt ist (z.B. Cohens d, Odds Ratio)
- Fehler 1. Art — H₀ wird abgelehnt, obwohl sie wahr ist (Wahrscheinlichkeit α)
- Fehler 2. Art — H₀ wird beibehalten, obwohl sie falsch ist (Wahrscheinlichkeit β)
- Statistische Power — Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt zu detektieren (1 − β)
Häufige Fragen
- „Was bedeutet p < 0,05 in einer wissenschaftlichen Publikation?" → Es bedeutet, dass die Wahrscheinlichkeit, das beobachtete Ergebnis (oder ein extremeres) unter Annahme der Nullhypothese zu erhalten, kleiner als 5 % ist. Die H₀ wird verworfen, der Effekt gilt als statistisch signifikant. Klinische Relevanz wird damit jedoch nicht beurteilt.
- „Warum zeigt SPSS manchmal p = 0,000?" → Das ist eine Anzeigeeigenheit von SPSS bei sehr kleinen p-Werten. Es bedeutet p < 0,001, nicht p = 0. In Publikationen wird dies korrekt als "p < 0,001" berichtet.
- „Welche Schwelle ist üblich: 0,05 oder 0,01?" → In der medizinischen Forschung dominiert α = 0,05. Bei explorativen Analysen oder mehrfachen Tests wird oft auf α = 0,01 oder strenger korrigiert (Bonferroni: α/Anzahl Tests). Die Schwelle muss vor Datenerhebung definiert werden.
- „Was ist der Unterschied zwischen einseitigem und zweiseitigem p-Wert?" → Beim zweiseitigen Test wird ein Effekt in beide Richtungen geprüft (Standard in der Medizin). Beim einseitigen Test nur in eine vorab spezifizierte Richtung. Einseitige Tests halbieren den p-Wert, sind aber nur zulässig, wenn die Richtung des Effekts vor Datenerhebung begründet feststeht.
- „Kann ein hoher p-Wert (> 0,05) die Nullhypothese beweisen?" → Nein. Ein nicht-signifikanter p-Wert bedeutet "Wir konnten H₀ nicht ablehnen" — nicht "H₀ ist wahr". Es kann sein, dass die Stichprobe zu klein war (mangelnde Power) oder der Effekt tatsächlich klein ist. Konfidenzintervalle helfen bei der Differenzierung.
- „Wie hängen p-Wert und Konfidenzintervall zusammen?" → Bei zweiseitigem Test mit α = 0,05 entspricht dem p-Wert das 95%-Konfidenzintervall. Wenn das KI für eine Mittelwertdifferenz die Null nicht enthält, ist p < 0,05. Das KI gibt zusätzlich die Effektgröße und Präzision an — es ist daher informativer und sollte immer mit berichtet werden.
- „Was ist p-Hacking?" → p-Hacking ist die wissenschaftlich unredliche Praxis, mehrere Tests, Untergruppen, Messzeitpunkte oder Datenausschlüsse zu probieren, bis sich ein signifikanter p-Wert ergibt — und dann nur diesen Test zu berichten. Es ist eine der häufigsten Quellen reproduzierbarer Forschungsfehler. Schutz: vorab definierte Hypothesen, Präregistrierung, Korrektur für multiple Tests.
- „Welche Software liefert die zuverlässigsten p-Werte?" → Alle gängigen Statistik-Pakete (SPSS, R, Stata, Python/scipy, Jamovi) berechnen p-Werte auf Basis derselben statistischen Verteilungen — die Werte sind identisch bis auf numerische Präzision. Der Unterschied liegt in der Bedienung und den verfügbaren Tests, nicht in den p-Werten selbst.