p-Wert: Definition, Interpretation & Beispiele

Der p-Wert ist die Wahrscheinlichkeit, ein mindestens so extremes Testergebnis zu beobachten wie das tatsächliche — gegeben die Nullhypothese ist wahr. Definition, Interpretation, Fehler und Anwendung in SPSS und R.

Definition

Der p-Wert (auch: p-value, Überschreitungswahrscheinlichkeit) ist die Wahrscheinlichkeit, unter Annahme der Nullhypothese H₀ ein Testergebnis zu beobachten, das mindestens so extrem ist wie das tatsächlich beobachtete. Er ist kein Maß für die Wahrscheinlichkeit, dass H₀ wahr oder falsch ist — eine Verwechslung, die in der medizinischen Forschungspraxis häufig vorkommt.

Merke: p-Wert ≠ Wahrscheinlichkeit, dass H₀ wahr ist. Der p-Wert sagt nur, wie wahrscheinlich die beobachteten Daten unter H₀ wären — er sagt nichts darüber, ob H₀ tatsächlich gilt.

Formel

Für eine Teststatistik T mit beobachtetem Wert t_obs:

$$p = P(T \geq t_{obs} \mid H_0)$$

bei einseitigem Test. Bei zweiseitigem Test:

$$p = P(|T| \geq |t_{obs}| \mid H_0)$$

In der Praxis wird der p-Wert von der Statistik-Software automatisch aus der Verteilung der Teststatistik berechnet (z.B. t-Verteilung beim t-Test, F-Verteilung bei der ANOVA, χ²-Verteilung beim Chi-Quadrat-Test).

Voraussetzungen

Damit ein p-Wert sinnvoll interpretiert werden kann, müssen die Voraussetzungen des verwendeten Tests erfüllt sein:

  • Test korrekt zur Fragestellung gewählt — passendes Skalenniveau, passende Gruppenanzahl
  • Verteilungsannahmen erfüllt — z.B. annähernde Normalverteilung beim parametrischen t-Test, Varianzhomogenität bei der ANOVA
  • Stichprobe unabhängig — Beobachtungen dürfen nicht voneinander abhängen (sonst korrigierte Tests notwendig)
  • Hypothesen vor Datenerhebung definiert — sonst wird der p-Wert durch p-Hacking manipuliert

Eine ausführliche Diskussion der Voraussetzungen findest du in der Übersicht zu Statistik in der Doktorarbeit.

Interpretation

Die klassische Schwelle in der medizinischen Forschung ist α = 0,05 (5 %-Signifikanzniveau). Daraus ergibt sich die übliche Interpretation:

p-Wert Übliche Interpretation
p < 0,001 sehr stark signifikant
p < 0,01 stark signifikant
p < 0,05 signifikant — H₀ ablehnen
0,05 ≤ p < 0,10 tendenziell signifikant (heikel — siehe unten)
p ≥ 0,10 nicht signifikant — H₀ beibehalten

Wichtig: "Signifikant" bedeutet statistisch signifikant, nicht klinisch relevant. Bei sehr großen Stichproben (n > 1.000) werden auch klinisch bedeutungslose Effekte signifikant. Daher gehört zu jedem p-Wert die zugehörige Effektstärke plus 95%-Konfidenzintervall.

Klinisches Anwendungsbeispiel

Studie: Vergleich der mittleren systolischen Blutdrucksenkung zwischen zwei Antihypertensiva (n = 100 pro Gruppe).

  • Gruppe A: M = -12,4 mmHg, SD = 8,2
  • Gruppe B: M = -9,8 mmHg, SD = 7,9
  • Mittelwertdifferenz: 2,6 mmHg, t(198) = 2,28
  • p = 0,024

Interpretation: Wenn beide Medikamente in Wahrheit gleich wirksam wären (H₀), würde man bei 100 Wiederholungen der Studie nur in 2,4 % der Fälle eine Differenz von ≥ 2,6 mmHg beobachten. Die H₀ wird verworfen — Gruppe A wirkt statistisch signifikant stärker als Gruppe B.

ABER: Ist eine Differenz von 2,6 mmHg klinisch relevant? Hier muss ergänzend die Effektstärke (Cohens d ≈ 0,32 — kleiner Effekt) und das 95%-Konfidenzintervall (z.B. 0,3 bis 4,9 mmHg) betrachtet werden.

In SPSS berechnen

Analysieren → Mittelwerte vergleichen → t-Test bei unabhängigen Stichproben

Im Output-Tab "Test bei unabhängigen Stichproben" findest du:

  • Signifikanz (zweiseitig) = p-Wert (zweiseitig)
  • Ist der Wert "0,000" angezeigt → das bedeutet p < 0,001 (SPSS-Anzeigeeigenheit, nicht "p = 0")

Eine ausführliche SPSS-Anleitung mit weiteren Tests gibt es im Begleit-Tutorial.

In R berechnen

# t-Test bei unabhängigen Stichproben
result <- t.test(blutdruck ~ gruppe, data = df, var.equal = TRUE)
result$p.value
# [1] 0.02385

# Komplettes Output
print(result)
# t = 2.28, df = 198, p-value = 0.02385
# 95 percent confidence interval: 0.35 to 4.85

Die Funktionen chisq.test(), wilcox.test(), aov() etc. liefern alle p-Werte zurück. Mehr in unserer R-Statistik-Anleitung.

Häufige Fehler

Fehler 1: p-Wert als "Wahrscheinlichkeit dass H₀ wahr ist" interpretieren

Falsch: "p = 0,03 bedeutet, H₀ ist mit 3 % Wahrscheinlichkeit wahr." Richtig: "Wenn H₀ wahr wäre, läge die Wahrscheinlichkeit für unser Ergebnis (oder ein extremeres) bei 3 %."

Fehler 2: p < 0,05 = "signifikant" mit "klinisch relevant" gleichsetzen

Bei n = 5.000 wird auch eine Differenz von 0,5 mmHg signifikant. Klinisch ist das aber bedeutungslos. Effektstärke + Konfidenzintervall mit angeben.

Fehler 3: Multiple Tests ohne Korrektur

Bei 20 unabhängigen Tests à α = 0,05 erwartet man eine falsch-positive Signifikanz allein durch Zufall. Korrektur via Bonferroni, Holm oder False Discovery Rate (FDR) ist Pflicht.

Fehler 4: p-Hacking

Tests so lange variieren bis irgendeiner signifikant wird, dann nur diesen berichten. Wissenschaftlich unredlich, aber in der Praxis häufig.

Fehler 5: "p = 0,06 → tendenziell signifikant"

Es gibt entweder signifikant (p < α) oder nicht. "Tendenziell" ist ein Trostpreis-Wort und gehört nicht in publikationsreife Methodik.

Verwandte Konzepte

  • Signifikanzniveau α — vorab gesetzte Schwelle, klassisch 0,05
  • Konfidenzintervall — gibt im Gegensatz zum p-Wert auch die Effektgröße + Präzision an
  • Effektstärke — wie groß der beobachtete Effekt ist (z.B. Cohens d, Odds Ratio)
  • Fehler 1. Art — H₀ wird abgelehnt, obwohl sie wahr ist (Wahrscheinlichkeit α)
  • Fehler 2. Art — H₀ wird beibehalten, obwohl sie falsch ist (Wahrscheinlichkeit β)
  • Statistische Power — Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt zu detektieren (1 − β)

Häufige Fragen

  • „Was bedeutet p < 0,05 in einer wissenschaftlichen Publikation?" → Es bedeutet, dass die Wahrscheinlichkeit, das beobachtete Ergebnis (oder ein extremeres) unter Annahme der Nullhypothese zu erhalten, kleiner als 5 % ist. Die H₀ wird verworfen, der Effekt gilt als statistisch signifikant. Klinische Relevanz wird damit jedoch nicht beurteilt.
  • „Warum zeigt SPSS manchmal p = 0,000?" → Das ist eine Anzeigeeigenheit von SPSS bei sehr kleinen p-Werten. Es bedeutet p < 0,001, nicht p = 0. In Publikationen wird dies korrekt als "p < 0,001" berichtet.
  • „Welche Schwelle ist üblich: 0,05 oder 0,01?" → In der medizinischen Forschung dominiert α = 0,05. Bei explorativen Analysen oder mehrfachen Tests wird oft auf α = 0,01 oder strenger korrigiert (Bonferroni: α/Anzahl Tests). Die Schwelle muss vor Datenerhebung definiert werden.
  • „Was ist der Unterschied zwischen einseitigem und zweiseitigem p-Wert?" → Beim zweiseitigen Test wird ein Effekt in beide Richtungen geprüft (Standard in der Medizin). Beim einseitigen Test nur in eine vorab spezifizierte Richtung. Einseitige Tests halbieren den p-Wert, sind aber nur zulässig, wenn die Richtung des Effekts vor Datenerhebung begründet feststeht.
  • „Kann ein hoher p-Wert (> 0,05) die Nullhypothese beweisen?" → Nein. Ein nicht-signifikanter p-Wert bedeutet "Wir konnten H₀ nicht ablehnen" — nicht "H₀ ist wahr". Es kann sein, dass die Stichprobe zu klein war (mangelnde Power) oder der Effekt tatsächlich klein ist. Konfidenzintervalle helfen bei der Differenzierung.
  • „Wie hängen p-Wert und Konfidenzintervall zusammen?" → Bei zweiseitigem Test mit α = 0,05 entspricht dem p-Wert das 95%-Konfidenzintervall. Wenn das KI für eine Mittelwertdifferenz die Null nicht enthält, ist p < 0,05. Das KI gibt zusätzlich die Effektgröße und Präzision an — es ist daher informativer und sollte immer mit berichtet werden.
  • „Was ist p-Hacking?" → p-Hacking ist die wissenschaftlich unredliche Praxis, mehrere Tests, Untergruppen, Messzeitpunkte oder Datenausschlüsse zu probieren, bis sich ein signifikanter p-Wert ergibt — und dann nur diesen Test zu berichten. Es ist eine der häufigsten Quellen reproduzierbarer Forschungsfehler. Schutz: vorab definierte Hypothesen, Präregistrierung, Korrektur für multiple Tests.
  • „Welche Software liefert die zuverlässigsten p-Werte?" → Alle gängigen Statistik-Pakete (SPSS, R, Stata, Python/scipy, Jamovi) berechnen p-Werte auf Basis derselben statistischen Verteilungen — die Werte sind identisch bis auf numerische Präzision. Der Unterschied liegt in der Bedienung und den verfügbaren Tests, nicht in den p-Werten selbst.
✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer