Was bedeutet p < 0,05 in einer wissenschaftlichen Publikation?

Es bedeutet, dass die Wahrscheinlichkeit, das beobachtete Ergebnis (oder ein extremeres) unter Annahme der Nullhypothese zu erhalten, kleiner als 5 % ist. Die H₀ wird verworfen, der Effekt gilt als statistisch signifikant. Klinische Relevanz wird damit jedoch nicht beurteilt.

Warum zeigt SPSS manchmal p = 0,000?

Das ist eine Anzeigeeigenheit von SPSS bei sehr kleinen p-Werten. Es bedeutet

Welche Schwelle ist üblich: 0,05 oder 0,01?

In der medizinischen Forschung dominiert α = 0,05. Bei explorativen Analysen oder mehrfachen Tests wird oft auf α = 0,01 oder strenger korrigiert (Bonferroni: α/Anzahl Tests). Die Schwelle muss vor Datenerhebung definiert werden.

Was ist der Unterschied zwischen einseitigem und zweiseitigem p-Wert?

Beim zweiseitigen Test wird ein Effekt in beide Richtungen geprüft (Standard in der Medizin). Beim einseitigen Test nur in eine vorab spezifizierte Richtung. Einseitige Tests halbieren den p-Wert, sind aber nur zulässig, wenn die Richtung des Effekts vor Datenerhebung begründet feststeht.

Kann ein hoher p-Wert (> 0,05) die Nullhypothese beweisen?

Nein. Ein nicht-signifikanter p-Wert bedeutet "Wir konnten H₀ nicht ablehnen" — nicht "H₀ ist wahr". Es kann sein, dass die Stichprobe zu klein war (mangelnde Power) oder der Effekt tatsächlich klein ist. Konfidenzintervalle helfen bei der Differenzierung.

Wie hängen p-Wert und Konfidenzintervall zusammen?

Bei zweiseitigem Test mit α = 0,05 entspricht dem p-Wert das 95%-Konfidenzintervall. Wenn das KI für eine Mittelwertdifferenz die Null nicht enthält, ist p < 0,05. Das KI gibt zusätzlich die Effektgröße und Präzision an — es ist daher informativer und sollte immer mit berichtet werden.

p-Hacking ist die wissenschaftlich unredliche Praxis, mehrere Tests, Untergruppen, Messzeitpunkte oder Datenausschlüsse zu probieren, bis sich ein signifikanter p-Wert ergibt — und dann nur diesen Test zu berichten. Es ist eine der häufigsten Quellen reproduzierbarer Forschungsfehler. Schutz: vorab definierte Hypothesen, Präregistrierung, Korrektur für multiple Tests.

Welche Software liefert die zuverlässigsten p-Werte?

Alle gängigen Statistik-Pakete (SPSS, R, Stata, Python/scipy, Jamovi) berechnen p-Werte auf Basis derselben statistischen Verteilungen — die Werte sind identisch bis auf numerische Präzision. Der Unterschied liegt in der Bedienung und den verfügbaren Tests, nicht in den p-Werten selbst.

p-Wert: Definition, Interpretation & Beispiele

Q: Was bedeutet p < 0,05 in einer wissenschaftlichen Publikation?

Es bedeutet, dass die Wahrscheinlichkeit, das beobachtete Ergebnis (oder ein extremeres) unter Annahme der Nullhypothese zu erhalten, kleiner als 5 % ist. Die H₀ wird verworfen, der Effekt gilt als statistisch signifikant. Klinische Relevanz wird damit jedoch nicht beurteilt.

Q: Warum zeigt SPSS manchmal p = 0,000?

Das ist eine Anzeigeeigenheit von SPSS bei sehr kleinen p-Werten. Es bedeutet

Q: Welche Schwelle ist üblich: 0,05 oder 0,01?

In der medizinischen Forschung dominiert α = 0,05. Bei explorativen Analysen oder mehrfachen Tests wird oft auf α = 0,01 oder strenger korrigiert (Bonferroni: α/Anzahl Tests). Die Schwelle muss vor Datenerhebung definiert werden.

Q: Was ist der Unterschied zwischen einseitigem und zweiseitigem p-Wert?

Beim zweiseitigen Test wird ein Effekt in beide Richtungen geprüft (Standard in der Medizin). Beim einseitigen Test nur in eine vorab spezifizierte Richtung. Einseitige Tests halbieren den p-Wert, sind aber nur zulässig, wenn die Richtung des Effekts vor Datenerhebung begründet feststeht.

Q: Was ist p-Hacking?

p-Hacking ist die wissenschaftlich unredliche Praxis, mehrere Tests, Untergruppen, Messzeitpunkte oder Datenausschlüsse zu probieren, bis sich ein signifikanter p-Wert ergibt — und dann nur diesen Test zu berichten. Es ist eine der häufigsten Quellen reproduzierbarer Forschungsfehler. Schutz: vorab definierte Hypothesen, Präregistrierung, Korrektur für multiple Tests.

Q: Welche Software liefert die zuverlässigsten p-Werte?

Alle gängigen Statistik-Pakete (SPSS, R, Stata, Python/scipy, Jamovi) berechnen p-Werte auf Basis derselben statistischen Verteilungen — die Werte sind identisch bis auf numerische Präzision. Der Unterschied liegt in der Bedienung und den verfügbaren Tests, nicht in den p-Werten selbst.

Der p-Wert ist die Wahrscheinlichkeit, ein mindestens so extremes Testergebnis zu beobachten wie das tatsächliche — gegeben die Nullhypothese ist wahr. Definition, Interpretation, Fehler und Anwendung in SPSS und R.

📊 Inferenzstatistik · ⏱️ 9 Min. · Aktualisiert 2026-05-10

Definition

Der p-Wert (auch: p-value, Überschreitungswahrscheinlichkeit) ist die Wahrscheinlichkeit, unter Annahme der Nullhypothese H₀ ein Testergebnis zu beobachten, das mindestens so extrem ist wie das tatsächlich beobachtete. Er ist kein Maß für die Wahrscheinlichkeit, dass H₀ wahr oder falsch ist — eine Verwechslung, die in der medizinischen Forschungspraxis häufig vorkommt.

Merke: p-Wert ≠ Wahrscheinlichkeit, dass H₀ wahr ist. Der p-Wert sagt nur, wie wahrscheinlich die beobachteten Daten unter H₀ wären — er sagt nichts darüber, ob H₀ tatsächlich gilt.

Formel

Für eine Teststatistik T mit beobachtetem Wert t_obs:

$$p = P(T \geq t_{obs} \mid H_0)$$

bei einseitigem Test. Bei zweiseitigem Test:

$$p = P(|T| \geq |t_{obs}| \mid H_0)$$

In der Praxis wird der p-Wert von der Statistik-Software automatisch aus der Verteilung der Teststatistik berechnet (z.B. t-Verteilung beim t-Test, F-Verteilung bei der ANOVA, χ²-Verteilung beim Chi-Quadrat-Test).

Voraussetzungen

Damit ein p-Wert sinnvoll interpretiert werden kann, müssen die Voraussetzungen des verwendeten Tests erfüllt sein:

Test korrekt zur Fragestellung gewählt — passendes Skalenniveau, passende Gruppenanzahl
Verteilungsannahmen erfüllt — z.B. annähernde Normalverteilung beim parametrischen t-Test, Varianzhomogenität bei der ANOVA
Stichprobe unabhängig — Beobachtungen dürfen nicht voneinander abhängen (sonst korrigierte Tests notwendig)
Hypothesen vor Datenerhebung definiert — sonst wird der p-Wert durch p-Hacking manipuliert

Eine ausführliche Diskussion der Voraussetzungen findest du in der Übersicht zu Statistik in der Doktorarbeit.

Interpretation

Die klassische Schwelle in der medizinischen Forschung ist α = 0,05 (5 %-Signifikanzniveau). Daraus ergibt sich die übliche Interpretation:

p-Wert	Übliche Interpretation
p < 0,001	sehr stark signifikant
p < 0,01	stark signifikant
p < 0,05	signifikant — H₀ ablehnen
0,05 ≤ p < 0,10	tendenziell signifikant (heikel — siehe unten)
p ≥ 0,10	nicht signifikant — H₀ beibehalten

Wichtig: "Signifikant" bedeutet statistisch signifikant, nicht klinisch relevant. Bei sehr großen Stichproben (n > 1.000) werden auch klinisch bedeutungslose Effekte signifikant. Daher gehört zu jedem p-Wert die zugehörige Effektstärke plus 95%-Konfidenzintervall.

Klinisches Anwendungsbeispiel

Studie: Vergleich der mittleren systolischen Blutdrucksenkung zwischen zwei Antihypertensiva (n = 100 pro Gruppe).

Gruppe A: M = -12,4 mmHg, SD = 8,2
Gruppe B: M = -9,8 mmHg, SD = 7,9
Mittelwertdifferenz: 2,6 mmHg, t(198) = 2,28
p = 0,024

Interpretation: Wenn beide Medikamente in Wahrheit gleich wirksam wären (H₀), würde man bei 100 Wiederholungen der Studie nur in 2,4 % der Fälle eine Differenz von ≥ 2,6 mmHg beobachten. Die H₀ wird verworfen — Gruppe A wirkt statistisch signifikant stärker als Gruppe B.

ABER: Ist eine Differenz von 2,6 mmHg klinisch relevant? Hier muss ergänzend die Effektstärke (Cohens d ≈ 0,32 — kleiner Effekt) und das 95%-Konfidenzintervall (z.B. 0,3 bis 4,9 mmHg) betrachtet werden.

In SPSS berechnen

Analysieren → Mittelwerte vergleichen → t-Test bei unabhängigen Stichproben

Im Output-Tab "Test bei unabhängigen Stichproben" findest du:

Signifikanz (zweiseitig) = p-Wert (zweiseitig)
Ist der Wert "0,000" angezeigt → das bedeutet p < 0,001 (SPSS-Anzeigeeigenheit, nicht "p = 0")

Eine ausführliche SPSS-Anleitung mit weiteren Tests gibt es im Begleit-Tutorial.

In R berechnen

# t-Test bei unabhängigen Stichproben
result <- t.test(blutdruck ~ gruppe, data = df, var.equal = TRUE)
result$p.value
# [1] 0.02385

# Komplettes Output
print(result)
# t = 2.28, df = 198, p-value = 0.02385
# 95 percent confidence interval: 0.35 to 4.85

Die Funktionen chisq.test(), wilcox.test(), aov() etc. liefern alle p-Werte zurück. Mehr in unserer R-Statistik-Anleitung.

Häufige Fehler

Fehler 1: p-Wert als "Wahrscheinlichkeit dass H₀ wahr ist" interpretieren

Falsch: "p = 0,03 bedeutet, H₀ ist mit 3 % Wahrscheinlichkeit wahr." Richtig: "Wenn H₀ wahr wäre, läge die Wahrscheinlichkeit für unser Ergebnis (oder ein extremeres) bei 3 %."

Fehler 2: p < 0,05 = "signifikant" mit "klinisch relevant" gleichsetzen

Bei n = 5.000 wird auch eine Differenz von 0,5 mmHg signifikant. Klinisch ist das aber bedeutungslos. Effektstärke + Konfidenzintervall mit angeben.

Fehler 3: Multiple Tests ohne Korrektur

Bei 20 unabhängigen Tests à α = 0,05 erwartet man eine falsch-positive Signifikanz allein durch Zufall. Korrektur via Bonferroni, Holm oder False Discovery Rate (FDR) ist Pflicht.

Fehler 4: p-Hacking

Tests so lange variieren bis irgendeiner signifikant wird, dann nur diesen berichten. Wissenschaftlich unredlich, aber in der Praxis häufig.

Fehler 5: "p = 0,06 → tendenziell signifikant"

Es gibt entweder signifikant (p < α) oder nicht. "Tendenziell" ist ein Trostpreis-Wort und gehört nicht in publikationsreife Methodik.

Häufige Fragen

„Was bedeutet p < 0,05 in einer wissenschaftlichen Publikation?" → Es bedeutet, dass die Wahrscheinlichkeit, das beobachtete Ergebnis (oder ein extremeres) unter Annahme der Nullhypothese zu erhalten, kleiner als 5 % ist. Die H₀ wird verworfen, der Effekt gilt als statistisch signifikant. Klinische Relevanz wird damit jedoch nicht beurteilt.
„Warum zeigt SPSS manchmal p = 0,000?" → Das ist eine Anzeigeeigenheit von SPSS bei sehr kleinen p-Werten. Es bedeutet p < 0,001, nicht p = 0. In Publikationen wird dies korrekt als "p < 0,001" berichtet.
„Welche Schwelle ist üblich: 0,05 oder 0,01?" → In der medizinischen Forschung dominiert α = 0,05. Bei explorativen Analysen oder mehrfachen Tests wird oft auf α = 0,01 oder strenger korrigiert (Bonferroni: α/Anzahl Tests). Die Schwelle muss vor Datenerhebung definiert werden.
„Was ist der Unterschied zwischen einseitigem und zweiseitigem p-Wert?" → Beim zweiseitigen Test wird ein Effekt in beide Richtungen geprüft (Standard in der Medizin). Beim einseitigen Test nur in eine vorab spezifizierte Richtung. Einseitige Tests halbieren den p-Wert, sind aber nur zulässig, wenn die Richtung des Effekts vor Datenerhebung begründet feststeht.
„Kann ein hoher p-Wert (> 0,05) die Nullhypothese beweisen?" → Nein. Ein nicht-signifikanter p-Wert bedeutet "Wir konnten H₀ nicht ablehnen" — nicht "H₀ ist wahr". Es kann sein, dass die Stichprobe zu klein war (mangelnde Power) oder der Effekt tatsächlich klein ist. Konfidenzintervalle helfen bei der Differenzierung.
„Wie hängen p-Wert und Konfidenzintervall zusammen?" → Bei zweiseitigem Test mit α = 0,05 entspricht dem p-Wert das 95%-Konfidenzintervall. Wenn das KI für eine Mittelwertdifferenz die Null nicht enthält, ist p < 0,05. Das KI gibt zusätzlich die Effektgröße und Präzision an — es ist daher informativer und sollte immer mit berichtet werden.
„Was ist p-Hacking?" → p-Hacking ist die wissenschaftlich unredliche Praxis, mehrere Tests, Untergruppen, Messzeitpunkte oder Datenausschlüsse zu probieren, bis sich ein signifikanter p-Wert ergibt — und dann nur diesen Test zu berichten. Es ist eine der häufigsten Quellen reproduzierbarer Forschungsfehler. Schutz: vorab definierte Hypothesen, Präregistrierung, Korrektur für multiple Tests.
„Welche Software liefert die zuverlässigsten p-Werte?" → Alle gängigen Statistik-Pakete (SPSS, R, Stata, Python/scipy, Jamovi) berechnen p-Werte auf Basis derselben statistischen Verteilungen — die Werte sind identisch bis auf numerische Präzision. Der Unterschied liegt in der Bedienung und den verfügbaren Tests, nicht in den p-Werten selbst.

✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer