Warum reicht der p-Wert nicht aus?

Der p-Wert hängt stark von der Stichprobengröße ab. Bei großen n wird selbst ein klinisch belangloser Effekt signifikant; bei kleinen n bleibt ein klinisch relevanter Effekt nicht-signifikant. Erst die Effektstärke quantifiziert die tatsächliche Größe und ist stichprobenunabhängig — beide Werte gehören zusammen berichtet.

Welche Effektstärke verwende ich beim t-Test?

Den Cohens d. Bei sehr kleinen Stichproben (n < 20 pro Gruppe) wird stattdessen Hedges' g empfohlen, da es eine Bias-Korrektur enthält. Beide werden gleich interpretiert (klein/mittel/groß = 0,2/0,5/0,8).

Welche Effektstärke gehört zur ANOVA?

Bei einfaktorieller ANOVA η² (eta-Quadrat) oder ω² (Omega-Quadrat, weniger bias-anfällig). Bei mehrfaktoriellen Designs partielles η² — das ist auch SPSS-Standard. Cohens f wird zusätzlich für Power-Analysen genutzt.

Wie wähle ich zwischen Phi und Cramérs V?

Phi gilt nur für 2×2-Kreuztabellen, Cramérs V für beliebige k×m-Tabellen. Da Cramérs V bei 2×2 numerisch dem Betrag von Phi entspricht, kannst du im Zweifel immer Cramérs V berichten — das ist konservativ und gilt für alle Dimensionen.

Warum ist mein partielles η² so viel höher als das einfache η²?

Bei mehrfaktorieller ANOVA bezieht das einfache η² die Varianz aller anderen Faktoren in den Nenner ein; das partielle η² nur die Residualvarianz. Daher ist partielles η² systematisch größer. Beide sind nicht direkt vergleichbar — bei Vergleichen zwischen Studien immer angeben, welches gemeint ist.

Sind die Cohen-Schwellen 0,2 / 0,5 / 0,8 verbindlich?

Nein. Cohen selbst hat sie als grobe Konvention vorgeschlagen, ausdrücklich nicht als Naturkonstanten. In manchen Disziplinen (klinische Mortalitätsstudien) gelten d = 0,1 als groß; in anderen (Lehr-Lern-Forschung) sind d = 0,4 mittel. Die klinische Relevanz muss immer fachspezifisch beurteilt werden.

Kann eine Effektstärke negativ sein?

Ja, bei gerichteten Maßen wie Cohens d oder Pearson r. Das Vorzeichen kodiert die Richtung des Effekts (welche Gruppe ist höher, positive vs. negative Korrelation). Bei η², Cramérs V und Odds Ratio gibt es kein Vorzeichen — sie sind immer ≥ 0 bzw. > 0.

Wie berichte ich Effektstärken in einer Publikation?

Format nach APA 7: Punktschätzer + 95%-KI + Interpretation. Beispiel: "Die Behandlungsgruppe zeigte signifikant geringere Schmerzwerte als die Kontrollgruppe, t(158) = 3,22, p = 0,002, d = 0,51, 95%-KI [0,19; 0,83] (mittlerer Effekt)." Niemals nur den p-Wert berichten.

Was ist der Unterschied zwischen Effektstärke und Konfidenzintervall?

Die Effektstärke ist der Punktschätzer für die Größe des Effekts; das Konfidenzintervall gibt den Bereich an, in dem der wahre Effekt mit 95 % Sicherheit liegt. Beide ergänzen sich: Effektstärke = Größe, KI = Präzision. Ein breites KI signalisiert eine zu kleine Stichprobe.

Brauche ich eine Effektstärke auch für nicht-signifikante Ergebnisse?

Ja, gerade dann. Eine kleine Effektstärke mit weitem KI um Null deutet auf "kein Effekt vorhanden". Eine moderate Effektstärke mit breitem KI bei hohem p-Wert deutet eher auf "Stichprobe zu klein, Effekt möglicherweise vorhanden". Erst die Kombination erlaubt eine seriöse Schlussfolgerung.

Effektstärke: Definition, Maße & Interpretation

Q: Welche Effektstärke gehört zur ANOVA?

Bei einfaktorieller ANOVA η² (eta-Quadrat) oder ω² (Omega-Quadrat, weniger bias-anfällig). Bei mehrfaktoriellen Designs partielles η² — das ist auch SPSS-Standard. Cohens f wird zusätzlich für Power-Analysen genutzt.

Q: Wie wähle ich zwischen Phi und Cramérs V?

Phi gilt nur für 2×2-Kreuztabellen, Cramérs V für beliebige k×m-Tabellen. Da Cramérs V bei 2×2 numerisch dem Betrag von Phi entspricht, kannst du im Zweifel immer Cramérs V berichten — das ist konservativ und gilt für alle Dimensionen.

Q: Warum ist mein partielles η² so viel höher als das einfache η²?

Bei mehrfaktorieller ANOVA bezieht das einfache η² die Varianz aller anderen Faktoren in den Nenner ein; das partielle η² nur die Residualvarianz. Daher ist partielles η² systematisch größer. Beide sind nicht direkt vergleichbar — bei Vergleichen zwischen Studien immer angeben, welches gemeint ist.

Q: Sind die Cohen-Schwellen 0,2 / 0,5 / 0,8 verbindlich?

Nein. Cohen selbst hat sie als grobe Konvention vorgeschlagen, ausdrücklich nicht als Naturkonstanten. In manchen Disziplinen (klinische Mortalitätsstudien) gelten d = 0,1 als groß; in anderen (Lehr-Lern-Forschung) sind d = 0,4 mittel. Die klinische Relevanz muss immer fachspezifisch beurteilt werden.

Q: Kann eine Effektstärke negativ sein?

Ja, bei gerichteten Maßen wie Cohens d oder Pearson r. Das Vorzeichen kodiert die Richtung des Effekts (welche Gruppe ist höher, positive vs. negative Korrelation). Bei η², Cramérs V und Odds Ratio gibt es kein Vorzeichen — sie sind immer ≥ 0 bzw. > 0.

Die Effektstärke quantifiziert die Größe eines beobachteten Effekts unabhängig von der Stichprobengröße. Übersicht aller wichtigen Maße (Cohens d, η², r, Odds Ratio, Cramérs V), Interpretation und Berechnung in SPSS und R.

📊 Effektmaße · ⏱️ 10 Min. · Aktualisiert 2026-05-10

Definition

Die Effektstärke (engl. effect size) ist ein standardisiertes Maß für die Größe eines beobachteten Effekts — etwa eines Mittelwertunterschieds, einer Korrelation oder einer Assoziation. Im Gegensatz zum p-Wert ist sie unabhängig von der Stichprobengröße und beantwortet die zentrale Frage der medizinischen Forschung: Wie groß ist der Effekt — und ist er klinisch relevant?

Merke: Der p-Wert sagt dir, ob ein Effekt statistisch nachweisbar ist. Die Effektstärke sagt dir, wie groß er ist. Beide gehören in jede publikationsreife Auswertung — niemals nur eines von beiden.

In großen Stichproben (n > 1.000) wird beinahe jeder noch so kleine Unterschied statistisch signifikant. Erst die Effektstärke trennt statistische von klinischer Signifikanz. Deshalb fordern moderne Reporting-Guidelines (CONSORT, STROBE, APA 7) für jede Hypothesenprüfung auch die zugehörige Effektstärke samt Konfidenzintervall.

Voraussetzungen

Die Wahl des passenden Effektstärke-Maßes hängt vom statistischen Test und vom Skalenniveau der Variablen ab:

Test bekannt — jedes Effektmaß ist an eine Testfamilie gekoppelt (t-Test → Cohens d, ANOVA → η², Chi-Quadrat → Cramérs V)
Skalenniveau geklärt — metrisch vs. ordinal vs. nominal entscheidet über das Maß
Hypothesenrichtung definiert — bei gerichteten Hypothesen wird das Vorzeichen der Effektstärke interpretiert
Konfidenzintervall mitberechnen — eine Effektstärke ohne 95%-KI ist unvollständig

Eine ausführliche Diskussion zur Auswahl findest du in der Übersicht zu Statistik in der Doktorarbeit.

Übersicht der wichtigsten Effektstärke-Maße

Die Wahl des Maßes richtet sich nach Test und Datentyp. Die folgende Tabelle gibt einen klinisch orientierten Überblick:

Maß	Anwendung	Klein	Mittel	Groß
Cohens d	Mittelwertvergleich (t-Test)	0,20	0,50	0,80
Hedges' g	Wie Cohens d, korrigiert für kleine n	0,20	0,50	0,80
r (Pearson)	Korrelation metrisch	0,10	0,30	0,50
η² (eta-Quadrat)	ANOVA, Varianzaufklärung	0,01	0,06	0,14
partielles η²	mehrfaktorielle ANOVA	0,01	0,06	0,14
ω² (Omega-Quadrat)	ANOVA, weniger bias-anfällig	0,01	0,06	0,14
Cohens f	ANOVA, Power-Analyse	0,10	0,25	0,40
φ (Phi)	2×2-Kreuztabelle	0,10	0,30	0,50
Cramérs V	k×m-Kreuztabelle	0,10	0,30	0,50
Odds Ratio (OR)	Logistische Regression, Fall-Kontroll	1,5	2,5	4,3
Relatives Risiko (RR)	Kohortenstudien	1,2	1,5	2,0
NNT	Klinische Studien	je nach Indikation interpretieren

Praxis-Tipp: Die Cohen-Schwellen (klein/mittel/groß) sind Konventionen, keine Naturgesetze. In manchen klinischen Disziplinen (Onkologie, Kardiologie) gelten kleinere Effekte bereits als hoch relevant, weil sie Mortalität reduzieren.

Cohens d — der Klassiker für Mittelwertvergleiche

Standardisierte Mittelwertdifferenz. Detaillierte Formel, Berechnung und Beispiele im eigenen Eintrag zu Cohens d.

η² und partielles η² — für die ANOVA

Beide drücken aus, wie viel Prozent der Varianz der abhängigen Variable durch den Faktor erklärt werden. Bei einfaktorieller ANOVA sind η² und partielles η² identisch; bei mehrfaktorieller ANOVA berücksichtigt das partielle η² nur den interessierenden Faktor und ist daher meist höher. SPSS gibt standardmäßig partielles η² aus.

r — für Korrelationen

Der Pearson-Korrelationskoeffizient r ist gleichzeitig Test- und Effektstärke-Maß. Werte zwischen −1 und +1; das Vorzeichen zeigt die Richtung, der Betrag die Stärke. Für ordinale Daten verwendet man entsprechend Spearman-ρ oder Kendall-τ.

φ und Cramérs V — für Kreuztabellen

Bei einer 2×2-Kreuztabelle (Chi-Quadrat-Test) ist Phi (φ) das Standardmaß. Bei größeren Tabellen (3×4, 5×5 etc.) verwendet man Cramérs V, das auf den Bereich [0; 1] normiert ist und die Anzahl der Zeilen/Spalten berücksichtigt.

Odds Ratio und Relatives Risiko — für epidemiologische Daten

Beide Maße dominieren in Fall-Kontroll- und Kohortenstudien. Eigener Eintrag dazu: Odds Ratio. Eine OR von 2,0 bedeutet: Die Chance auf Erkrankung ist in der Expositionsgruppe doppelt so hoch wie in der Kontrollgruppe.

Interpretation

Drei Regeln für eine seriöse Interpretation in der medizinischen Praxis:

Punktschätzer + 95%-KI berichten. Die Effektstärke allein ist nur ein Punktschätzer; das Konfidenzintervall zeigt die Präzision.
Klinische Relevanz separat beurteilen. Eine kleine Effektstärke kann klinisch hochrelevant sein (z.B. Mortalitätssenkung um 2 %), eine große statistische Effektstärke kann klinisch trivial sein (z.B. SBP-Senkung um 1 mmHg in einer Riesenstudie).
Effektstärke vor Studienbeginn definieren. Die in der Power-Analyse angenommene Effektstärke bestimmt die nötige Fallzahl. Posthoc-Effektstärken sind problematisch.

Klinisches Anwendungsbeispiel

Studie: Vergleich zweier Endodontie-Protokolle zur Schmerzreduktion 24 h nach Wurzelkanalbehandlung (n = 80 pro Gruppe), VAS-Score (0–100 mm).

Protokoll A: M = 32,1, SD = 18,4
Protokoll B: M = 41,7, SD = 19,2
Mittelwertdifferenz: 9,6 mm, t(158) = 3,22, p = 0,002
Cohens d = 0,51, 95%-KI [0,19; 0,83]

Interpretation: Der Unterschied ist statistisch signifikant (p < 0,01) und entspricht einem mittleren Effekt nach Cohen. Das 95%-KI [0,19; 0,83] schließt die Null nicht ein, reicht aber von "klein" bis "groß" — ein Hinweis, dass die Stichprobe für eine präzise Schätzung etwas zu klein war. Klinisch: Eine VAS-Differenz von ~10 mm gilt in der Schmerzforschung als minimal klinisch relevanter Unterschied (MCID) und ist somit auch praktisch bedeutsam.

In SPSS berechnen

SPSS gibt Effektstärken nicht immer automatisch aus. Je nach Test:

t-Test: Ab SPSS 27 wird Cohens d direkt im Output angezeigt: Analysieren → Mittelwerte vergleichen → t-Test
ANOVA: Analysieren → Allgemeines lineares Modell → Univariat → Optionen → Schätzungen der Effektgröße aktivieren → liefert partielles η²
Chi-Quadrat-Test: Analysieren → Deskriptive Statistiken → Kreuztabellen → Statistiken → Phi und Cramers V
Korrelation: Pearson r ist im Output direkt enthalten

Eine ausführliche SPSS-Anleitung mit Schritten für alle gängigen Tests gibt es im Begleit-Tutorial.

In R berechnen

R bietet im Paket effectsize (sowie rstatix, lsr) eine einheitliche Schnittstelle:

library(effectsize)
library(rstatix)

# Cohens d für t-Test
cohens_d(vas ~ gruppe, data = df)
# d = 0.51, 95% CI [0.19, 0.83]

# Eta-Quadrat für ANOVA
modell <- aov(vas ~ gruppe * geschlecht, data = df)
eta_squared(modell, partial = TRUE)
# Parameter             | Eta2 (partial) |       95% CI
# gruppe                |           0.06 | [0.01, 1.00]
# geschlecht            |           0.02 | [0.00, 1.00]
# gruppe:geschlecht     |           0.01 | [0.00, 1.00]

# Cramérs V für Kreuztabelle
tab <- table(df$diagnose, df$therapie)
cramers_v(tab)
# Cramer's V = 0.27, 95% CI [0.15, 0.39]

# Odds Ratio aus logistischer Regression
modell_log <- glm(erkrankt ~ exposition, data = df, family = binomial)
exp(coef(modell_log))
exp(confint(modell_log))

Mehr in unserer R-Statistik-Anleitung.

Häufige Fehler

Fehler 1: Effektstärke ohne Konfidenzintervall berichten

Ein Punktschätzer ohne KI ist eine Scheinpräzision. Das KI zeigt, wie sicher die Schätzung ist — gerade bei kleinen Stichproben oft sehr breit.

Fehler 2: Cohen-Schwellen mechanisch anwenden

"d = 0,21 → kleiner Effekt → unwichtig" ist falsche Logik. In der Mortalitätsforschung sind d = 0,15 hochrelevant, in der Persönlichkeitspsychologie sind d = 0,30 banal. Disziplinspezifisch interpretieren.

Fehler 3: Statistische Signifikanz mit klinischer Relevanz verwechseln

Bei n = 5.000 wird Cohens d = 0,06 signifikant. Klinisch bedeutet das: kein Effekt. Immer beide Größen zusammen interpretieren.

Fehler 4: Falsches Maß zum Test wählen

Bei einer 4×3-Kreuztabelle Phi statt Cramérs V — Phi ist nur für 2×2 normiert. Bei mehrfaktorieller ANOVA das einfache η² statt partielles η² — die Werte sind nicht vergleichbar.

Fehler 5: Posthoc-Power aus der Effektstärke berechnen

Die "beobachtete Power" auf Basis der gemessenen Effektstärke ist statistisch redundant zum p-Wert und liefert keine neue Information. Power immer a priori aus klinisch sinnvoll angenommener Effektstärke kalkulieren.

Fehler 6: Negatives Vorzeichen ignorieren oder fehlinterpretieren

Cohens d = −0,5 und d = +0,5 haben dieselbe Stärke, aber entgegengesetzte Richtung. Im Methodenteil festlegen, welche Gruppe als Referenz dient — sonst wird die Richtung mehrdeutig.

Häufige Fragen

„Warum reicht der p-Wert nicht aus?" → Der p-Wert hängt stark von der Stichprobengröße ab. Bei großen n wird selbst ein klinisch belangloser Effekt signifikant; bei kleinen n bleibt ein klinisch relevanter Effekt nicht-signifikant. Erst die Effektstärke quantifiziert die tatsächliche Größe und ist stichprobenunabhängig — beide Werte gehören zusammen berichtet.
„Welche Effektstärke verwende ich beim t-Test?" → Den Cohens d. Bei sehr kleinen Stichproben (n < 20 pro Gruppe) wird stattdessen Hedges' g empfohlen, da es eine Bias-Korrektur enthält. Beide werden gleich interpretiert (klein/mittel/groß = 0,2/0,5/0,8).
„Welche Effektstärke gehört zur ANOVA?" → Bei einfaktorieller ANOVA η² (eta-Quadrat) oder ω² (Omega-Quadrat, weniger bias-anfällig). Bei mehrfaktoriellen Designs partielles η² — das ist auch SPSS-Standard. Cohens f wird zusätzlich für Power-Analysen genutzt.
„Wie wähle ich zwischen Phi und Cramérs V?" → Phi gilt nur für 2×2-Kreuztabellen, Cramérs V für beliebige k×m-Tabellen. Da Cramérs V bei 2×2 numerisch dem Betrag von Phi entspricht, kannst du im Zweifel immer Cramérs V berichten — das ist konservativ und gilt für alle Dimensionen.
„Warum ist mein partielles η² so viel höher als das einfache η²?" → Bei mehrfaktorieller ANOVA bezieht das einfache η² die Varianz aller anderen Faktoren in den Nenner ein; das partielle η² nur die Residualvarianz. Daher ist partielles η² systematisch größer. Beide sind nicht direkt vergleichbar — bei Vergleichen zwischen Studien immer angeben, welches gemeint ist.
„Sind die Cohen-Schwellen 0,2 / 0,5 / 0,8 verbindlich?" → Nein. Cohen selbst hat sie als grobe Konvention vorgeschlagen, ausdrücklich nicht als Naturkonstanten. In manchen Disziplinen (klinische Mortalitätsstudien) gelten d = 0,1 als groß; in anderen (Lehr-Lern-Forschung) sind d = 0,4 mittel. Die klinische Relevanz muss immer fachspezifisch beurteilt werden.
„Kann eine Effektstärke negativ sein?" → Ja, bei gerichteten Maßen wie Cohens d oder Pearson r. Das Vorzeichen kodiert die Richtung des Effekts (welche Gruppe ist höher, positive vs. negative Korrelation). Bei η², Cramérs V und Odds Ratio gibt es kein Vorzeichen — sie sind immer ≥ 0 bzw. > 0.
„Wie berichte ich Effektstärken in einer Publikation?" → Format nach APA 7: Punktschätzer + 95%-KI + Interpretation. Beispiel: "Die Behandlungsgruppe zeigte signifikant geringere Schmerzwerte als die Kontrollgruppe, t(158) = 3,22, p = 0,002, d = 0,51, 95%-KI [0,19; 0,83] (mittlerer Effekt)." Niemals nur den p-Wert berichten.
„Was ist der Unterschied zwischen Effektstärke und Konfidenzintervall?" → Die Effektstärke ist der Punktschätzer für die Größe des Effekts; das Konfidenzintervall gibt den Bereich an, in dem der wahre Effekt mit 95 % Sicherheit liegt. Beide ergänzen sich: Effektstärke = Größe, KI = Präzision. Ein breites KI signalisiert eine zu kleine Stichprobe.
„Brauche ich eine Effektstärke auch für nicht-signifikante Ergebnisse?" → Ja, gerade dann. Eine kleine Effektstärke mit weitem KI um Null deutet auf "kein Effekt vorhanden". Eine moderate Effektstärke mit breitem KI bei hohem p-Wert deutet eher auf "Stichprobe zu klein, Effekt möglicherweise vorhanden". Erst die Kombination erlaubt eine seriöse Schlussfolgerung.

✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer