Effektstärke: Definition, Maße & Interpretation
Die Effektstärke quantifiziert die Größe eines beobachteten Effekts unabhängig von der Stichprobengröße. Übersicht aller wichtigen Maße (Cohens d, η², r, Odds Ratio, Cramérs V), Interpretation und Berechnung in SPSS und R.
Definition
Die Effektstärke (engl. effect size) ist ein standardisiertes Maß für die Größe eines beobachteten Effekts — etwa eines Mittelwertunterschieds, einer Korrelation oder einer Assoziation. Im Gegensatz zum p-Wert ist sie unabhängig von der Stichprobengröße und beantwortet die zentrale Frage der medizinischen Forschung: Wie groß ist der Effekt — und ist er klinisch relevant?
Merke: Der p-Wert sagt dir, ob ein Effekt statistisch nachweisbar ist. Die Effektstärke sagt dir, wie groß er ist. Beide gehören in jede publikationsreife Auswertung — niemals nur eines von beiden.
In großen Stichproben (n > 1.000) wird beinahe jeder noch so kleine Unterschied statistisch signifikant. Erst die Effektstärke trennt statistische von klinischer Signifikanz. Deshalb fordern moderne Reporting-Guidelines (CONSORT, STROBE, APA 7) für jede Hypothesenprüfung auch die zugehörige Effektstärke samt Konfidenzintervall.
Voraussetzungen
Die Wahl des passenden Effektstärke-Maßes hängt vom statistischen Test und vom Skalenniveau der Variablen ab:
- Test bekannt — jedes Effektmaß ist an eine Testfamilie gekoppelt (t-Test → Cohens d, ANOVA → η², Chi-Quadrat → Cramérs V)
- Skalenniveau geklärt — metrisch vs. ordinal vs. nominal entscheidet über das Maß
- Hypothesenrichtung definiert — bei gerichteten Hypothesen wird das Vorzeichen der Effektstärke interpretiert
- Konfidenzintervall mitberechnen — eine Effektstärke ohne 95%-KI ist unvollständig
Eine ausführliche Diskussion zur Auswahl findest du in der Übersicht zu Statistik in der Doktorarbeit.
Übersicht der wichtigsten Effektstärke-Maße
Die Wahl des Maßes richtet sich nach Test und Datentyp. Die folgende Tabelle gibt einen klinisch orientierten Überblick:
| Maß | Anwendung | Klein | Mittel | Groß |
|---|---|---|---|---|
| Cohens d | Mittelwertvergleich (t-Test) | 0,20 | 0,50 | 0,80 |
| Hedges' g | Wie Cohens d, korrigiert für kleine n | 0,20 | 0,50 | 0,80 |
| r (Pearson) | Korrelation metrisch | 0,10 | 0,30 | 0,50 |
| η² (eta-Quadrat) | ANOVA, Varianzaufklärung | 0,01 | 0,06 | 0,14 |
| partielles η² | mehrfaktorielle ANOVA | 0,01 | 0,06 | 0,14 |
| ω² (Omega-Quadrat) | ANOVA, weniger bias-anfällig | 0,01 | 0,06 | 0,14 |
| Cohens f | ANOVA, Power-Analyse | 0,10 | 0,25 | 0,40 |
| φ (Phi) | 2×2-Kreuztabelle | 0,10 | 0,30 | 0,50 |
| Cramérs V | k×m-Kreuztabelle | 0,10 | 0,30 | 0,50 |
| Odds Ratio (OR) | Logistische Regression, Fall-Kontroll | 1,5 | 2,5 | 4,3 |
| Relatives Risiko (RR) | Kohortenstudien | 1,2 | 1,5 | 2,0 |
| NNT | Klinische Studien | je nach Indikation interpretieren |
Praxis-Tipp: Die Cohen-Schwellen (klein/mittel/groß) sind Konventionen, keine Naturgesetze. In manchen klinischen Disziplinen (Onkologie, Kardiologie) gelten kleinere Effekte bereits als hoch relevant, weil sie Mortalität reduzieren.
Cohens d — der Klassiker für Mittelwertvergleiche
Standardisierte Mittelwertdifferenz. Detaillierte Formel, Berechnung und Beispiele im eigenen Eintrag zu Cohens d.
η² und partielles η² — für die ANOVA
Beide drücken aus, wie viel Prozent der Varianz der abhängigen Variable durch den Faktor erklärt werden. Bei einfaktorieller ANOVA sind η² und partielles η² identisch; bei mehrfaktorieller ANOVA berücksichtigt das partielle η² nur den interessierenden Faktor und ist daher meist höher. SPSS gibt standardmäßig partielles η² aus.
r — für Korrelationen
Der Pearson-Korrelationskoeffizient r ist gleichzeitig Test- und Effektstärke-Maß. Werte zwischen −1 und +1; das Vorzeichen zeigt die Richtung, der Betrag die Stärke. Für ordinale Daten verwendet man entsprechend Spearman-ρ oder Kendall-τ.
φ und Cramérs V — für Kreuztabellen
Bei einer 2×2-Kreuztabelle (Chi-Quadrat-Test) ist Phi (φ) das Standardmaß. Bei größeren Tabellen (3×4, 5×5 etc.) verwendet man Cramérs V, das auf den Bereich [0; 1] normiert ist und die Anzahl der Zeilen/Spalten berücksichtigt.
Odds Ratio und Relatives Risiko — für epidemiologische Daten
Beide Maße dominieren in Fall-Kontroll- und Kohortenstudien. Eigener Eintrag dazu: Odds Ratio. Eine OR von 2,0 bedeutet: Die Chance auf Erkrankung ist in der Expositionsgruppe doppelt so hoch wie in der Kontrollgruppe.
Interpretation
Drei Regeln für eine seriöse Interpretation in der medizinischen Praxis:
- Punktschätzer + 95%-KI berichten. Die Effektstärke allein ist nur ein Punktschätzer; das Konfidenzintervall zeigt die Präzision.
- Klinische Relevanz separat beurteilen. Eine kleine Effektstärke kann klinisch hochrelevant sein (z.B. Mortalitätssenkung um 2 %), eine große statistische Effektstärke kann klinisch trivial sein (z.B. SBP-Senkung um 1 mmHg in einer Riesenstudie).
- Effektstärke vor Studienbeginn definieren. Die in der Power-Analyse angenommene Effektstärke bestimmt die nötige Fallzahl. Posthoc-Effektstärken sind problematisch.
Klinisches Anwendungsbeispiel
Studie: Vergleich zweier Endodontie-Protokolle zur Schmerzreduktion 24 h nach Wurzelkanalbehandlung (n = 80 pro Gruppe), VAS-Score (0–100 mm).
- Protokoll A: M = 32,1, SD = 18,4
- Protokoll B: M = 41,7, SD = 19,2
- Mittelwertdifferenz: 9,6 mm, t(158) = 3,22, p = 0,002
- Cohens d = 0,51, 95%-KI [0,19; 0,83]
Interpretation: Der Unterschied ist statistisch signifikant (p < 0,01) und entspricht einem mittleren Effekt nach Cohen. Das 95%-KI [0,19; 0,83] schließt die Null nicht ein, reicht aber von "klein" bis "groß" — ein Hinweis, dass die Stichprobe für eine präzise Schätzung etwas zu klein war. Klinisch: Eine VAS-Differenz von ~10 mm gilt in der Schmerzforschung als minimal klinisch relevanter Unterschied (MCID) und ist somit auch praktisch bedeutsam.
In SPSS berechnen
SPSS gibt Effektstärken nicht immer automatisch aus. Je nach Test:
- t-Test: Ab SPSS 27 wird Cohens d direkt im Output angezeigt:
Analysieren → Mittelwerte vergleichen → t-Test - ANOVA:
Analysieren → Allgemeines lineares Modell → Univariat → Optionen → Schätzungen der Effektgrößeaktivieren → liefert partielles η² - Chi-Quadrat-Test:
Analysieren → Deskriptive Statistiken → Kreuztabellen → Statistiken → Phi und Cramers V - Korrelation: Pearson r ist im Output direkt enthalten
Eine ausführliche SPSS-Anleitung mit Schritten für alle gängigen Tests gibt es im Begleit-Tutorial.
In R berechnen
R bietet im Paket effectsize (sowie rstatix, lsr) eine einheitliche Schnittstelle:
library(effectsize)
library(rstatix)
# Cohens d für t-Test
cohens_d(vas ~ gruppe, data = df)
# d = 0.51, 95% CI [0.19, 0.83]
# Eta-Quadrat für ANOVA
modell <- aov(vas ~ gruppe * geschlecht, data = df)
eta_squared(modell, partial = TRUE)
# Parameter | Eta2 (partial) | 95% CI
# gruppe | 0.06 | [0.01, 1.00]
# geschlecht | 0.02 | [0.00, 1.00]
# gruppe:geschlecht | 0.01 | [0.00, 1.00]
# Cramérs V für Kreuztabelle
tab <- table(df$diagnose, df$therapie)
cramers_v(tab)
# Cramer's V = 0.27, 95% CI [0.15, 0.39]
# Odds Ratio aus logistischer Regression
modell_log <- glm(erkrankt ~ exposition, data = df, family = binomial)
exp(coef(modell_log))
exp(confint(modell_log))
Mehr in unserer R-Statistik-Anleitung.
Häufige Fehler
Fehler 1: Effektstärke ohne Konfidenzintervall berichten
Ein Punktschätzer ohne KI ist eine Scheinpräzision. Das KI zeigt, wie sicher die Schätzung ist — gerade bei kleinen Stichproben oft sehr breit.
Fehler 2: Cohen-Schwellen mechanisch anwenden
"d = 0,21 → kleiner Effekt → unwichtig" ist falsche Logik. In der Mortalitätsforschung sind d = 0,15 hochrelevant, in der Persönlichkeitspsychologie sind d = 0,30 banal. Disziplinspezifisch interpretieren.
Fehler 3: Statistische Signifikanz mit klinischer Relevanz verwechseln
Bei n = 5.000 wird Cohens d = 0,06 signifikant. Klinisch bedeutet das: kein Effekt. Immer beide Größen zusammen interpretieren.
Fehler 4: Falsches Maß zum Test wählen
Bei einer 4×3-Kreuztabelle Phi statt Cramérs V — Phi ist nur für 2×2 normiert. Bei mehrfaktorieller ANOVA das einfache η² statt partielles η² — die Werte sind nicht vergleichbar.
Fehler 5: Posthoc-Power aus der Effektstärke berechnen
Die "beobachtete Power" auf Basis der gemessenen Effektstärke ist statistisch redundant zum p-Wert und liefert keine neue Information. Power immer a priori aus klinisch sinnvoll angenommener Effektstärke kalkulieren.
Fehler 6: Negatives Vorzeichen ignorieren oder fehlinterpretieren
Cohens d = −0,5 und d = +0,5 haben dieselbe Stärke, aber entgegengesetzte Richtung. Im Methodenteil festlegen, welche Gruppe als Referenz dient — sonst wird die Richtung mehrdeutig.
Verwandte Konzepte
- Cohens d — die Standardeffektstärke für Mittelwertvergleiche, mit eigenem Eintrag
- Odds Ratio — Effektmaß für binäre Outcomes in Fall-Kontroll-Studien
- p-Wert — beantwortet die Signifikanzfrage; Effektstärke beantwortet die Größenfrage
- Signifikanzniveau α — vorab festgelegte Schwelle für Hypothesentests
- Konfidenzintervall — gehört zwingend zu jeder Effektstärke
- Power-Analyse — nutzt die erwartete Effektstärke zur Fallzahlplanung
- Survival-Analyse — Hazard Ratio als Effektmaß bei zeitabhängigen Outcomes
Häufige Fragen
- „Warum reicht der p-Wert nicht aus?" → Der p-Wert hängt stark von der Stichprobengröße ab. Bei großen n wird selbst ein klinisch belangloser Effekt signifikant; bei kleinen n bleibt ein klinisch relevanter Effekt nicht-signifikant. Erst die Effektstärke quantifiziert die tatsächliche Größe und ist stichprobenunabhängig — beide Werte gehören zusammen berichtet.
- „Welche Effektstärke verwende ich beim t-Test?" → Den Cohens d. Bei sehr kleinen Stichproben (n < 20 pro Gruppe) wird stattdessen Hedges' g empfohlen, da es eine Bias-Korrektur enthält. Beide werden gleich interpretiert (klein/mittel/groß = 0,2/0,5/0,8).
- „Welche Effektstärke gehört zur ANOVA?" → Bei einfaktorieller ANOVA η² (eta-Quadrat) oder ω² (Omega-Quadrat, weniger bias-anfällig). Bei mehrfaktoriellen Designs partielles η² — das ist auch SPSS-Standard. Cohens f wird zusätzlich für Power-Analysen genutzt.
- „Wie wähle ich zwischen Phi und Cramérs V?" → Phi gilt nur für 2×2-Kreuztabellen, Cramérs V für beliebige k×m-Tabellen. Da Cramérs V bei 2×2 numerisch dem Betrag von Phi entspricht, kannst du im Zweifel immer Cramérs V berichten — das ist konservativ und gilt für alle Dimensionen.
- „Warum ist mein partielles η² so viel höher als das einfache η²?" → Bei mehrfaktorieller ANOVA bezieht das einfache η² die Varianz aller anderen Faktoren in den Nenner ein; das partielle η² nur die Residualvarianz. Daher ist partielles η² systematisch größer. Beide sind nicht direkt vergleichbar — bei Vergleichen zwischen Studien immer angeben, welches gemeint ist.
- „Sind die Cohen-Schwellen 0,2 / 0,5 / 0,8 verbindlich?" → Nein. Cohen selbst hat sie als grobe Konvention vorgeschlagen, ausdrücklich nicht als Naturkonstanten. In manchen Disziplinen (klinische Mortalitätsstudien) gelten d = 0,1 als groß; in anderen (Lehr-Lern-Forschung) sind d = 0,4 mittel. Die klinische Relevanz muss immer fachspezifisch beurteilt werden.
- „Kann eine Effektstärke negativ sein?" → Ja, bei gerichteten Maßen wie Cohens d oder Pearson r. Das Vorzeichen kodiert die Richtung des Effekts (welche Gruppe ist höher, positive vs. negative Korrelation). Bei η², Cramérs V und Odds Ratio gibt es kein Vorzeichen — sie sind immer ≥ 0 bzw. > 0.
- „Wie berichte ich Effektstärken in einer Publikation?" → Format nach APA 7: Punktschätzer + 95%-KI + Interpretation. Beispiel: "Die Behandlungsgruppe zeigte signifikant geringere Schmerzwerte als die Kontrollgruppe, t(158) = 3,22, p = 0,002, d = 0,51, 95%-KI [0,19; 0,83] (mittlerer Effekt)." Niemals nur den p-Wert berichten.
- „Was ist der Unterschied zwischen Effektstärke und Konfidenzintervall?" → Die Effektstärke ist der Punktschätzer für die Größe des Effekts; das Konfidenzintervall gibt den Bereich an, in dem der wahre Effekt mit 95 % Sicherheit liegt. Beide ergänzen sich: Effektstärke = Größe, KI = Präzision. Ein breites KI signalisiert eine zu kleine Stichprobe.
- „Brauche ich eine Effektstärke auch für nicht-signifikante Ergebnisse?" → Ja, gerade dann. Eine kleine Effektstärke mit weitem KI um Null deutet auf "kein Effekt vorhanden". Eine moderate Effektstärke mit breitem KI bei hohem p-Wert deutet eher auf "Stichprobe zu klein, Effekt möglicherweise vorhanden". Erst die Kombination erlaubt eine seriöse Schlussfolgerung.