Cohens d: Definition, Berechnung & Interpretation
Cohens d ist die standardisierte Mittelwertdifferenz zwischen zwei Gruppen — ein zentrales Effektmaß bei t-Tests. Definition, Formel, Interpretation (klein/mittel/groß), Berechnung in SPSS und R.
Definition
Cohens d ist das am häufigsten verwendete standardisierte Effektmaß für den Vergleich zweier Gruppenmittelwerte. Es drückt die Differenz der Mittelwerte in Einheiten der gepoolten Standardabweichung aus und ist damit dimensionslos — also unabhängig von der ursprünglichen Messskala. Während der p-Wert nur die statistische Signifikanz einer Differenz beurteilt, quantifiziert Cohens d die Größe des Effekts und damit die klinische Relevanz.
Merke: Ein t-Test ohne Effektstärke ist publikationsmethodisch unvollständig. Cohens d gehört zu jedem Mittelwertvergleich — gemeinsam mit dem 95%-Konfidenzintervall der Effektstärke.
Formel
Die Standardform für zwei unabhängige Gruppen lautet:
$$d = \frac{\bar{x}_1 - \bar{x}2}{s{pooled}}$$
mit der gepoolten Standardabweichung:
$$s_{pooled} = \sqrt{\frac{(n_1 - 1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 - 2}}$$
Bei abhängigen (gepaarten) Stichproben — z.B. Vorher-Nachher-Messungen am selben Patienten — gibt es mehrere Varianten. Üblich ist:
$$d_z = \frac{\bar{x}{diff}}{s{diff}}$$
wobei x̄_diff und s_diff Mittelwert und Standardabweichung der Differenzwerte sind.
Praxis-Tipp: Bei kleinen Stichproben (n < 50) überschätzt Cohens d die wahre Effektstärke. Verwende dann Hedges' g — eine Bias-korrigierte Variante.
Voraussetzungen
Damit Cohens d sinnvoll interpretiert werden kann:
- Metrisches Skalenniveau der abhängigen Variable (Intervall- oder Verhältnisskala)
- Annähernde Normalverteilung in beiden Gruppen — sonst ist die gepoolte SD wenig aussagekräftig
- Varianzhomogenität — bei stark unterschiedlichen Varianzen besser Glass' Δ (verwendet nur die SD der Kontrollgruppe)
- Unabhängige Beobachtungen bei der Standardform; bei gepaarten Daten d_z verwenden
- Ausreichend große Stichprobe (n ≥ 50 pro Gruppe) — sonst Bias-Korrektur via Hedges' g
Mehr zu Voraussetzungen und Berichtsstandards in unserer Übersicht zur Statistik in der Doktorarbeit.
Interpretation
Die klassischen Schwellenwerte nach Cohen (1988):
| |d| | Effekt | Praktische Bedeutung | |---|---|---| | 0,01 – 0,19 | sehr klein | meist klinisch irrelevant | | 0,20 – 0,49 | klein | wahrnehmbar, aber subtil | | 0,50 – 0,79 | mittel | mit bloßem Auge erkennbar | | 0,80 – 1,19 | groß | deutlicher Effekt | | ≥ 1,20 | sehr groß | außergewöhnlich |
Das Vorzeichen von d zeigt nur die Richtung der Differenz (welche Gruppe höher liegt) und wird für die Effektgrößen-Klassifikation als Betrag interpretiert.
Wichtig: Diese Schwellen sind Konventionen, keine Naturgesetze. In der Pharmakologie kann ein d von 0,2 hochrelevant sein (z.B. Mortalitätsreduktion), in der Psychometrie eher unspektakulär. Fachgebiet und klinischer Kontext entscheiden über die tatsächliche Bedeutung.
Klinisches Anwendungsbeispiel
Studie: Wirksamkeit eines neuen Lokalanästhetikums in der Endodontie, gemessen über die VAS-Schmerzskala (0–100) während der Wurzelkanalbehandlung.
- Gruppe A (neues Anästhetikum): M = 22,4 / SD = 14,1 / n = 60
- Gruppe B (Standardanästhetikum): M = 31,8 / SD = 15,3 / n = 60
- Mittelwertdifferenz: −9,4 Punkte
- t(118) = 3,50, p < 0,001
Berechnung von Cohens d:
$$s_{pooled} = \sqrt{\frac{59 \cdot 14{,}1^2 + 59 \cdot 15{,}3^2}{118}} = 14{,}71$$
$$d = \frac{22{,}4 - 31{,}8}{14{,}71} = -0{,}64$$
Interpretation: Mit |d| = 0,64 liegt ein mittlerer Effekt vor. Die Schmerzreduktion ist nicht nur statistisch signifikant, sondern auch klinisch relevant — Patienten unter dem neuen Anästhetikum berichten im Schnitt um etwa zwei Drittel einer Standardabweichung niedrigere Schmerzwerte.
In SPSS berechnen
SPSS gibt Cohens d ab Version 27 direkt im t-Test-Output mit aus:
Analysieren → Mittelwerte vergleichen → t-Test bei unabhängigen Stichproben
Im Output unter "Effektgrößen für unabhängige Stichproben" findest du Cohens d, Hedges' Korrektur und Glass' Delta — jeweils mit punktgeschätzten Werten und 95%-Konfidenzintervall.
In älteren SPSS-Versionen (≤ 26) musst du d aus dem Output manuell berechnen:
$$d = t \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}$$
Eine ausführliche SPSS-Anleitung mit weiteren Effektmaßen findest du im Begleit-Tutorial.
In R berechnen
Das Paket effectsize ist der aktuelle Standard:
library(effectsize)
# Cohens d für zwei unabhängige Gruppen
cohens_d(vas_score ~ gruppe, data = df)
# Cohen's d | 95% CI
# -------------------------------
# -0.64 | [-1.01, -0.27]
# Hedges' g (Bias-korrigiert)
hedges_g(vas_score ~ gruppe, data = df)
# Für gepaarte Stichproben (d_z)
cohens_d(vorher, nachher, paired = TRUE, data = df)
Alternativ aus einem t-Test-Objekt:
library(effsize)
result <- t.test(vas_score ~ gruppe, data = df, var.equal = TRUE)
cohen.d(vas_score ~ gruppe, data = df)
Häufige Fehler
Fehler 1: Cohens d mit dem p-Wert verwechseln
Falsch: "p < 0,001 — also ist der Effekt groß." Richtig: p-Wert sagt ob ein Effekt existiert, Cohens d sagt wie groß er ist. Beide gehören gemeinsam berichtet.
Fehler 2: Cohens d bei nicht-normalverteilten Daten
Bei stark schiefen Verteilungen ist die gepoolte SD kein gutes Streuungsmaß — d wird verzerrt. Alternativen: nicht-parametrisches Effektmaß wie Cliff's Delta oder r = Z/√N beim Mann-Whitney-U-Test.
Fehler 3: Schwellenwerte als absolute Wahrheit
Die Cohen-Schwellen (0,2 / 0,5 / 0,8) sind Faustregeln aus den 1980er Jahren. In der Klinik kann d = 0,15 lebensrettend sein (z.B. Statintherapie); in der Schmerzforschung sind d ≥ 0,5 üblich.
Fehler 4: Effektstärke ohne Konfidenzintervall berichten
Cohens d ist eine Schätzung mit Unsicherheit. Bei n = 30 pro Gruppe kann das 95%-KI für d von 0,1 bis 1,1 reichen — also alles zwischen "kein Effekt" und "großer Effekt". Punkt- plus Intervallschätzung gehören zusammen.
Fehler 5: Falsche Variante bei gepaarten Daten
Wer Vorher-Nachher-Messungen mit der Standard-Cohens-d-Formel berechnet, ignoriert die Korrelation der Messungen und unterschätzt typischerweise den Effekt. d_z oder d_av sind hier korrekt.
Fehler 6: Cohens d bei sehr unterschiedlichen Stichprobengrößen
Wenn n₁ = 200 und n₂ = 20, dominiert die größere Gruppe die gepoolte SD. Glass' Δ verwendet nur die SD der Kontrollgruppe und ist hier oft sinnvoller.
Verwandte Konzepte
- Effektstärke — übergeordneter Begriff für alle standardisierten Effektmaße
- t-Test — der zugehörige Signifikanztest, bei dem Cohens d typischerweise berichtet wird
- Hedges' g — Bias-korrigierte Variante für kleine Stichproben (n < 50)
- Glass' Δ — Variante mit SD nur der Kontrollgruppe, sinnvoll bei Varianzheterogenität
- Konfidenzintervall — für Cohens d obligatorisch mit zu berichten
- Power-Analyse — Cohens d ist der wichtigste Input für a-priori-Fallzahlplanung
- p-Wert — Signifikanz; ergänzt, ersetzt aber nicht die Effektstärke
Häufige Fragen
- „Wann ist ein Cohens d klinisch relevant?" → Die Cohen-Schwellen (0,2 klein / 0,5 mittel / 0,8 groß) sind nur Faustregeln. Klinische Relevanz hängt vom Endpunkt ab: bei Mortalität kann d = 0,1 hochbedeutsam sein, bei subjektiven Skalen erst d ≥ 0,5. Fachspezifische Benchmarks (z.B. MCID — Minimal Clinically Important Difference) sind aussagekräftiger als generische Cutoffs.
- „Was ist der Unterschied zwischen Cohens d und Hedges' g?" → Hedges' g ist eine Bias-korrigierte Version von Cohens d, die bei kleinen Stichproben (n < 50) genauere Schätzungen liefert. Bei n ≥ 50 sind beide Werte praktisch identisch. Viele Journals empfehlen mittlerweile standardmäßig Hedges' g für Meta-Analysen.
- „Wie berichte ich Cohens d in einer Publikation?" → Standardformat: "M_1 = 22,4 (SD = 14,1), M_2 = 31,8 (SD = 15,3), t(118) = 3,50, p < 0,001, d = 0,64, 95% KI [0,27; 1,01]". Punktschätzung plus Konfidenzintervall sind Pflicht. Verbal: "mittlerer Effekt nach Cohen".
- „Kann Cohens d negativ sein?" → Ja. Das Vorzeichen zeigt die Richtung der Differenz (welche Gruppe einen höheren Mittelwert hat). Für die Klassifikation der Effektgröße (klein/mittel/groß) wird der Betrag |d| verwendet. Welche Gruppe als Gruppe 1 vs. 2 codiert wird, sollte aus inhaltlicher Logik bestimmt werden (z.B. Intervention vs. Kontrolle).
- „Welche Variante nehme ich bei Vorher-Nachher-Messungen?" → Bei abhängigen (gepaarten) Daten ist d_z = M_diff / SD_diff üblich — basierend auf den Differenzwerten. Eine Alternative ist d_av, das den Mittelwert der beiden SDs verwendet. d_z ist meist größer, weil Differenzen typischerweise weniger streuen als Originaldaten. Wichtig: in der Methodik klar angeben, welche Variante berechnet wurde.
- „Wie hängt Cohens d mit der Power-Analyse zusammen?" → Cohens d ist der zentrale Input für a-priori-Fallzahlberechnung beim t-Test. Mit α = 0,05, Power = 0,80 und einem erwarteten d = 0,5 (mittlerer Effekt) brauchst du etwa n = 64 pro Gruppe. Kleinere erwartete Effekte erfordern überproportional größere Stichproben (d = 0,2 → n ≈ 394 pro Gruppe).
- „Was tue ich, wenn meine Daten nicht normalverteilt sind?" → Bei moderater Schiefe ist Cohens d noch akzeptabel — der t-Test ist robust. Bei stark schiefen Verteilungen oder Ordinalskalen sind nicht-parametrische Effektmaße geeigneter: r = |Z|/√N (aus dem Mann-Whitney-U-Test) oder Cliff's Delta. Auch eine Transformation der Daten (z.B. log) kann Cohens d wieder anwendbar machen.
- „Liefert SPSS, R oder Jamovi unterschiedliche Werte für Cohens d?" → Bei korrekter Anwendung mit identischer Variante (z.B. gepoolte SD, unabhängige Stichproben) liefern alle Programme identische Werte. Unterschiede entstehen nur durch verschiedene Definitionen (z.B. d vs. g, d_z vs. d_av) — daher in der Methodik immer die exakte Berechnungsformel oder das verwendete R-Paket angeben.