Cohens d: Definition, Berechnung & Interpretation

Cohens d ist die standardisierte Mittelwertdifferenz zwischen zwei Gruppen — ein zentrales Effektmaß bei t-Tests. Definition, Formel, Interpretation (klein/mittel/groß), Berechnung in SPSS und R.

Definition

Cohens d ist das am häufigsten verwendete standardisierte Effektmaß für den Vergleich zweier Gruppenmittelwerte. Es drückt die Differenz der Mittelwerte in Einheiten der gepoolten Standardabweichung aus und ist damit dimensionslos — also unabhängig von der ursprünglichen Messskala. Während der p-Wert nur die statistische Signifikanz einer Differenz beurteilt, quantifiziert Cohens d die Größe des Effekts und damit die klinische Relevanz.

Merke: Ein t-Test ohne Effektstärke ist publikationsmethodisch unvollständig. Cohens d gehört zu jedem Mittelwertvergleich — gemeinsam mit dem 95%-Konfidenzintervall der Effektstärke.

Formel

Die Standardform für zwei unabhängige Gruppen lautet:

$$d = \frac{\bar{x}_1 - \bar{x}2}{s{pooled}}$$

mit der gepoolten Standardabweichung:

$$s_{pooled} = \sqrt{\frac{(n_1 - 1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 - 2}}$$

Bei abhängigen (gepaarten) Stichproben — z.B. Vorher-Nachher-Messungen am selben Patienten — gibt es mehrere Varianten. Üblich ist:

$$d_z = \frac{\bar{x}{diff}}{s{diff}}$$

wobei x̄_diff und s_diff Mittelwert und Standardabweichung der Differenzwerte sind.

Praxis-Tipp: Bei kleinen Stichproben (n < 50) überschätzt Cohens d die wahre Effektstärke. Verwende dann Hedges' g — eine Bias-korrigierte Variante.

Voraussetzungen

Damit Cohens d sinnvoll interpretiert werden kann:

  • Metrisches Skalenniveau der abhängigen Variable (Intervall- oder Verhältnisskala)
  • Annähernde Normalverteilung in beiden Gruppen — sonst ist die gepoolte SD wenig aussagekräftig
  • Varianzhomogenität — bei stark unterschiedlichen Varianzen besser Glass' Δ (verwendet nur die SD der Kontrollgruppe)
  • Unabhängige Beobachtungen bei der Standardform; bei gepaarten Daten d_z verwenden
  • Ausreichend große Stichprobe (n ≥ 50 pro Gruppe) — sonst Bias-Korrektur via Hedges' g

Mehr zu Voraussetzungen und Berichtsstandards in unserer Übersicht zur Statistik in der Doktorarbeit.

Interpretation

Die klassischen Schwellenwerte nach Cohen (1988):

| |d| | Effekt | Praktische Bedeutung | |---|---|---| | 0,01 – 0,19 | sehr klein | meist klinisch irrelevant | | 0,20 – 0,49 | klein | wahrnehmbar, aber subtil | | 0,50 – 0,79 | mittel | mit bloßem Auge erkennbar | | 0,80 – 1,19 | groß | deutlicher Effekt | | ≥ 1,20 | sehr groß | außergewöhnlich |

Das Vorzeichen von d zeigt nur die Richtung der Differenz (welche Gruppe höher liegt) und wird für die Effektgrößen-Klassifikation als Betrag interpretiert.

Wichtig: Diese Schwellen sind Konventionen, keine Naturgesetze. In der Pharmakologie kann ein d von 0,2 hochrelevant sein (z.B. Mortalitätsreduktion), in der Psychometrie eher unspektakulär. Fachgebiet und klinischer Kontext entscheiden über die tatsächliche Bedeutung.

Klinisches Anwendungsbeispiel

Studie: Wirksamkeit eines neuen Lokalanästhetikums in der Endodontie, gemessen über die VAS-Schmerzskala (0–100) während der Wurzelkanalbehandlung.

  • Gruppe A (neues Anästhetikum): M = 22,4 / SD = 14,1 / n = 60
  • Gruppe B (Standardanästhetikum): M = 31,8 / SD = 15,3 / n = 60
  • Mittelwertdifferenz: −9,4 Punkte
  • t(118) = 3,50, p < 0,001

Berechnung von Cohens d:

$$s_{pooled} = \sqrt{\frac{59 \cdot 14{,}1^2 + 59 \cdot 15{,}3^2}{118}} = 14{,}71$$

$$d = \frac{22{,}4 - 31{,}8}{14{,}71} = -0{,}64$$

Interpretation: Mit |d| = 0,64 liegt ein mittlerer Effekt vor. Die Schmerzreduktion ist nicht nur statistisch signifikant, sondern auch klinisch relevant — Patienten unter dem neuen Anästhetikum berichten im Schnitt um etwa zwei Drittel einer Standardabweichung niedrigere Schmerzwerte.

In SPSS berechnen

SPSS gibt Cohens d ab Version 27 direkt im t-Test-Output mit aus:

Analysieren → Mittelwerte vergleichen → t-Test bei unabhängigen Stichproben

Im Output unter "Effektgrößen für unabhängige Stichproben" findest du Cohens d, Hedges' Korrektur und Glass' Delta — jeweils mit punktgeschätzten Werten und 95%-Konfidenzintervall.

In älteren SPSS-Versionen (≤ 26) musst du d aus dem Output manuell berechnen:

$$d = t \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}$$

Eine ausführliche SPSS-Anleitung mit weiteren Effektmaßen findest du im Begleit-Tutorial.

In R berechnen

Das Paket effectsize ist der aktuelle Standard:

library(effectsize)

# Cohens d für zwei unabhängige Gruppen
cohens_d(vas_score ~ gruppe, data = df)
# Cohen's d |         95% CI
# -------------------------------
# -0.64     | [-1.01, -0.27]

# Hedges' g (Bias-korrigiert)
hedges_g(vas_score ~ gruppe, data = df)

# Für gepaarte Stichproben (d_z)
cohens_d(vorher, nachher, paired = TRUE, data = df)

Alternativ aus einem t-Test-Objekt:

library(effsize)
result <- t.test(vas_score ~ gruppe, data = df, var.equal = TRUE)
cohen.d(vas_score ~ gruppe, data = df)

Häufige Fehler

Fehler 1: Cohens d mit dem p-Wert verwechseln

Falsch: "p < 0,001 — also ist der Effekt groß." Richtig: p-Wert sagt ob ein Effekt existiert, Cohens d sagt wie groß er ist. Beide gehören gemeinsam berichtet.

Fehler 2: Cohens d bei nicht-normalverteilten Daten

Bei stark schiefen Verteilungen ist die gepoolte SD kein gutes Streuungsmaß — d wird verzerrt. Alternativen: nicht-parametrisches Effektmaß wie Cliff's Delta oder r = Z/√N beim Mann-Whitney-U-Test.

Fehler 3: Schwellenwerte als absolute Wahrheit

Die Cohen-Schwellen (0,2 / 0,5 / 0,8) sind Faustregeln aus den 1980er Jahren. In der Klinik kann d = 0,15 lebensrettend sein (z.B. Statintherapie); in der Schmerzforschung sind d ≥ 0,5 üblich.

Fehler 4: Effektstärke ohne Konfidenzintervall berichten

Cohens d ist eine Schätzung mit Unsicherheit. Bei n = 30 pro Gruppe kann das 95%-KI für d von 0,1 bis 1,1 reichen — also alles zwischen "kein Effekt" und "großer Effekt". Punkt- plus Intervallschätzung gehören zusammen.

Fehler 5: Falsche Variante bei gepaarten Daten

Wer Vorher-Nachher-Messungen mit der Standard-Cohens-d-Formel berechnet, ignoriert die Korrelation der Messungen und unterschätzt typischerweise den Effekt. d_z oder d_av sind hier korrekt.

Fehler 6: Cohens d bei sehr unterschiedlichen Stichprobengrößen

Wenn n₁ = 200 und n₂ = 20, dominiert die größere Gruppe die gepoolte SD. Glass' Δ verwendet nur die SD der Kontrollgruppe und ist hier oft sinnvoller.

Verwandte Konzepte

  • Effektstärke — übergeordneter Begriff für alle standardisierten Effektmaße
  • t-Test — der zugehörige Signifikanztest, bei dem Cohens d typischerweise berichtet wird
  • Hedges' g — Bias-korrigierte Variante für kleine Stichproben (n < 50)
  • Glass' Δ — Variante mit SD nur der Kontrollgruppe, sinnvoll bei Varianzheterogenität
  • Konfidenzintervall — für Cohens d obligatorisch mit zu berichten
  • Power-Analyse — Cohens d ist der wichtigste Input für a-priori-Fallzahlplanung
  • p-Wert — Signifikanz; ergänzt, ersetzt aber nicht die Effektstärke

Häufige Fragen

  • „Wann ist ein Cohens d klinisch relevant?" → Die Cohen-Schwellen (0,2 klein / 0,5 mittel / 0,8 groß) sind nur Faustregeln. Klinische Relevanz hängt vom Endpunkt ab: bei Mortalität kann d = 0,1 hochbedeutsam sein, bei subjektiven Skalen erst d ≥ 0,5. Fachspezifische Benchmarks (z.B. MCID — Minimal Clinically Important Difference) sind aussagekräftiger als generische Cutoffs.
  • „Was ist der Unterschied zwischen Cohens d und Hedges' g?" → Hedges' g ist eine Bias-korrigierte Version von Cohens d, die bei kleinen Stichproben (n < 50) genauere Schätzungen liefert. Bei n ≥ 50 sind beide Werte praktisch identisch. Viele Journals empfehlen mittlerweile standardmäßig Hedges' g für Meta-Analysen.
  • „Wie berichte ich Cohens d in einer Publikation?" → Standardformat: "M_1 = 22,4 (SD = 14,1), M_2 = 31,8 (SD = 15,3), t(118) = 3,50, p < 0,001, d = 0,64, 95% KI [0,27; 1,01]". Punktschätzung plus Konfidenzintervall sind Pflicht. Verbal: "mittlerer Effekt nach Cohen".
  • „Kann Cohens d negativ sein?" → Ja. Das Vorzeichen zeigt die Richtung der Differenz (welche Gruppe einen höheren Mittelwert hat). Für die Klassifikation der Effektgröße (klein/mittel/groß) wird der Betrag |d| verwendet. Welche Gruppe als Gruppe 1 vs. 2 codiert wird, sollte aus inhaltlicher Logik bestimmt werden (z.B. Intervention vs. Kontrolle).
  • „Welche Variante nehme ich bei Vorher-Nachher-Messungen?" → Bei abhängigen (gepaarten) Daten ist d_z = M_diff / SD_diff üblich — basierend auf den Differenzwerten. Eine Alternative ist d_av, das den Mittelwert der beiden SDs verwendet. d_z ist meist größer, weil Differenzen typischerweise weniger streuen als Originaldaten. Wichtig: in der Methodik klar angeben, welche Variante berechnet wurde.
  • „Wie hängt Cohens d mit der Power-Analyse zusammen?" → Cohens d ist der zentrale Input für a-priori-Fallzahlberechnung beim t-Test. Mit α = 0,05, Power = 0,80 und einem erwarteten d = 0,5 (mittlerer Effekt) brauchst du etwa n = 64 pro Gruppe. Kleinere erwartete Effekte erfordern überproportional größere Stichproben (d = 0,2 → n ≈ 394 pro Gruppe).
  • „Was tue ich, wenn meine Daten nicht normalverteilt sind?" → Bei moderater Schiefe ist Cohens d noch akzeptabel — der t-Test ist robust. Bei stark schiefen Verteilungen oder Ordinalskalen sind nicht-parametrische Effektmaße geeigneter: r = |Z|/√N (aus dem Mann-Whitney-U-Test) oder Cliff's Delta. Auch eine Transformation der Daten (z.B. log) kann Cohens d wieder anwendbar machen.
  • „Liefert SPSS, R oder Jamovi unterschiedliche Werte für Cohens d?" → Bei korrekter Anwendung mit identischer Variante (z.B. gepoolte SD, unabhängige Stichproben) liefern alle Programme identische Werte. Unterschiede entstehen nur durch verschiedene Definitionen (z.B. d vs. g, d_z vs. d_av) — daher in der Methodik immer die exakte Berechnungsformel oder das verwendete R-Paket angeben.
✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer