Pearson-Korrelation: Definition, Formel & Interpretation
Die Pearson-Korrelation r misst die Stärke und Richtung eines linearen Zusammenhangs zweier metrischer Variablen. Definition, Formel, Voraussetzungen, Interpretation und Berechnung in SPSS und R.
Definition
Die Pearson-Korrelation (auch Produkt-Moment-Korrelation oder Bravais-Pearson-Korrelation) ist eine Maßzahl für die Stärke und Richtung des linearen Zusammenhangs zweier metrisch skalierter Variablen X und Y. Der Korrelationskoeffizient r ist auf den Wertebereich [-1, +1] normiert:
- r = +1 → perfekter positiver linearer Zusammenhang
- r = 0 → kein linearer Zusammenhang
- r = -1 → perfekter negativer linearer Zusammenhang
Merke: Korrelation ≠ Kausalität. Ein hoher r-Wert sagt nur aus, dass zwei Variablen gemeinsam variieren — nicht, dass die eine die andere verursacht. Scheinkorrelationen durch Drittvariablen (Confounder) sind in der medizinischen Forschung häufig.
Formel
Die Pearson-Korrelation ist die auf das Produkt der Standardabweichungen normierte Kovarianz:
$$r = \frac{\text{cov}(X,Y)}{\sigma_X \cdot \sigma_Y} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \cdot \sum_{i=1}^{n}(y_i - \bar{y})^2}}$$
Die Kovarianz allein hängt von der Maßeinheit ab (mmHg × kg ≠ kPa × g) — durch die Normierung mit den Standardabweichungen wird r dimensionslos und vergleichbar.
Das Bestimmtheitsmaß r² gibt den Anteil der gemeinsam erklärten Varianz an: bei r = 0,7 erklären die beiden Variablen etwa 49 % ihrer Varianz wechselseitig.
Voraussetzungen
Die Pearson-Korrelation hat strenge Voraussetzungen — wenn diese verletzt sind, ist die Spearman-Korrelation die robustere Alternative:
- Beide Variablen metrisch skaliert (intervall- oder verhältnisskaliert)
- Linearer Zusammenhang — bei kurvilinearen Beziehungen (z.B. U-förmig) liefert r irreführende Werte nahe null
- Bivariate Normalverteilung — beide Variablen sollten annähernd normalverteilt sein, insbesondere bei kleinen Stichproben (n < 30)
- Keine Ausreißer — einzelne Extremwerte können r dramatisch verzerren
- Homoskedastizität — die Streuung von Y sollte über den Wertebereich von X annähernd konstant sein
- Unabhängige Beobachtungen — keine Messwiederholungen ohne entsprechende Korrektur
Praxis-Tipp: Erstelle vor der Berechnung von r immer einen Scatterplot. Anscombe's Quartet zeigt eindrücklich, dass vier völlig unterschiedliche Datensätze identische r-Werte haben können — visuelle Inspektion ist Pflicht.
Interpretation
Die übliche Konvention zur Interpretation der Effektstärke nach Cohen:
| |r| | Interpretation | |---|---| | 0,00 – 0,10 | kein/vernachlässigbar | | 0,10 – 0,30 | schwacher Zusammenhang | | 0,30 – 0,50 | mittlerer Zusammenhang | | 0,50 – 0,70 | starker Zusammenhang | | 0,70 – 0,90 | sehr starker Zusammenhang | | 0,90 – 1,00 | (nahezu) perfekter Zusammenhang |
Das Vorzeichen gibt die Richtung an: positiv = beide Variablen steigen gemeinsam; negativ = wenn eine steigt, fällt die andere.
Zur Pearson-Korrelation gehört zusätzlich:
- p-Wert für Test der H₀: ρ = 0
- 95%-Konfidenzintervall für r (über Fisher-z-Transformation)
Merke: Bei sehr großen Stichproben (n > 1.000) wird auch ein r = 0,08 statistisch signifikant — bleibt klinisch aber bedeutungslos. Effektstärke immer mit p-Wert UND Konfidenzintervall berichten.
Klinisches Anwendungsbeispiel
Studie: Zusammenhang zwischen BMI und systolischem Blutdruck bei n = 120 Hypertonie-Patienten.
- BMI: M = 28,4 kg/m², SD = 4,2
- RR sys: M = 142 mmHg, SD = 16,8
- Scatterplot zeigt linearen Trend, keine Ausreißer
- Shapiro-Wilk: beide Variablen p > 0,05 → Normalverteilung plausibel
Ergebnis:
- r = 0,42, p < 0,001, 95%-KI [0,26; 0,56]
- r² = 0,176 → BMI erklärt ca. 17,6 % der Varianz des systolischen Blutdrucks
Interpretation: Es besteht ein statistisch signifikanter, mittelstarker positiver linearer Zusammenhang zwischen BMI und systolischem Blutdruck. Höherer BMI geht mit höheren Blutdruckwerten einher. Kausalität ist daraus nicht ableitbar — Drittvariablen wie Alter, körperliche Aktivität, Salzkonsum oder genetische Disposition könnten beide Variablen beeinflussen. Eine multiple Regression wäre der nächste Schritt zur Adjustierung.
In SPSS berechnen
Analysieren → Korrelation → Bivariat
- Variablen in das Feld "Variablen" verschieben
- Korrelationskoeffizient: Pearson auswählen
- Test auf Signifikanz: zweiseitig
- Optional: "Signifikante Korrelationen markieren" anhaken
Im Output findest du:
- Korrelation nach Pearson = r-Wert
- Sig. (2-seitig) = p-Wert
- N = Stichprobengröße
Für das 95%-Konfidenzintervall bietet SPSS ab Version 27 eine eigene Option (Bootstrap oder Konfidenzintervalle). Eine Schritt-für-Schritt-Anleitung findest du im Tutorial zur SPSS-Auswertung.
In R berechnen
# Basis-Korrelation
cor(df$bmi, df$rr_sys, method = "pearson")
# [1] 0.4231
# Mit Signifikanztest und Konfidenzintervall
result <- cor.test(df$bmi, df$rr_sys, method = "pearson")
print(result)
# t = 5.07, df = 118, p-value = 1.4e-06
# 95 percent confidence interval: 0.263 to 0.561
# sample estimates:
# cor
# 0.4231
# Korrelationsmatrix für mehrere Variablen
cor(df[, c("bmi", "rr_sys", "alter", "hba1c")],
use = "pairwise.complete.obs",
method = "pearson")
# Visualisierung mit ggplot2
library(ggplot2)
ggplot(df, aes(x = bmi, y = rr_sys)) +
geom_point() +
geom_smooth(method = "lm", se = TRUE) +
labs(x = "BMI [kg/m²]", y = "RR systolisch [mmHg]")
Für publikationsreife Korrelationsmatrizen mit Signifikanzsternen eignet sich das Paket corrplot oder Hmisc::rcorr(). Mehr in der R-Statistik-Anleitung.
Häufige Fehler
Fehler 1: Korrelation als Kausalität interpretieren
Falsch: "Höherer BMI verursacht höheren Blutdruck (r = 0,42)." Richtig: "BMI und Blutdruck zeigen einen mittelstarken positiven Zusammenhang. Kausalität erfordert kontrollierte Studien oder Adjustierung."
Fehler 2: Pearson bei nicht-linearen Zusammenhängen
Bei einem U-förmigen Zusammenhang (z.B. Mortalität und BMI) liefert r ≈ 0, obwohl ein starker — aber nicht linearer — Zusammenhang besteht. Scatterplot vorab anschauen!
Fehler 3: Pearson auf Ordinalskala anwenden
Likert-Skalen, Schmerz-NRS oder Tumor-Stadien sind ordinal — die Spearman-Korrelation ist hier korrekt. Pearson überschätzt oder unterschätzt systematisch.
Fehler 4: Ausreißer ignorieren
Ein einziger Extremwert kann r von 0,2 auf 0,8 hochziehen — oder umgekehrt. Robuste Korrelationen oder Spearman als Sensitivitätsanalyse rechnen.
Fehler 5: Multiples Testen ohne Korrektur
Bei einer Korrelationsmatrix mit 10 Variablen rechnet man 45 Korrelationen → einige werden zufällig signifikant. Bonferroni- oder FDR-Korrektur anwenden.
Fehler 6: r ohne Konfidenzintervall berichten
"r = 0,42 (p < 0,001)" ist unvollständig. Korrekt: "r = 0,42, 95%-KI [0,26; 0,56], p < 0,001". Das KI zeigt die Präzision der Schätzung — bei n = 20 wäre dasselbe r = 0,42 mit KI [-0,03; 0,73] kaum aussagekräftig.
Verwandte Konzepte
- Spearman-Korrelation — robuste, rangbasierte Alternative bei nicht-normalen Daten oder Ordinalskala
- Kovarianz — unnormierte Vorstufe der Pearson-Korrelation, abhängig von der Maßeinheit
- Lineare Regression — modelliert nicht nur die Stärke, sondern die funktionale Form des Zusammenhangs (Steigung, Achsenabschnitt)
- Scatterplot — unverzichtbares Visualisierungswerkzeug zur Prüfung der Linearitätsannahme
- p-Wert — Signifikanztest für H₀: ρ = 0
- Partielle Korrelation — Korrelation zwischen X und Y unter Kontrolle einer Drittvariable Z
- Bestimmtheitsmaß r² — Anteil der gemeinsam erklärten Varianz (Quadrat des Pearson-r)
Häufige Fragen
- „Wann wird Pearson und wann Spearman verwendet?" → Pearson bei zwei metrisch skalierten, annähernd normalverteilten Variablen mit linearem Zusammenhang. Spearman bei ordinalen Daten, nicht-normaler Verteilung, monotonen aber nicht-linearen Zusammenhängen oder bei Ausreißern. Im Zweifelsfall beide rechnen — bei großer Diskrepanz auf Spearman zurückgreifen.
- „Was bedeutet r² (Bestimmtheitsmaß) konkret?" → r² ist das Quadrat des Pearson-Korrelationskoeffizienten und gibt den Anteil der gemeinsam erklärten Varianz an. Bei r = 0,5 ist r² = 0,25 — d.h. 25 % der Varianz von Y werden durch X (linear) erklärt. Es ist ein zentrales Maß auch in der linearen Regression.
- „Welche Stichprobengröße brauche ich für eine Pearson-Korrelation?" → Mindestens n = 30 für robuste Schätzungen. Für eine Power-Analyse: bei α = 0,05, Power = 0,80 und erwarteter mittlerer Effektgröße (r = 0,3) brauchst du n ≈ 84. Für kleine Effekte (r = 0,1) sind n > 780 nötig. Power-Analyse vorab über G*Power oder das R-Paket
pwr. - „Kann r negativ und trotzdem stark sein?" → Ja. Das Vorzeichen gibt die Richtung an, der Betrag |r| die Stärke. r = -0,85 ist ein sehr starker negativer Zusammenhang — beide Variablen variieren gegenläufig. Beispiel: körperliche Fitness und Ruhepuls korrelieren typischerweise stark negativ.
- „Was tun bei Verletzung der Normalverteilungsannahme?" → Drei Optionen: (1) Transformation der Variablen (log, sqrt) und erneute Prüfung, (2) Wechsel zur Spearman-Korrelation, (3) Bootstrap-Konfidenzintervalle für r. Bei n > 100 ist Pearson durch den zentralen Grenzwertsatz relativ robust gegen moderate Abweichungen von der Normalverteilung.
- „Wie interpretiere ich r = 0,15 mit p < 0,001?" → Statistisch signifikant, aber inhaltlich vernachlässigbar. r² = 0,022 — nur 2,2 % gemeinsame Varianz. Das passiert typischerweise bei sehr großen Stichproben (n > 500), wo selbst minimale Effekte signifikant werden. Berichte unbedingt das Konfidenzintervall und diskutiere die klinische Relevanz.
- „Beweist eine Korrelation einen kausalen Zusammenhang?" → Nein. Korrelation ist eine notwendige, aber keine hinreichende Bedingung für Kausalität. Mögliche Erklärungen für r ≠ 0: (1) X verursacht Y, (2) Y verursacht X, (3) eine Drittvariable Z verursacht beide (Confounder), (4) Zufall. Kausalitätsnachweise erfordern randomisierte kontrollierte Studien oder kausale Inferenzmethoden (DAGs, Instrumentvariablen).
- „Wie vergleiche ich zwei Korrelationskoeffizienten statistisch?" → Über die Fisher-z-Transformation. In R:
psych::r.test(n1, r1, n2, r2)für unabhängige Stichproben odercocor::cocor()für abhängige (überlappende) Korrelationen. Direkter Vergleich von r-Werten ohne Test ist nicht zulässig — der Unterschied zwischen r = 0,5 und r = 0,7 kann je nach Stichprobengröße signifikant oder nicht-signifikant sein. - „Sollte ich vor der Korrelationsanalyse Ausreißer entfernen?" → Nicht reflexartig. Prüfe, ob Ausreißer (1) Messfehler sind (entfernen, dokumentieren), (2) plausible Extremwerte (behalten, Sensitivitätsanalyse mit/ohne durchführen). Robuste Alternativen: Spearman-Korrelation oder Winsorisierung. Jede Datenmodifikation muss in der Methodenbeschreibung der Doktorarbeit transparent berichtet werden.