Was ist der Unterschied zwischen Korrelation und Regression?

Die Korrelation misst nur Stärke und Richtung eines linearen Zusammenhangs zwischen zwei Variablen (r zwischen -1 und +1). Die Regression liefert ein Modell mit Koeffizienten, erlaubt Vorhersagen und kann mehrere Prädiktoren simultan einbeziehen — bei gleichzeitiger Kontrolle für Confounder.

Wann verwende ich einfache, wann multiple Regression?

Einfache Regression bei genau einem Prädiktor, multiple Regression bei mehreren. In der medizinischen Forschung ist die multiple Regression Standard, weil sie für Confounder (Alter, Geschlecht, Komorbiditäten) kontrolliert und so den unabhängigen Effekt eines Prädiktors isoliert.

Wie viele Probanden brauche ich pro Prädiktor?

Faustregel in der Medizin: mindestens 10–20 Beobachtungen pro Prädiktor. Bei n = 100 also maximal 5–10 Prädiktoren. Bei kleineren Stichproben oder seltenen Ereignissen steigt das Overfitting-Risiko stark — eine A-priori-Power-Analyse ist Pflicht.

Was bedeutet R² = 0,30?

30 % der Varianz der abhängigen Variable werden durch das Modell erklärt — 70 % bleiben unerklärt. In den Sozial- und Lebenswissenschaften sind R²-Werte von 0,15–0,40 typisch und akzeptabel. In der Physik werden oft R² > 0,9 erwartet. R² ist also stark fachabhängig zu interpretieren.

Warum unterscheiden sich R² und adjustiertes R²?

R² steigt mit jedem zusätzlichen Prädiktor — auch wenn dieser irrelevant ist. Das adjustierte R² korrigiert dafür und kann sinken, wenn unnütze Prädiktoren aufgenommen werden. Bei multipler Regression immer das

Was ist der Unterschied zwischen β und standardisiertem β?

Der unstandardisierte β-Koeffizient hat die Einheit der Originalvariablen (z.B. mmHg pro kg/m²) und ist klinisch interpretierbar. Das standardisierte β (Beta) ist dimensionslos und erlaubt den Vergleich der relativen Wichtigkeit verschiedener Prädiktoren — wer hat den stärksten Einfluss, unabhängig von der Einheit.

Was tun, wenn die Residuen nicht normalverteilt sind?

Bei großen Stichproben (n > 100) ist die Regression robust gegen leichte Abweichungen (Zentraler Grenzwertsatz). Bei starker Abweichung: log- oder Quadratwurzel-Transformation der abhängigen Variable, Ausreißer prüfen, oder robuste Regression (z.B. `rlm()` in R, Bootstrap-Konfidenzintervalle).

Kann ich Regression auch bei kategorialen Prädiktoren verwenden?

Ja. Kategoriale Prädiktoren werden durch Dummy-Codierung in die Regression eingebunden. Bei k Kategorien werden k-1 Dummy-Variablen erstellt, eine Kategorie dient als Referenz. SPSS und R machen das mit Faktorvariablen automatisch. Bei rein kategorialen Prädiktoren entspricht die Regression einer ANOVA.

Welche Regression wähle ich bei binärem Outcome?

Bei dichotomen Outcomes (krank/gesund, Therapieerfolg ja/nein) ist die

Regression: Definition, Modelle & Beispiele

Die Regressionsanalyse modelliert den Zusammenhang zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen. Definition, Voraussetzungen, Interpretation und Anwendung in SPSS und R.

📊 Modellierung · ⏱️ 11 Min. · Aktualisiert 2026-05-10

Definition

Die Regression (auch: Regressionsanalyse) ist ein statistisches Verfahren zur Modellierung des Zusammenhangs zwischen einer abhängigen Variable (Outcome, Zielgröße, y) und einer oder mehreren unabhängigen Variablen (Prädiktoren, Kovariaten, x). Ziel ist es, den Wert der abhängigen Variable durch die Prädiktoren zu vorhersagen oder den Effekt einzelner Prädiktoren zu quantifizieren — bei gleichzeitiger Kontrolle für andere Einflussgrößen.

Während die Pearson-Korrelation lediglich die Stärke und Richtung eines linearen Zusammenhangs misst, liefert die Regression ein Modell: konkrete Koeffizienten, Vorhersagen und Aussagen darüber, wie stark sich y ändert, wenn x um eine Einheit steigt.

Merke: Regression ≠ Kausalität. Auch wenn x ein signifikanter Prädiktor von y ist, beweist das keine Ursache-Wirkungs-Beziehung. Kausale Aussagen erfordern randomisierte Studiendesigns oder spezielle kausale Inferenzmethoden.

Formel

Einfache lineare Regression (ein Prädiktor):

$$y = \beta_0 + \beta_1 x + \varepsilon$$

β₀ = Achsenabschnitt (Intercept): Wert von y, wenn x = 0
β₁ = Steigungskoeffizient: um wie viele Einheiten ändert sich y, wenn x um 1 steigt
ε = Fehlerterm (Residuum): unerklärter Anteil

Multiple lineare Regression (mehrere Prädiktoren):

$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_k x_k + \varepsilon$$

Die Koeffizienten werden meist nach der Methode der kleinsten Quadrate (OLS, Ordinary Least Squares) geschätzt — die Summe der quadrierten Residuen wird minimiert.

Bestimmtheitsmaß R²:

$$R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}$$

R² gibt den Anteil der Varianz von y an, der durch das Modell erklärt wird (0 bis 1).

Voraussetzungen

Die klassische lineare Regression hat fünf Kernannahmen, die vor der Interpretation geprüft werden müssen:

Linearität — der Zusammenhang zwischen Prädiktoren und Outcome ist linear (Streudiagramm prüfen)
Unabhängigkeit der Residuen — keine Autokorrelation (relevant bei Zeitreihen; Durbin-Watson-Test)
Homoskedastizität — konstante Varianz der Residuen über alle x-Werte (Residuenplot)
Normalverteilung der Residuen — wichtig für Konfidenzintervalle und p-Werte (Q-Q-Plot, Shapiro-Wilk)
Keine starke Multikollinearität — Prädiktoren dürfen nicht zu stark untereinander korrelieren (VIF < 5–10)

Zusätzlich: abhängige Variable metrisch (für lineare Regression). Bei binärem Outcome → logistische Regression. Bei Zähldaten → Poisson- oder Negativ-Binomial-Regression.

Interpretation

Aus dem Regressionsoutput lassen sich vier zentrale Größen ablesen:

Größe	Bedeutung
β-Koeffizient	Effektstärke: Änderung von y pro Einheit x
Standardisiertes β	dimensionsloser Vergleich der Prädiktoren-Stärke
p-Wert	Ist der Prädiktor signifikant von 0 verschieden?
R² / adj. R²	Anteil erklärte Varianz — bei multipler Regression adj. R² verwenden
95%-KI für β	Präzision der Effektschätzung

Praxis-Tipp: In medizinischen Publikationen werden β-Koeffizient + 95%-Konfidenzintervall + p-Wert gemeinsam berichtet. Das standardisierte β erlaubt zusätzlich den Vergleich der relativen Wichtigkeit von Prädiktoren mit unterschiedlichen Einheiten (z.B. Alter in Jahren vs. BMI in kg/m²).

Klinisches Anwendungsbeispiel

Studie: Welche Faktoren beeinflussen den postoperativen HbA1c-Wert (%) drei Monate nach bariatrischer OP? (n = 180)

Modell: HbA1c = β₀ + β₁·BMI_präop + β₂·Alter + β₃·OP_Typ + ε

Prädiktor	β	95%-KI	p-Wert	std. β
Intercept	4,82	3,91 – 5,73	< 0,001	—
BMI präop (kg/m²)	0,038	0,021 – 0,055	< 0,001	0,29
Alter (Jahre)	0,012	-0,003 – 0,027	0,118	0,11
OP-Typ (RYGB vs. SG)	-0,41	-0,68 – -0,14	0,003	-0,22

R² = 0,21, adj. R² = 0,20

Interpretation:

Pro 1 kg/m² höherem präoperativem BMI steigt der HbA1c im Mittel um 0,038 % — signifikant.
RYGB führt zu einem 0,41 % niedrigeren HbA1c als Sleeve-Gastrektomie — signifikant und klinisch relevant.
Alter ist nicht signifikant (p = 0,118).
Das Modell erklärt 20 % der Varianz im HbA1c — zusätzliche Prädiktoren (Diabetesdauer, Medikation) wären sinnvoll.

In SPSS berechnen

Analysieren → Regression → Linear

Abhängige Variable: HbA1c
Unabhängige Variablen: BMI, Alter, OP_Typ (kategorial → vorab dummy-codieren)
Statistik: Schätzungen, Konfidenzintervalle (95 %), Modellanpassung, Kollinearitätsdiagnose
Diagramme: Histogramm + Q-Q-Plot der standardisierten Residuen, *ZRESID vs. ZPRED

Output-Tabellen:

Modellzusammenfassung → R², korrigiertes R², Standardfehler des Schätzers
ANOVA → Globaler F-Test (ist das Modell insgesamt signifikant?)
Koeffizienten → β, Standardfehler, std. β (Beta), t, p, 95%-KI, VIF (sollte < 5 sein)

Eine Schritt-für-Schritt-SPSS-Anleitung inklusive Voraussetzungsprüfung gibt es im Tutorial.

In R berechnen

# Lineare Regression
modell <- lm(hba1c ~ bmi + alter + op_typ, data = df)
summary(modell)
confint(modell)  # 95%-KI für Koeffizienten

# Voraussetzungen prüfen
par(mfrow = c(2, 2))
plot(modell)  # Residuen-Diagnostik
shapiro.test(residuals(modell))  # Normalverteilung
library(car)
vif(modell)    # Multikollinearität (VIF < 5)
ncvTest(modell) # Homoskedastizität (Breusch-Pagan)

# Standardisierte Koeffizienten
library(lm.beta)
lm.beta(modell)

Für eine umfassende R-Anleitung zur Regressionsdiagnostik und Modellbewertung siehe das Begleit-Tutorial.

Häufige Fehler

Fehler 1: Voraussetzungen nicht prüfen

Ein signifikantes Regressionsmodell ohne geprüfte Linearität, Homoskedastizität und Residuen-Normalverteilung ist nicht publikationsreif. Residuenplots sind Pflicht.

Fehler 2: Zu viele Prädiktoren bei kleiner Stichprobe

Faustregel: mindestens 10–20 Beobachtungen pro Prädiktor. Bei n = 50 sollten maximal 3–5 Prädiktoren ins Modell. Sonst Overfitting → Modell passt zur Stichprobe, aber nicht zur Population.

Fehler 3: Multikollinearität ignorieren

Wenn zwei Prädiktoren stark korrelieren (r > 0,8 bzw. VIF > 5), werden die β-Schätzungen instabil und die p-Werte unzuverlässig. Lösung: einen der Prädiktoren entfernen oder Hauptkomponentenanalyse.

Fehler 4: Kausale Sprache bei Beobachtungsstudien

"BMI verursacht höhere HbA1c-Werte" ist falsch — die Regression zeigt nur einen Zusammenhang nach Adjustierung. Korrekt: "ist mit höheren HbA1c-Werten assoziiert".

Fehler 5: Stepwise-Selection als alleiniges Kriterium

Automatische Variablenselektion (forward, backward, stepwise) führt zu inflationierten p-Werten und schlecht reproduzierbaren Modellen. Besser: theoriegeleitete Modellbildung + Sensitivitätsanalysen.

Fehler 6: Falsches Regressionsmodell

Binäres Outcome (krank/gesund) → logistische Regression, nicht lineare
Zähldaten (Anzahl Episoden) → Poisson-Regression
Zeit-bis-Ereignis → Cox-Regression

Häufige Fragen

„Was ist der Unterschied zwischen Korrelation und Regression?" → Die Korrelation misst nur Stärke und Richtung eines linearen Zusammenhangs zwischen zwei Variablen (r zwischen -1 und +1). Die Regression liefert ein Modell mit Koeffizienten, erlaubt Vorhersagen und kann mehrere Prädiktoren simultan einbeziehen — bei gleichzeitiger Kontrolle für Confounder.
„Wann verwende ich einfache, wann multiple Regression?" → Einfache Regression bei genau einem Prädiktor, multiple Regression bei mehreren. In der medizinischen Forschung ist die multiple Regression Standard, weil sie für Confounder (Alter, Geschlecht, Komorbiditäten) kontrolliert und so den unabhängigen Effekt eines Prädiktors isoliert.
„Wie viele Probanden brauche ich pro Prädiktor?" → Faustregel in der Medizin: mindestens 10–20 Beobachtungen pro Prädiktor. Bei n = 100 also maximal 5–10 Prädiktoren. Bei kleineren Stichproben oder seltenen Ereignissen steigt das Overfitting-Risiko stark — eine A-priori-Power-Analyse ist Pflicht.
„Was bedeutet R² = 0,30?" → 30 % der Varianz der abhängigen Variable werden durch das Modell erklärt — 70 % bleiben unerklärt. In den Sozial- und Lebenswissenschaften sind R²-Werte von 0,15–0,40 typisch und akzeptabel. In der Physik werden oft R² > 0,9 erwartet. R² ist also stark fachabhängig zu interpretieren.
„Warum unterscheiden sich R² und adjustiertes R²?" → R² steigt mit jedem zusätzlichen Prädiktor — auch wenn dieser irrelevant ist. Das adjustierte R² korrigiert dafür und kann sinken, wenn unnütze Prädiktoren aufgenommen werden. Bei multipler Regression immer das adjustierte R² berichten.
„Was ist der Unterschied zwischen β und standardisiertem β?" → Der unstandardisierte β-Koeffizient hat die Einheit der Originalvariablen (z.B. mmHg pro kg/m²) und ist klinisch interpretierbar. Das standardisierte β (Beta) ist dimensionslos und erlaubt den Vergleich der relativen Wichtigkeit verschiedener Prädiktoren — wer hat den stärksten Einfluss, unabhängig von der Einheit.
„Wie prüfe ich Multikollinearität?" → Über den VIF (Variance Inflation Factor) für jeden Prädiktor. VIF > 5 ist problematisch, VIF > 10 inakzeptabel. Alternativ: bivariate Korrelationen zwischen Prädiktoren — bei r > 0,8 droht Multikollinearität. Lösung: einen Prädiktor entfernen, kombinieren oder Hauptkomponenten extrahieren.
„Was tun, wenn die Residuen nicht normalverteilt sind?" → Bei großen Stichproben (n > 100) ist die Regression robust gegen leichte Abweichungen (Zentraler Grenzwertsatz). Bei starker Abweichung: log- oder Quadratwurzel-Transformation der abhängigen Variable, Ausreißer prüfen, oder robuste Regression (z.B. rlm() in R, Bootstrap-Konfidenzintervalle).
„Kann ich Regression auch bei kategorialen Prädiktoren verwenden?" → Ja. Kategoriale Prädiktoren werden durch Dummy-Codierung in die Regression eingebunden. Bei k Kategorien werden k-1 Dummy-Variablen erstellt, eine Kategorie dient als Referenz. SPSS und R machen das mit Faktorvariablen automatisch. Bei rein kategorialen Prädiktoren entspricht die Regression einer ANOVA.
„Welche Regression wähle ich bei binärem Outcome?" → Bei dichotomen Outcomes (krank/gesund, Therapieerfolg ja/nein) ist die lineare Regression nicht zulässig — Vorhersagen können außerhalb von [0,1] liegen. Stattdessen die logistische Regression, die Odds Ratios als Effektmaße liefert. Mehr dazu in der Übersicht zur Statistik in der Doktorarbeit.

✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer