Konfidenzintervall: Definition, Berechnung & Interpretation

Das Konfidenzintervall (KI) gibt den Wertebereich an, in dem der wahre Populationsparameter mit definierter Wahrscheinlichkeit (meist 95 %) liegt. Definition, Berechnung, Interpretation und Anwendung in SPSS und R.

Definition

Das Konfidenzintervall (KI, confidence interval, CI; auch: Vertrauensintervall) ist ein aus den Stichprobendaten berechneter Wertebereich, der den wahren — aber unbekannten — Populationsparameter (z.B. Mittelwert, Odds Ratio, Differenz) mit einer vorab definierten Wahrscheinlichkeit überdeckt. Standardmäßig wird in der medizinischen Forschung das 95%-Konfidenzintervall angegeben.

Im Gegensatz zum p-Wert, der nur eine binäre Entscheidung (signifikant ja/nein) ermöglicht, liefert das Konfidenzintervall gleichzeitig drei Informationen: Punktschätzer, Effektgröße und Präzision der Schätzung.

Merke: Das 95%-KI bedeutet nicht, dass der wahre Wert mit 95 % Wahrscheinlichkeit im berechneten Intervall liegt. Es bedeutet: Würde die Studie unendlich oft wiederholt, würden 95 % der berechneten Intervalle den wahren Parameter überdecken. Diese Unterscheidung ist subtil, aber methodisch zentral.

Formel

Für den Mittelwert einer normalverteilten Größe bei bekannter Populationsstandardabweichung σ:

$$KI = \bar{x} \pm z_{1-\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$$

In der Praxis ist σ unbekannt — daher wird mit der Stichproben-SD und der t-Verteilung gearbeitet:

$$KI = \bar{x} \pm t_{1-\alpha/2,,df} \cdot \frac{s}{\sqrt{n}}$$

Für α = 0,05 (zweiseitig, 95%-KI) gilt z = 1,96. Bei kleinen Stichproben (n < 30) liegt der t-Wert leicht über 1,96.

Für Anteile (z.B. Inzidenz, Prävalenz) gilt approximativ:

$$KI = \hat{p} \pm z \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$

Für Odds Ratios und relative Risiken wird das KI auf der log-Skala berechnet und anschließend exponentiert — Software übernimmt das automatisch.

Voraussetzungen

Damit das Konfidenzintervall valide ist, müssen folgende Bedingungen erfüllt sein:

  • Zufällige, repräsentative Stichprobe — bei Selektionsbias verschiebt sich das KI systematisch
  • Unabhängige Beobachtungen — bei geclusterten Daten (z.B. mehrere Zähne pro Patient) braucht es Mixed-Effects-Modelle
  • Annähernde Normalverteilung der Stichprobenkennwerte — bei n ≥ 30 dank zentralem Grenzwertsatz meist erfüllt
  • Korrekte Verteilungswahl — t-Verteilung bei unbekanntem σ, log-Transformation bei Verhältnismaßen

Ausführliche Diskussion der Voraussetzungen findest du in der Übersicht zu Statistik in der Doktorarbeit.

Interpretation

KI-Eigenschaft Bedeutung
Schmales KI Hohe Präzision der Schätzung (große n, geringe Streuung)
Breites KI Geringe Präzision (kleine n, hohe Streuung)
KI enthält Null (bei Differenzen) Effekt nicht signifikant (p ≥ 0,05)
KI enthält 1 (bei OR/RR) Kein Zusammenhang signifikant
KI überlappt klinische Relevanzschwelle Klinische Bedeutung unklar

Praxis-Tipp: Berichte in Publikationen immer Punktschätzer + 95%-KI + p-Wert — nie nur den p-Wert. CONSORT- und STROBE-Guidelines fordern explizit Effektgrößen mit Konfidenzintervallen.

Zusammenhang mit dem p-Wert

Bei zweiseitigem Test mit α = 0,05 gilt:

  • 95%-KI für Differenz enthält 0p ≥ 0,05 (nicht signifikant)
  • 95%-KI für Differenz enthält 0 nichtp < 0,05 (signifikant)
  • 95%-KI für OR/RR enthält 1p ≥ 0,05

Das KI ist daher dem p-Wert in der Aussagekraft überlegen — es liefert dieselbe Signifikanzaussage plus Effektgröße und Präzision.

Klinisches Anwendungsbeispiel

Studie: Einfluss einer neuen antibiotischen Therapie auf die Heilungsdauer einer odontogenen Infektion (n = 80 pro Gruppe).

  • Standardtherapie: M = 7,2 Tage, SD = 2,1
  • Neue Therapie: M = 5,8 Tage, SD = 1,9
  • Mittelwertdifferenz: 1,4 Tage
  • 95%-KI: [0,78; 2,02] Tage
  • p = 0,0001

Interpretation:

  1. Die Heilungsdauer ist unter der neuen Therapie im Mittel 1,4 Tage kürzer (Punktschätzer).
  2. Bei wiederholten Studien würden 95 % der berechneten Intervalle eine wahre Differenz zwischen 0,78 und 2,02 Tagen überdecken.
  3. Das KI enthält nicht die Null → Effekt ist statistisch signifikant (konsistent mit p < 0,001).
  4. Die untere Grenze (0,78 Tage) liegt über der vorab definierten klinischen Relevanzschwelle von 0,5 Tagen → der Effekt ist auch klinisch bedeutsam.

Zweites Beispiel — Odds Ratio: Risiko einer postoperativen Wundinfektion mit vs. ohne perioperative Antibiose.

  • OR = 0,42, 95%-KI: [0,21; 0,84], p = 0,014
  • Antibiose senkt das Infektionsrisiko (OR < 1).
  • Das KI enthält die 1 nicht → signifikant.
  • Die Risikoreduktion liegt zwischen 16 % und 79 % — ein breiter, aber durchgängig protektiver Bereich.

In SPSS berechnen

Für Mittelwerte: Analysieren → Mittelwerte vergleichen → t-Test bei einer Stichprobe oder t-Test bei unabhängigen Stichproben. Im Output findest du die Spalte "95% Konfidenzintervall der Differenz" mit Untergrenze und Obergrenze.

Für Anteile: Analysieren → Deskriptive Statistiken → Häufigkeiten — KI für Anteile sind in SPSS leider nicht direkt sichtbar; nutze stattdessen Analysieren → Mittelwerte vergleichen → t-Test bei einer Stichprobe mit der dichotomen Variable.

Für Odds Ratios: Analysieren → Deskriptive Statistiken → Kreuztabellen → Statistik → Risiko. SPSS liefert OR und 95%-KI direkt aus.

Konfidenzniveau ändern: In den meisten Dialogen unter "Optionen" → Konfidenzintervall (Standard 95 %, anpassbar auf 90 % oder 99 %).

Mehr in der ausführlichen SPSS-Anleitung.

In R berechnen

# 95%-KI für Mittelwertdifferenz
result <- t.test(heilungsdauer ~ gruppe, data = df, conf.level = 0.95)
result$conf.int
# [1] 0.78 2.02
# attr(,"conf.level")
# [1] 0.95

# 95%-KI für Anteil (Wilson-Methode, empfohlen)
library(binom)
binom.confint(x = 12, n = 80, methods = "wilson")
#   method  x  n      mean      lower     upper
# 1 wilson 12 80 0.1500    0.0876    0.2456

# 95%-KI für Odds Ratio aus 2x2-Tabelle
library(epitools)
oddsratio(table(df$exposition, df$outcome))

# 95%-KI für Regression-Koeffizienten
model <- lm(blutdruck ~ alter + bmi, data = df)
confint(model, level = 0.95)

Für Kaplan-Meier-Überlebensanalysen liefert survfit() automatisch punktweise 95%-KI für die Überlebenskurve. Mehr in der R-Statistik-Anleitung.

Häufige Fehler

Fehler 1: Falsche Wahrscheinlichkeitsinterpretation

Falsch: "Der wahre Mittelwert liegt mit 95 % Wahrscheinlichkeit im Intervall [0,78; 2,02]." Richtig: "Bei unendlich vielen Studienwiederholungen würden 95 % der berechneten Intervalle den wahren Mittelwert überdecken." Das berechnete Intervall enthält den wahren Wert entweder oder nicht — die 95 % beziehen sich auf die Methode, nicht auf das einzelne Intervall.

Fehler 2: Überlappende KIs ≠ nicht-signifikanter Unterschied

Wenn zwei 95%-KIs sich überlappen, heißt das nicht automatisch p ≥ 0,05. Korrekt ist der direkte Test der Differenz mit zugehörigem KI für die Differenz. Überlappende Einzel-KIs können trotzdem zu signifikanten Unterschieden führen — eine häufig falsch interpretierte Konstellation.

Fehler 3: KI nicht angegeben — nur p-Wert

Statistisch signifikant ohne Effektgröße + KI ist publikatorisch unzureichend. CONSORT (für RCTs) und STROBE (für Beobachtungsstudien) verlangen explizit Effektgrößen mit 95%-KI.

Fehler 4: KI bei nicht-normalverteilten Daten ohne Anpassung

Bei stark schiefen Verteilungen (z.B. Laborwerte, Überlebenszeiten) liefert das klassische t-basierte KI verzerrte Grenzen. Lösung: Bootstrap-KI (boot.ci() in R) oder log-Transformation vor Berechnung.

Fehler 5: Konfidenzniveau willkürlich variieren

"Mit 90%-KI ist das Ergebnis signifikant" — wissenschaftlich unredlich, wenn vorab 95 % geplant war. Konfidenzniveau muss vor Datenanalyse festgelegt sein.

Verwandte Konzepte

  • p-Wert — binäre Signifikanzaussage; durch das KI vollständig abgedeckt und ergänzt
  • Signifikanzniveau α — komplementär zum Konfidenzniveau (1 − α)
  • Effektstärke — Punktschätzer, dessen Präzision durch das KI quantifiziert wird
  • Standardabweichung — geht in die Berechnung des Standardfehlers s/√n ein
  • Standardfehler (SE) — SE = s/√n; Halb-Breite des KI ≈ 1,96·SE bei großen Stichproben
  • Bootstrap-KI — verteilungsfreie Alternative bei kleinen oder schiefen Stichproben

Häufige Fragen

  • „Was bedeutet ein 95%-Konfidenzintervall genau?" → Es bedeutet: Würde man die Studie unendlich oft mit neuen Stichproben wiederholen und jedes Mal ein 95%-KI berechnen, würden 95 % dieser Intervalle den wahren Populationsparameter überdecken. Die 95 % beziehen sich auf die Methode, nicht auf das einzelne berechnete Intervall.
  • „Warum ist das 95%-KI in der Medizin Standard?" → Es ist die Konvention, die mit α = 0,05 als üblichem Signifikanzniveau korrespondiert. Bei explorativen Studien wird teils 90 % verwendet, bei strengeren Anforderungen (z.B. Zulassungsstudien) 99 %. Das Niveau muss vor Datenanalyse festgelegt werden.
  • „Was passiert mit dem KI, wenn die Stichprobe größer wird?" → Das KI wird schmaler. Die Breite skaliert mit 1/√n — eine Vervierfachung der Stichprobengröße halbiert die Intervallbreite. Daher liefern große Studien präzisere Schätzungen, auch wenn der Punktschätzer derselbe bleibt.
  • „Wie hängt das KI mit dem p-Wert zusammen?" → Bei zweiseitigem Test mit α = 0,05 sind beide äquivalent: Enthält das 95%-KI den Nullwert (0 bei Differenzen, 1 bei OR/RR), ist p ≥ 0,05. Enthält es den Nullwert nicht, ist p < 0,05. Das KI liefert zusätzlich Effektgröße und Präzision — es ist daher informativer und sollte immer mit berichtet werden.
  • „Was bedeutet ein sehr breites Konfidenzintervall?" → Geringe Präzision der Schätzung. Ursachen sind meist eine zu kleine Stichprobe oder hohe Streuung der Daten. Ein breites KI macht klinische Schlussfolgerungen schwierig — selbst wenn es signifikant ist, kann der wahre Effekt klein oder groß sein. Größere Studien sind die Lösung.
  • „Was ist ein einseitiges Konfidenzintervall?" → Ein einseitiges KI gibt nur eine Schranke an (z.B. obere Grenze des Risikos), die andere Seite wird offen gelassen. Es wird selten verwendet — meist nur bei Nicht-Unterlegenheits- oder Überlegenheitsstudien, wenn nur eine Richtung interessiert. In der Standardberichterstattung sind zweiseitige KIs Pflicht.
  • „Kann das KI für nicht-normalverteilte Daten berechnet werden?" → Ja, aber nicht mit der klassischen t-Formel. Bei schiefen Verteilungen (z.B. Laborwerte, Überlebenszeiten) liefern Bootstrap-KIs (Resampling-Verfahren) oder log-transformierte KIs valide Grenzen. R bietet dies via boot.ci() an. Bei n > 30 ist die klassische Formel meist ausreichend robust dank zentralem Grenzwertsatz.
  • „Warum berichtet SPSS bei Odds Ratios manchmal asymmetrische KIs?" → Weil das KI auf der log-Skala berechnet und anschließend exponentiert wird. Auf der OR-Skala ergeben sich daher asymmetrische Grenzen (z.B. OR = 0,42, KI [0,21; 0,84] — die Untergrenze ist näher am Punktschätzer als die Obergrenze). Das ist methodisch korrekt und Standard für Verhältnismaße.
  • „Welche Rolle spielt das KI bei der Stichprobenplanung?" → Eine zentrale: Statt Power-Analyse für einen Hypothesentest kann auch eine Präzisionsplanung erfolgen — die Stichprobengröße wird so gewählt, dass das erwartete KI eine vorab definierte Maximalbreite nicht überschreitet. Besonders sinnvoll bei deskriptiven Studien (Prävalenzschätzung), wo es weniger um Signifikanz als um Genauigkeit geht.
✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer