Konfidenzintervall: Definition, Berechnung & Interpretation
Das Konfidenzintervall (KI) gibt den Wertebereich an, in dem der wahre Populationsparameter mit definierter Wahrscheinlichkeit (meist 95 %) liegt. Definition, Berechnung, Interpretation und Anwendung in SPSS und R.
Definition
Das Konfidenzintervall (KI, confidence interval, CI; auch: Vertrauensintervall) ist ein aus den Stichprobendaten berechneter Wertebereich, der den wahren — aber unbekannten — Populationsparameter (z.B. Mittelwert, Odds Ratio, Differenz) mit einer vorab definierten Wahrscheinlichkeit überdeckt. Standardmäßig wird in der medizinischen Forschung das 95%-Konfidenzintervall angegeben.
Im Gegensatz zum p-Wert, der nur eine binäre Entscheidung (signifikant ja/nein) ermöglicht, liefert das Konfidenzintervall gleichzeitig drei Informationen: Punktschätzer, Effektgröße und Präzision der Schätzung.
Merke: Das 95%-KI bedeutet nicht, dass der wahre Wert mit 95 % Wahrscheinlichkeit im berechneten Intervall liegt. Es bedeutet: Würde die Studie unendlich oft wiederholt, würden 95 % der berechneten Intervalle den wahren Parameter überdecken. Diese Unterscheidung ist subtil, aber methodisch zentral.
Formel
Für den Mittelwert einer normalverteilten Größe bei bekannter Populationsstandardabweichung σ:
$$KI = \bar{x} \pm z_{1-\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$$
In der Praxis ist σ unbekannt — daher wird mit der Stichproben-SD und der t-Verteilung gearbeitet:
$$KI = \bar{x} \pm t_{1-\alpha/2,,df} \cdot \frac{s}{\sqrt{n}}$$
Für α = 0,05 (zweiseitig, 95%-KI) gilt z = 1,96. Bei kleinen Stichproben (n < 30) liegt der t-Wert leicht über 1,96.
Für Anteile (z.B. Inzidenz, Prävalenz) gilt approximativ:
$$KI = \hat{p} \pm z \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$
Für Odds Ratios und relative Risiken wird das KI auf der log-Skala berechnet und anschließend exponentiert — Software übernimmt das automatisch.
Voraussetzungen
Damit das Konfidenzintervall valide ist, müssen folgende Bedingungen erfüllt sein:
- Zufällige, repräsentative Stichprobe — bei Selektionsbias verschiebt sich das KI systematisch
- Unabhängige Beobachtungen — bei geclusterten Daten (z.B. mehrere Zähne pro Patient) braucht es Mixed-Effects-Modelle
- Annähernde Normalverteilung der Stichprobenkennwerte — bei n ≥ 30 dank zentralem Grenzwertsatz meist erfüllt
- Korrekte Verteilungswahl — t-Verteilung bei unbekanntem σ, log-Transformation bei Verhältnismaßen
Ausführliche Diskussion der Voraussetzungen findest du in der Übersicht zu Statistik in der Doktorarbeit.
Interpretation
| KI-Eigenschaft | Bedeutung |
|---|---|
| Schmales KI | Hohe Präzision der Schätzung (große n, geringe Streuung) |
| Breites KI | Geringe Präzision (kleine n, hohe Streuung) |
| KI enthält Null (bei Differenzen) | Effekt nicht signifikant (p ≥ 0,05) |
| KI enthält 1 (bei OR/RR) | Kein Zusammenhang signifikant |
| KI überlappt klinische Relevanzschwelle | Klinische Bedeutung unklar |
Praxis-Tipp: Berichte in Publikationen immer Punktschätzer + 95%-KI + p-Wert — nie nur den p-Wert. CONSORT- und STROBE-Guidelines fordern explizit Effektgrößen mit Konfidenzintervallen.
Zusammenhang mit dem p-Wert
Bei zweiseitigem Test mit α = 0,05 gilt:
- 95%-KI für Differenz enthält 0 ⟺ p ≥ 0,05 (nicht signifikant)
- 95%-KI für Differenz enthält 0 nicht ⟺ p < 0,05 (signifikant)
- 95%-KI für OR/RR enthält 1 ⟺ p ≥ 0,05
Das KI ist daher dem p-Wert in der Aussagekraft überlegen — es liefert dieselbe Signifikanzaussage plus Effektgröße und Präzision.
Klinisches Anwendungsbeispiel
Studie: Einfluss einer neuen antibiotischen Therapie auf die Heilungsdauer einer odontogenen Infektion (n = 80 pro Gruppe).
- Standardtherapie: M = 7,2 Tage, SD = 2,1
- Neue Therapie: M = 5,8 Tage, SD = 1,9
- Mittelwertdifferenz: 1,4 Tage
- 95%-KI: [0,78; 2,02] Tage
- p = 0,0001
Interpretation:
- Die Heilungsdauer ist unter der neuen Therapie im Mittel 1,4 Tage kürzer (Punktschätzer).
- Bei wiederholten Studien würden 95 % der berechneten Intervalle eine wahre Differenz zwischen 0,78 und 2,02 Tagen überdecken.
- Das KI enthält nicht die Null → Effekt ist statistisch signifikant (konsistent mit p < 0,001).
- Die untere Grenze (0,78 Tage) liegt über der vorab definierten klinischen Relevanzschwelle von 0,5 Tagen → der Effekt ist auch klinisch bedeutsam.
Zweites Beispiel — Odds Ratio: Risiko einer postoperativen Wundinfektion mit vs. ohne perioperative Antibiose.
- OR = 0,42, 95%-KI: [0,21; 0,84], p = 0,014
- Antibiose senkt das Infektionsrisiko (OR < 1).
- Das KI enthält die 1 nicht → signifikant.
- Die Risikoreduktion liegt zwischen 16 % und 79 % — ein breiter, aber durchgängig protektiver Bereich.
In SPSS berechnen
Für Mittelwerte: Analysieren → Mittelwerte vergleichen → t-Test bei einer Stichprobe oder t-Test bei unabhängigen Stichproben. Im Output findest du die Spalte "95% Konfidenzintervall der Differenz" mit Untergrenze und Obergrenze.
Für Anteile: Analysieren → Deskriptive Statistiken → Häufigkeiten — KI für Anteile sind in SPSS leider nicht direkt sichtbar; nutze stattdessen Analysieren → Mittelwerte vergleichen → t-Test bei einer Stichprobe mit der dichotomen Variable.
Für Odds Ratios: Analysieren → Deskriptive Statistiken → Kreuztabellen → Statistik → Risiko. SPSS liefert OR und 95%-KI direkt aus.
Konfidenzniveau ändern: In den meisten Dialogen unter "Optionen" → Konfidenzintervall (Standard 95 %, anpassbar auf 90 % oder 99 %).
Mehr in der ausführlichen SPSS-Anleitung.
In R berechnen
# 95%-KI für Mittelwertdifferenz
result <- t.test(heilungsdauer ~ gruppe, data = df, conf.level = 0.95)
result$conf.int
# [1] 0.78 2.02
# attr(,"conf.level")
# [1] 0.95
# 95%-KI für Anteil (Wilson-Methode, empfohlen)
library(binom)
binom.confint(x = 12, n = 80, methods = "wilson")
# method x n mean lower upper
# 1 wilson 12 80 0.1500 0.0876 0.2456
# 95%-KI für Odds Ratio aus 2x2-Tabelle
library(epitools)
oddsratio(table(df$exposition, df$outcome))
# 95%-KI für Regression-Koeffizienten
model <- lm(blutdruck ~ alter + bmi, data = df)
confint(model, level = 0.95)
Für Kaplan-Meier-Überlebensanalysen liefert survfit() automatisch punktweise 95%-KI für die Überlebenskurve. Mehr in der R-Statistik-Anleitung.
Häufige Fehler
Fehler 1: Falsche Wahrscheinlichkeitsinterpretation
Falsch: "Der wahre Mittelwert liegt mit 95 % Wahrscheinlichkeit im Intervall [0,78; 2,02]." Richtig: "Bei unendlich vielen Studienwiederholungen würden 95 % der berechneten Intervalle den wahren Mittelwert überdecken." Das berechnete Intervall enthält den wahren Wert entweder oder nicht — die 95 % beziehen sich auf die Methode, nicht auf das einzelne Intervall.
Fehler 2: Überlappende KIs ≠ nicht-signifikanter Unterschied
Wenn zwei 95%-KIs sich überlappen, heißt das nicht automatisch p ≥ 0,05. Korrekt ist der direkte Test der Differenz mit zugehörigem KI für die Differenz. Überlappende Einzel-KIs können trotzdem zu signifikanten Unterschieden führen — eine häufig falsch interpretierte Konstellation.
Fehler 3: KI nicht angegeben — nur p-Wert
Statistisch signifikant ohne Effektgröße + KI ist publikatorisch unzureichend. CONSORT (für RCTs) und STROBE (für Beobachtungsstudien) verlangen explizit Effektgrößen mit 95%-KI.
Fehler 4: KI bei nicht-normalverteilten Daten ohne Anpassung
Bei stark schiefen Verteilungen (z.B. Laborwerte, Überlebenszeiten) liefert das klassische t-basierte KI verzerrte Grenzen. Lösung: Bootstrap-KI (boot.ci() in R) oder log-Transformation vor Berechnung.
Fehler 5: Konfidenzniveau willkürlich variieren
"Mit 90%-KI ist das Ergebnis signifikant" — wissenschaftlich unredlich, wenn vorab 95 % geplant war. Konfidenzniveau muss vor Datenanalyse festgelegt sein.
Verwandte Konzepte
- p-Wert — binäre Signifikanzaussage; durch das KI vollständig abgedeckt und ergänzt
- Signifikanzniveau α — komplementär zum Konfidenzniveau (1 − α)
- Effektstärke — Punktschätzer, dessen Präzision durch das KI quantifiziert wird
- Standardabweichung — geht in die Berechnung des Standardfehlers s/√n ein
- Standardfehler (SE) — SE = s/√n; Halb-Breite des KI ≈ 1,96·SE bei großen Stichproben
- Bootstrap-KI — verteilungsfreie Alternative bei kleinen oder schiefen Stichproben
Häufige Fragen
- „Was bedeutet ein 95%-Konfidenzintervall genau?" → Es bedeutet: Würde man die Studie unendlich oft mit neuen Stichproben wiederholen und jedes Mal ein 95%-KI berechnen, würden 95 % dieser Intervalle den wahren Populationsparameter überdecken. Die 95 % beziehen sich auf die Methode, nicht auf das einzelne berechnete Intervall.
- „Warum ist das 95%-KI in der Medizin Standard?" → Es ist die Konvention, die mit α = 0,05 als üblichem Signifikanzniveau korrespondiert. Bei explorativen Studien wird teils 90 % verwendet, bei strengeren Anforderungen (z.B. Zulassungsstudien) 99 %. Das Niveau muss vor Datenanalyse festgelegt werden.
- „Was passiert mit dem KI, wenn die Stichprobe größer wird?" → Das KI wird schmaler. Die Breite skaliert mit 1/√n — eine Vervierfachung der Stichprobengröße halbiert die Intervallbreite. Daher liefern große Studien präzisere Schätzungen, auch wenn der Punktschätzer derselbe bleibt.
- „Wie hängt das KI mit dem p-Wert zusammen?" → Bei zweiseitigem Test mit α = 0,05 sind beide äquivalent: Enthält das 95%-KI den Nullwert (0 bei Differenzen, 1 bei OR/RR), ist p ≥ 0,05. Enthält es den Nullwert nicht, ist p < 0,05. Das KI liefert zusätzlich Effektgröße und Präzision — es ist daher informativer und sollte immer mit berichtet werden.
- „Was bedeutet ein sehr breites Konfidenzintervall?" → Geringe Präzision der Schätzung. Ursachen sind meist eine zu kleine Stichprobe oder hohe Streuung der Daten. Ein breites KI macht klinische Schlussfolgerungen schwierig — selbst wenn es signifikant ist, kann der wahre Effekt klein oder groß sein. Größere Studien sind die Lösung.
- „Was ist ein einseitiges Konfidenzintervall?" → Ein einseitiges KI gibt nur eine Schranke an (z.B. obere Grenze des Risikos), die andere Seite wird offen gelassen. Es wird selten verwendet — meist nur bei Nicht-Unterlegenheits- oder Überlegenheitsstudien, wenn nur eine Richtung interessiert. In der Standardberichterstattung sind zweiseitige KIs Pflicht.
- „Kann das KI für nicht-normalverteilte Daten berechnet werden?" → Ja, aber nicht mit der klassischen t-Formel. Bei schiefen Verteilungen (z.B. Laborwerte, Überlebenszeiten) liefern Bootstrap-KIs (Resampling-Verfahren) oder log-transformierte KIs valide Grenzen. R bietet dies via
boot.ci()an. Bei n > 30 ist die klassische Formel meist ausreichend robust dank zentralem Grenzwertsatz. - „Warum berichtet SPSS bei Odds Ratios manchmal asymmetrische KIs?" → Weil das KI auf der log-Skala berechnet und anschließend exponentiert wird. Auf der OR-Skala ergeben sich daher asymmetrische Grenzen (z.B. OR = 0,42, KI [0,21; 0,84] — die Untergrenze ist näher am Punktschätzer als die Obergrenze). Das ist methodisch korrekt und Standard für Verhältnismaße.
- „Welche Rolle spielt das KI bei der Stichprobenplanung?" → Eine zentrale: Statt Power-Analyse für einen Hypothesentest kann auch eine Präzisionsplanung erfolgen — die Stichprobengröße wird so gewählt, dass das erwartete KI eine vorab definierte Maximalbreite nicht überschreitet. Besonders sinnvoll bei deskriptiven Studien (Prävalenzschätzung), wo es weniger um Signifikanz als um Genauigkeit geht.