Was bedeutet ein 95%-Konfidenzintervall genau?

Es bedeutet: Würde man die Studie unendlich oft mit neuen Stichproben wiederholen und jedes Mal ein 95%-KI berechnen, würden 95 % dieser Intervalle den wahren Populationsparameter überdecken. Die 95 % beziehen sich auf die Methode, nicht auf das einzelne berechnete Intervall.

Warum ist das 95%-KI in der Medizin Standard?

Es ist die Konvention, die mit α = 0,05 als üblichem Signifikanzniveau korrespondiert. Bei explorativen Studien wird teils 90 % verwendet, bei strengeren Anforderungen (z.B. Zulassungsstudien) 99 %. Das Niveau muss vor Datenanalyse festgelegt werden.

Was passiert mit dem KI, wenn die Stichprobe größer wird?

Das KI wird schmaler. Die Breite skaliert mit 1/√n — eine Vervierfachung der Stichprobengröße halbiert die Intervallbreite. Daher liefern große Studien präzisere Schätzungen, auch wenn der Punktschätzer derselbe bleibt.

Wie hängt das KI mit dem p-Wert zusammen?

Bei zweiseitigem Test mit α = 0,05 sind beide äquivalent: Enthält das 95%-KI den Nullwert (0 bei Differenzen, 1 bei OR/RR), ist p ≥ 0,05. Enthält es den Nullwert nicht, ist p < 0,05. Das KI liefert zusätzlich Effektgröße und Präzision — es ist daher informativer und sollte immer mit berichtet werden.

Was bedeutet ein sehr breites Konfidenzintervall?

Geringe Präzision der Schätzung. Ursachen sind meist eine zu kleine Stichprobe oder hohe Streuung der Daten. Ein breites KI macht klinische Schlussfolgerungen schwierig — selbst wenn es signifikant ist, kann der wahre Effekt klein oder groß sein. Größere Studien sind die Lösung.

Was ist ein einseitiges Konfidenzintervall?

Ein einseitiges KI gibt nur eine Schranke an (z.B. obere Grenze des Risikos), die andere Seite wird offen gelassen. Es wird selten verwendet — meist nur bei Nicht-Unterlegenheits- oder Überlegenheitsstudien, wenn nur eine Richtung interessiert. In der Standardberichterstattung sind zweiseitige KIs Pflicht.

Kann das KI für nicht-normalverteilte Daten berechnet werden?

Ja, aber nicht mit der klassischen t-Formel. Bei schiefen Verteilungen (z.B. Laborwerte, Überlebenszeiten) liefern Bootstrap-KIs (Resampling-Verfahren) oder log-transformierte KIs valide Grenzen. R bietet dies via `boot.ci()` an. Bei n > 30 ist die klassische Formel meist ausreichend robust dank zentralem Grenzwertsatz.

Warum berichtet SPSS bei Odds Ratios manchmal asymmetrische KIs?

Weil das KI auf der log-Skala berechnet und anschließend exponentiert wird. Auf der OR-Skala ergeben sich daher asymmetrische Grenzen (z.B. OR = 0,42, KI [0,21; 0,84] — die Untergrenze ist näher am Punktschätzer als die Obergrenze). Das ist methodisch korrekt und Standard für Verhältnismaße.

Welche Rolle spielt das KI bei der Stichprobenplanung?

Eine zentrale: Statt Power-Analyse für einen Hypothesentest kann auch eine Präzisionsplanung erfolgen — die Stichprobengröße wird so gewählt, dass das erwartete KI eine vorab definierte Maximalbreite nicht überschreitet. Besonders sinnvoll bei deskriptiven Studien (Prävalenzschätzung), wo es weniger um Signifikanz als um Genauigkeit geht.

Konfidenzintervall: Definition, Berechnung & Interpretation

Q: Was bedeutet ein sehr breites Konfidenzintervall?

Geringe Präzision der Schätzung. Ursachen sind meist eine zu kleine Stichprobe oder hohe Streuung der Daten. Ein breites KI macht klinische Schlussfolgerungen schwierig — selbst wenn es signifikant ist, kann der wahre Effekt klein oder groß sein. Größere Studien sind die Lösung.

Q: Was ist ein einseitiges Konfidenzintervall?

Ein einseitiges KI gibt nur eine Schranke an (z.B. obere Grenze des Risikos), die andere Seite wird offen gelassen. Es wird selten verwendet — meist nur bei Nicht-Unterlegenheits- oder Überlegenheitsstudien, wenn nur eine Richtung interessiert. In der Standardberichterstattung sind zweiseitige KIs Pflicht.

Q: Kann das KI für nicht-normalverteilte Daten berechnet werden?

Ja, aber nicht mit der klassischen t-Formel. Bei schiefen Verteilungen (z.B. Laborwerte, Überlebenszeiten) liefern Bootstrap-KIs (Resampling-Verfahren) oder log-transformierte KIs valide Grenzen. R bietet dies via `boot.ci()` an. Bei n > 30 ist die klassische Formel meist ausreichend robust dank zentralem Grenzwertsatz.

Das Konfidenzintervall (KI) gibt den Wertebereich an, in dem der wahre Populationsparameter mit definierter Wahrscheinlichkeit (meist 95 %) liegt. Definition, Berechnung, Interpretation und Anwendung in SPSS und R.

📊 Inferenzstatistik · ⏱️ 10 Min. · Aktualisiert 2026-05-10

Definition

Das Konfidenzintervall (KI, confidence interval, CI; auch: Vertrauensintervall) ist ein aus den Stichprobendaten berechneter Wertebereich, der den wahren — aber unbekannten — Populationsparameter (z.B. Mittelwert, Odds Ratio, Differenz) mit einer vorab definierten Wahrscheinlichkeit überdeckt. Standardmäßig wird in der medizinischen Forschung das 95%-Konfidenzintervall angegeben.

Im Gegensatz zum p-Wert, der nur eine binäre Entscheidung (signifikant ja/nein) ermöglicht, liefert das Konfidenzintervall gleichzeitig drei Informationen: Punktschätzer, Effektgröße und Präzision der Schätzung.

Merke: Das 95%-KI bedeutet nicht, dass der wahre Wert mit 95 % Wahrscheinlichkeit im berechneten Intervall liegt. Es bedeutet: Würde die Studie unendlich oft wiederholt, würden 95 % der berechneten Intervalle den wahren Parameter überdecken. Diese Unterscheidung ist subtil, aber methodisch zentral.

Formel

Für den Mittelwert einer normalverteilten Größe bei bekannter Populationsstandardabweichung σ:

$$KI = \bar{x} \pm z_{1-\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$$

In der Praxis ist σ unbekannt — daher wird mit der Stichproben-SD und der t-Verteilung gearbeitet:

$$KI = \bar{x} \pm t_{1-\alpha/2,,df} \cdot \frac{s}{\sqrt{n}}$$

Für α = 0,05 (zweiseitig, 95%-KI) gilt z = 1,96. Bei kleinen Stichproben (n < 30) liegt der t-Wert leicht über 1,96.

Für Anteile (z.B. Inzidenz, Prävalenz) gilt approximativ:

$$KI = \hat{p} \pm z \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$

Für Odds Ratios und relative Risiken wird das KI auf der log-Skala berechnet und anschließend exponentiert — Software übernimmt das automatisch.

Voraussetzungen

Damit das Konfidenzintervall valide ist, müssen folgende Bedingungen erfüllt sein:

Zufällige, repräsentative Stichprobe — bei Selektionsbias verschiebt sich das KI systematisch
Unabhängige Beobachtungen — bei geclusterten Daten (z.B. mehrere Zähne pro Patient) braucht es Mixed-Effects-Modelle
Annähernde Normalverteilung der Stichprobenkennwerte — bei n ≥ 30 dank zentralem Grenzwertsatz meist erfüllt
Korrekte Verteilungswahl — t-Verteilung bei unbekanntem σ, log-Transformation bei Verhältnismaßen

Ausführliche Diskussion der Voraussetzungen findest du in der Übersicht zu Statistik in der Doktorarbeit.

Interpretation

KI-Eigenschaft	Bedeutung
Schmales KI	Hohe Präzision der Schätzung (große n, geringe Streuung)
Breites KI	Geringe Präzision (kleine n, hohe Streuung)
KI enthält Null (bei Differenzen)	Effekt nicht signifikant (p ≥ 0,05)
KI enthält 1 (bei OR/RR)	Kein Zusammenhang signifikant
KI überlappt klinische Relevanzschwelle	Klinische Bedeutung unklar

Praxis-Tipp: Berichte in Publikationen immer Punktschätzer + 95%-KI + p-Wert — nie nur den p-Wert. CONSORT- und STROBE-Guidelines fordern explizit Effektgrößen mit Konfidenzintervallen.

Zusammenhang mit dem p-Wert

Bei zweiseitigem Test mit α = 0,05 gilt:

95%-KI für Differenz enthält 0 ⟺ p ≥ 0,05 (nicht signifikant)
95%-KI für Differenz enthält 0 nicht ⟺ p < 0,05 (signifikant)
95%-KI für OR/RR enthält 1 ⟺ p ≥ 0,05

Das KI ist daher dem p-Wert in der Aussagekraft überlegen — es liefert dieselbe Signifikanzaussage plus Effektgröße und Präzision.

Klinisches Anwendungsbeispiel

Studie: Einfluss einer neuen antibiotischen Therapie auf die Heilungsdauer einer odontogenen Infektion (n = 80 pro Gruppe).

Standardtherapie: M = 7,2 Tage, SD = 2,1
Neue Therapie: M = 5,8 Tage, SD = 1,9
Mittelwertdifferenz: 1,4 Tage
95%-KI: [0,78; 2,02] Tage
p = 0,0001

Interpretation:

Die Heilungsdauer ist unter der neuen Therapie im Mittel 1,4 Tage kürzer (Punktschätzer).
Bei wiederholten Studien würden 95 % der berechneten Intervalle eine wahre Differenz zwischen 0,78 und 2,02 Tagen überdecken.
Das KI enthält nicht die Null → Effekt ist statistisch signifikant (konsistent mit p < 0,001).
Die untere Grenze (0,78 Tage) liegt über der vorab definierten klinischen Relevanzschwelle von 0,5 Tagen → der Effekt ist auch klinisch bedeutsam.

Zweites Beispiel — Odds Ratio: Risiko einer postoperativen Wundinfektion mit vs. ohne perioperative Antibiose.

OR = 0,42, 95%-KI: [0,21; 0,84], p = 0,014
Antibiose senkt das Infektionsrisiko (OR < 1).
Das KI enthält die 1 nicht → signifikant.
Die Risikoreduktion liegt zwischen 16 % und 79 % — ein breiter, aber durchgängig protektiver Bereich.

In SPSS berechnen

Für Mittelwerte: Analysieren → Mittelwerte vergleichen → t-Test bei einer Stichprobe oder t-Test bei unabhängigen Stichproben. Im Output findest du die Spalte "95% Konfidenzintervall der Differenz" mit Untergrenze und Obergrenze.

Für Anteile: Analysieren → Deskriptive Statistiken → Häufigkeiten — KI für Anteile sind in SPSS leider nicht direkt sichtbar; nutze stattdessen Analysieren → Mittelwerte vergleichen → t-Test bei einer Stichprobe mit der dichotomen Variable.

Für Odds Ratios: Analysieren → Deskriptive Statistiken → Kreuztabellen → Statistik → Risiko. SPSS liefert OR und 95%-KI direkt aus.

Konfidenzniveau ändern: In den meisten Dialogen unter "Optionen" → Konfidenzintervall (Standard 95 %, anpassbar auf 90 % oder 99 %).

Mehr in der ausführlichen SPSS-Anleitung.

In R berechnen

# 95%-KI für Mittelwertdifferenz
result <- t.test(heilungsdauer ~ gruppe, data = df, conf.level = 0.95)
result$conf.int
# [1] 0.78 2.02
# attr(,"conf.level")
# [1] 0.95

# 95%-KI für Anteil (Wilson-Methode, empfohlen)
library(binom)
binom.confint(x = 12, n = 80, methods = "wilson")
#   method  x  n      mean      lower     upper
# 1 wilson 12 80 0.1500    0.0876    0.2456

# 95%-KI für Odds Ratio aus 2x2-Tabelle
library(epitools)
oddsratio(table(df$exposition, df$outcome))

# 95%-KI für Regression-Koeffizienten
model <- lm(blutdruck ~ alter + bmi, data = df)
confint(model, level = 0.95)

Für Kaplan-Meier-Überlebensanalysen liefert survfit() automatisch punktweise 95%-KI für die Überlebenskurve. Mehr in der R-Statistik-Anleitung.

Häufige Fehler

Fehler 1: Falsche Wahrscheinlichkeitsinterpretation

Falsch: "Der wahre Mittelwert liegt mit 95 % Wahrscheinlichkeit im Intervall [0,78; 2,02]." Richtig: "Bei unendlich vielen Studienwiederholungen würden 95 % der berechneten Intervalle den wahren Mittelwert überdecken." Das berechnete Intervall enthält den wahren Wert entweder oder nicht — die 95 % beziehen sich auf die Methode, nicht auf das einzelne Intervall.

Fehler 2: Überlappende KIs ≠ nicht-signifikanter Unterschied

Wenn zwei 95%-KIs sich überlappen, heißt das nicht automatisch p ≥ 0,05. Korrekt ist der direkte Test der Differenz mit zugehörigem KI für die Differenz. Überlappende Einzel-KIs können trotzdem zu signifikanten Unterschieden führen — eine häufig falsch interpretierte Konstellation.

Fehler 3: KI nicht angegeben — nur p-Wert

Statistisch signifikant ohne Effektgröße + KI ist publikatorisch unzureichend. CONSORT (für RCTs) und STROBE (für Beobachtungsstudien) verlangen explizit Effektgrößen mit 95%-KI.

Fehler 4: KI bei nicht-normalverteilten Daten ohne Anpassung

Bei stark schiefen Verteilungen (z.B. Laborwerte, Überlebenszeiten) liefert das klassische t-basierte KI verzerrte Grenzen. Lösung: Bootstrap-KI (boot.ci() in R) oder log-Transformation vor Berechnung.

Fehler 5: Konfidenzniveau willkürlich variieren

"Mit 90%-KI ist das Ergebnis signifikant" — wissenschaftlich unredlich, wenn vorab 95 % geplant war. Konfidenzniveau muss vor Datenanalyse festgelegt sein.

Häufige Fragen

„Was bedeutet ein 95%-Konfidenzintervall genau?" → Es bedeutet: Würde man die Studie unendlich oft mit neuen Stichproben wiederholen und jedes Mal ein 95%-KI berechnen, würden 95 % dieser Intervalle den wahren Populationsparameter überdecken. Die 95 % beziehen sich auf die Methode, nicht auf das einzelne berechnete Intervall.
„Warum ist das 95%-KI in der Medizin Standard?" → Es ist die Konvention, die mit α = 0,05 als üblichem Signifikanzniveau korrespondiert. Bei explorativen Studien wird teils 90 % verwendet, bei strengeren Anforderungen (z.B. Zulassungsstudien) 99 %. Das Niveau muss vor Datenanalyse festgelegt werden.
„Was passiert mit dem KI, wenn die Stichprobe größer wird?" → Das KI wird schmaler. Die Breite skaliert mit 1/√n — eine Vervierfachung der Stichprobengröße halbiert die Intervallbreite. Daher liefern große Studien präzisere Schätzungen, auch wenn der Punktschätzer derselbe bleibt.
„Wie hängt das KI mit dem p-Wert zusammen?" → Bei zweiseitigem Test mit α = 0,05 sind beide äquivalent: Enthält das 95%-KI den Nullwert (0 bei Differenzen, 1 bei OR/RR), ist p ≥ 0,05. Enthält es den Nullwert nicht, ist p < 0,05. Das KI liefert zusätzlich Effektgröße und Präzision — es ist daher informativer und sollte immer mit berichtet werden.
„Was bedeutet ein sehr breites Konfidenzintervall?" → Geringe Präzision der Schätzung. Ursachen sind meist eine zu kleine Stichprobe oder hohe Streuung der Daten. Ein breites KI macht klinische Schlussfolgerungen schwierig — selbst wenn es signifikant ist, kann der wahre Effekt klein oder groß sein. Größere Studien sind die Lösung.
„Was ist ein einseitiges Konfidenzintervall?" → Ein einseitiges KI gibt nur eine Schranke an (z.B. obere Grenze des Risikos), die andere Seite wird offen gelassen. Es wird selten verwendet — meist nur bei Nicht-Unterlegenheits- oder Überlegenheitsstudien, wenn nur eine Richtung interessiert. In der Standardberichterstattung sind zweiseitige KIs Pflicht.
„Kann das KI für nicht-normalverteilte Daten berechnet werden?" → Ja, aber nicht mit der klassischen t-Formel. Bei schiefen Verteilungen (z.B. Laborwerte, Überlebenszeiten) liefern Bootstrap-KIs (Resampling-Verfahren) oder log-transformierte KIs valide Grenzen. R bietet dies via boot.ci() an. Bei n > 30 ist die klassische Formel meist ausreichend robust dank zentralem Grenzwertsatz.
„Warum berichtet SPSS bei Odds Ratios manchmal asymmetrische KIs?" → Weil das KI auf der log-Skala berechnet und anschließend exponentiert wird. Auf der OR-Skala ergeben sich daher asymmetrische Grenzen (z.B. OR = 0,42, KI [0,21; 0,84] — die Untergrenze ist näher am Punktschätzer als die Obergrenze). Das ist methodisch korrekt und Standard für Verhältnismaße.
„Welche Rolle spielt das KI bei der Stichprobenplanung?" → Eine zentrale: Statt Power-Analyse für einen Hypothesentest kann auch eine Präzisionsplanung erfolgen — die Stichprobengröße wird so gewählt, dass das erwartete KI eine vorab definierte Maximalbreite nicht überschreitet. Besonders sinnvoll bei deskriptiven Studien (Prävalenzschätzung), wo es weniger um Signifikanz als um Genauigkeit geht.

✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer