Kaplan-Meier Kurve interpretieren: Überlebensanalyse Schritt für Schritt

Kaplan-Meier Kurve richtig interpretieren: Zensierte Daten, Log-Rank-Test, Median Survival und typische Fehler. Mit Beispielen für SPSS und R.

Statistik · Dr. mult. Dr. h.c. Babak Saravi · 22. April 2026 · 12 Min. Lesezeit

Die Kaplan-Meier-Kurve ist das methodische Herzstück jeder Überlebensanalyse und gehört zu den am häufigsten publizierten statistischen Verfahren in der klinischen Forschung. Ob bei einer Onkologie-Studie, einer Implantat-Nachsorge oder einer Nachuntersuchung von Langzeitkomplikationen — wer ein Zeit-bis-Ereignis-Outcome analysiert, wird Kaplan-Meier brauchen. Dieser Leitfaden erklärt, wie du Kaplan-Meier-Kurven korrekt berechnest, interpretierst und in deiner Publikation oder Doktorarbeit reportest — mit Beispielen für SPSS und R, Hinweisen zum Umgang mit zensierten Daten und der Abgrenzung zu komplexeren Verfahren wie der Cox-Regression.


Was ist die Kaplan-Meier-Methode?

Die Kaplan-Meier-Methode (auch: Produkt-Limit-Schätzer) ist ein nicht-parametrisches Verfahren zur Schätzung der Überlebensfunktion S(t) — also der Wahrscheinlichkeit, dass ein bestimmtes Ereignis bis zum Zeitpunkt t noch nicht eingetreten ist. Entwickelt wurde sie 1958 von Edward L. Kaplan und Paul Meier und hat seither den Umgang mit Zeit-bis-Ereignis-Daten revolutioniert.

Typische Anwendungsbeispiele in der Medizin:

Merke: Das "Überleben" in der Kaplan-Meier-Analyse muss nicht wörtlich das Überleben bedeuten. Jedes wohldefinierte Ereignis (Rezidiv, Implantat-Verlust, Revisionsoperation) kann analysiert werden. Der Begriff "Survival Analysis" ist historisch gewachsen — methodisch geht es um Time-to-Event-Daten.

Das Grundproblem: Zensierte Daten

Der Hauptgrund, warum Kaplan-Meier existiert und der einfache Mittelwert oder Median nicht reicht: Zensierung (censoring). Zensiert ist eine Beobachtung, bei der das Ereignis bis zum Studienende nicht eingetreten ist oder bei der der Patient verloren ging (Lost to Follow-up).

Die drei Typen der Zensur

Typ Bedeutung Beispiel
Rechtszensiert (häufigster Typ) Ereignis tritt nach Studienende ein Patient lebt am Ende der 5-Jahres-Nachbeobachtung noch
Linkszensiert Ereignis trat vor Studienbeginn ein Seroprävalenz-Studie: HIV-Infektion bereits vor Einschluss
Intervallzensiert Ereignis zwischen zwei Kontrollen Rezidiv zwischen zwei CT-Untersuchungen — exakter Zeitpunkt unbekannt

In der klinischen Forschung ist Rechtszensur der Normalfall. Kaplan-Meier handhabt diese automatisch korrekt, solange drei Annahmen gelten:

  1. Unabhängige Zensur: Der Grund für die Zensur darf nicht mit dem Ereignisrisiko korrelieren. Ein Patient, der die Studie verlässt, weil es ihm schlechter geht, verletzt diese Annahme.
  2. Gleiches Hazard zu jedem Zeitpunkt: Patienten, die zu einem späteren Zeitpunkt eingeschlossen werden, haben dasselbe ereignisspezifische Risiko wie früher Eingeschlossene.
  3. Kein Kompeting Risk: Andere Ereignisse, die das Ereignis von Interesse ausschließen, sind vernachlässigbar oder werden separat analysiert (siehe Kompeting Risks weiter unten).

Merke: Zensierte Beobachtungen sind keine fehlenden Daten. Sie liefern wichtige Information — nämlich dass der Patient bis zum Zensurzeitpunkt das Ereignis nicht erlebt hat. Patienten einfach auszuschließen wäre methodisch falsch und würde die Überlebensrate systematisch unterschätzen.


Mathematischer Hintergrund (kurz und praxisnah)

Der Produkt-Limit-Schätzer berechnet die Überlebensfunktion S(t) als Produkt der bedingten Überlebenswahrscheinlichkeiten zu jedem Ereigniszeitpunkt:

$$S(t) = \prod_{t_i \leq t} \left(1 - \frac{d_i}{n_i}\right)$$

Beispiel: Von 100 Patienten verstirbt der erste nach 6 Monaten. Die bedingte Überlebenswahrscheinlichkeit für diesen Zeitpunkt ist (100−1)/100 = 0,99. Verstirbt der zweite nach 12 Monaten und zwischenzeitlich wurden 5 Patienten zensiert, sind noch 94 "at risk". Die bedingte Überlebensrate ist (94−1)/94 = 0,989. Die kumulative Überlebensrate zum Zeitpunkt 12 Monate: 0,99 × 0,989 = 0,979 (also 97,9 %).

Die Varianz von S(t) wird typischerweise nach Greenwood geschätzt:

$$\text{Var}(S(t)) = S(t)^2 \sum_{t_i \leq t} \frac{d_i}{n_i(n_i - d_i)}$$

Daraus ergeben sich die 95%-Konfidenzintervalle, die in jeder Publikation mit angegeben werden sollten. SPSS und R berechnen dies automatisch.


Kaplan-Meier Kurve interpretieren: Was zeigt die Grafik?

Eine korrekt dargestellte Kaplan-Meier-Kurve zeigt fünf zentrale Elemente:

1. Die Überlebenskurve selbst (Treppenfunktion)

Die charakteristischen Stufen entstehen, weil die Überlebensrate nur bei jedem Ereignis (Tod, Rezidiv, Implantat-Verlust) sinkt. Zwischen zwei Ereignissen bleibt sie konstant. Eine glatte Kurve wäre methodisch falsch — der Treppenverlauf ist das Merkmal einer echten Kaplan-Meier-Schätzung.

2. Zensur-Markierungen (Tick-Marks)

Jeder zensierte Patient sollte als kleiner vertikaler Strich auf der Kurve eingezeichnet werden. Fehlen diese, ist die Visualisierung unvollständig und kann Gutachter irritieren. Moderne Reporting-Richtlinien (STROBE, CONSORT) empfehlen Tick-Marks explizit.

3. Konfidenzintervalle

95%-KIs werden typischerweise als schattierter Bereich oder gestrichelte Linien dargestellt. Mit wachsender Zeit werden die KIs breiter, weil weniger Patienten "at risk" sind. Das Signal: Am Kurvenende ist die Schätzung unsicherer.

4. At-Risk-Tabelle ("Risk Table")

Unter der Kurve sollte eine Tabelle die Anzahl der Patienten "at risk" zu verschiedenen Zeitpunkten zeigen. Beispiel:

Zeit (Monate) 0 12 24 36 48 60
Gruppe A (Standardtherapie) 100 78 52 31 18 9
Gruppe B (Neue Therapie) 100 85 68 49 32 18

Ohne diese Tabelle lässt sich die Kurve nicht seriös interpretieren — denn wenn am Ende nur 5 Patienten "at risk" sind, ist die Kurve dort hochgradig unsicher.

5. Mediane Überlebenszeit

Der Zeitpunkt, zu dem die Kurve die 50%-Linie schneidet, ist die mediane Überlebenszeit. Wenn die Kurve die 50%-Marke nicht erreicht (z.B. wenn mehr als 50% der Patienten am Studienende noch am Leben sind), wird der Median als "not reached" angegeben — das ist methodisch korrekt, sollte aber explizit erwähnt werden.

Merke: Der Median ist aussagekräftiger als der Mittelwert, weil er auch bei zensierten Daten interpretierbar bleibt. Ein Mittelwert der Überlebenszeit ist bei signifikanter Zensur mathematisch nicht definiert.


Kaplan-Meier in SPSS

Die Durchführung in SPSS ist unkompliziert, setzt aber eine korrekte Datenstruktur voraus. Unsere ausführliche SPSS Auswertung Anleitung erklärt die grundlegende Datenvorbereitung.

Datenstruktur

Jede Zeile = ein Patient. Benötigt werden drei Variablen:

Variable Typ Beispiel
time metrisch Zeit in Tagen, Wochen oder Monaten bis zum Ereignis/zur Zensur
status binär 1 = Ereignis eingetreten, 0 = zensiert
group kategorial (optional) 1 = Kontrollgruppe, 2 = Interventionsgruppe

Menüpfad

Analysieren → Überlebensanalyse → Kaplan-Meier

Output lesen

SPSS gibt folgende Tabellen aus:

  1. Case Processing Summary: Anzahl Patienten, Ereignisse, Zensuren
  2. Survival Table: Überlebenswahrscheinlichkeit zu jedem Ereigniszeitpunkt mit KI
  3. Means and Medians for Survival Time: Mediane Überlebenszeit mit 95%-KI
  4. Overall Comparisons: Log-Rank, Breslow, Tarone-Ware mit p-Werten
  5. Survival Plot: Die Kaplan-Meier-Kurve (Treppendiagramm)

Die wichtigste Zahl für die Publikation: p-Wert des Log-Rank-Tests. Er prüft die Nullhypothese, dass die Überlebenskurven beider Gruppen identisch sind.


Kaplan-Meier in R

R bietet mit dem survival-Paket mehr Flexibilität und bessere Grafiken als SPSS. Detaillierte R-Grundlagen findest du in unserem R Statistik Auswertung Leitfaden.

Minimalcode

library(survival)
library(survminer)  # für elegantere Plots

# Daten einlesen
data <- read.csv("meine_daten.csv")

# Kaplan-Meier-Fit berechnen
fit <- survfit(Surv(time, status) ~ group, data = data)

# Median Survival anzeigen
summary(fit)$table

# Log-Rank-Test
survdiff(Surv(time, status) ~ group, data = data)

# Publikationsreife Kurve mit survminer
ggsurvplot(fit,
           data = data,
           conf.int = TRUE,
           risk.table = TRUE,
           pval = TRUE,
           pval.method = TRUE,
           legend.title = "Therapiegruppe",
           xlab = "Zeit (Monate)",
           ylab = "Überlebenswahrscheinlichkeit",
           palette = c("#2E86C1", "#E67E22"))

Die Funktion ggsurvplot() erzeugt automatisch: Kurve mit Tick-Marks, 95%-KI als Schatten, Risk Table unter der Grafik und den p-Wert des Log-Rank-Tests. Das ist publikationsreif und wird von den meisten medizinischen Journals akzeptiert.

Merke: Speichere dein R-Skript zusammen mit den Daten. Für Reviewer und Gutachter ist es ein starkes Qualitätsmerkmal, wenn du einen reproduzierbaren Workflow zeigen kannst. Das ist einer der Gründe, warum R für komplexere Auswertungen SPSS vorgezogen wird.


Log-Rank-Test: Gruppenvergleich richtig machen

Der Log-Rank-Test ist das Standardverfahren, um zwei oder mehr Kaplan-Meier-Kurven zu vergleichen. Er prüft die Nullhypothese: "Alle Gruppen haben dieselbe Überlebensverteilung."

Wann den Log-Rank-Test nutzen?

Wann NICHT verwenden?

Alternativen

Test Gewichtung Einsatz
Log-Rank Gleich über alle Zeiten Standard
Breslow (Gehan) Gewichtet frühe Ereignisse stärker Wenn frühe Unterschiede erwartet
Tarone-Ware Mittelweg zwischen Log-Rank und Breslow Wenn unklar
Peto-Peto Gewichtet mit Überlebensfunktion Bei variabler Zensur
Fleming-Harrington Flexible Gewichtung Spezialfälle

Typische Fehler in der Überlebensanalyse

Als Biostatistiker erleben wir in der Begutachtung medizinischer Arbeiten immer wieder dieselben methodischen Fehler. Hier die häufigsten fünf:

Fehler 1: Zensierte Patienten werden ausgeschlossen

Viele Doktoranden schließen Patienten aus, die "nichts erlebt haben" — das ist falsch. Zensierte Beobachtungen sind essenziell und müssen mit dem tatsächlichen Zensurzeitpunkt in die Analyse. Wer sie ausschließt, überschätzt die Ereignisrate systematisch.

Fehler 2: Der Mittelwert statt des Medians wird berichtet

Bei zensierten Daten ist der Mittelwert der Überlebenszeit nicht definiert, wenn nicht alle Patienten das Ereignis erlebt haben. Immer den Median mit 95%-KI berichten.

Fehler 3: Log-Rank-Test bei sich kreuzenden Kurven

Wenn die Kurven sich schneiden, ist die Proportional-Hazards-Annahme verletzt. Der Log-Rank-Test verliert dann massiv an Power. Alternative Tests nutzen oder das Studiendesign überdenken.

Fehler 4: Fehlende Risk Table

Ohne At-Risk-Tabelle ist die Kurve nicht seriös. Am Kurvenende sind oft nur noch wenige Patienten — die Schätzung ist dort unsicher. Ohne Risk Table kann der Leser das nicht erkennen.

Fehler 5: Überinterpretation am rechten Kurvenende

Der "Schwanz" der Kurve (jenseits von 80% der längsten Beobachtungszeit) ist statistisch unsicher. Aussagen wie "die 10-Jahres-Überlebensrate beträgt 42%" sind nur haltbar, wenn ausreichend Patienten so lange beobachtet wurden.

Merke: Eine gut gemachte Überlebensanalyse enthält immer: Tick-Marks für Zensuren, 95%-KI, Risk Table, Median-Überlebenszeit mit KI und den p-Wert eines geeigneten Testverfahrens. Fehlt eines dieser Elemente, lehnen viele Gutachter die Publikation ab — zu Recht.


Wann Kaplan-Meier nicht reicht: Multivariable Analyse

Kaplan-Meier ist univariat — es kann nur eine kategoriale Einflussvariable pro Analyse abbilden. Sobald du mehrere Einflussgrößen (Alter, Geschlecht, Tumorstadium, Biomarker) gleichzeitig berücksichtigen willst, brauchst du die Cox-Proportional-Hazards-Regression.

Cox-Regression: Der nächste Schritt

Die Cox-Regression modelliert die Hazard-Funktion als:

$$h(t | X) = h_0(t) \cdot \exp(\beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_k X_k)$$

Interpretation einer Hazard Ratio:

Die Cox-Regression setzt die Proportional-Hazards-Annahme voraus: Das Verhältnis der Hazards zwischen Gruppen bleibt über die Zeit konstant. Diese Annahme muss explizit getestet werden (Schoenfeld-Residuen-Test, log-log-Plots). Wenn sie verletzt ist, sind zeitabhängige Cox-Modelle oder Alternativen (z.B. Accelerated Failure Time Models) nötig.

Competing Risks

Wenn mehrere Ereignisse möglich sind, die sich gegenseitig ausschließen (z.B. Tod vs. Rezidiv), reicht Kaplan-Meier nicht mehr. Hier brauchst du Competing Risks Analyses (Fine-Gray-Modell, cumulative incidence function). Ein häufiger Fehler ist, Kaplan-Meier für jedes Ereignis separat zu berechnen — das überschätzt die Inzidenz.

Merke: Wenn du bei deiner Doktorarbeit multivariable Überlebensanalysen, Competing Risks oder zeitabhängige Kovariaten brauchst, lohnt sich die professionelle Biostatistik-Beratung. Diese Verfahren sind fehleranfällig und werden von Gutachtern genau geprüft.


Fallzahlberechnung für Überlebensstudien

Die Fallzahl für Kaplan-Meier/Log-Rank basiert nicht auf der Patientenzahl, sondern auf der Ereigniszahl. Eine Faustregel: Für einen aussagekräftigen Log-Rank-Test mit Power = 0,80, Signifikanzniveau α = 0,05 und Hazard Ratio 0,70 benötigst du ca. 150 Ereignisse — nicht Patienten!

Die benötigte Patientenzahl hängt dann ab von:

Unser Fallzahlrechner unterstützt die Fallzahlplanung für die wichtigsten statistischen Tests. Für spezifische Survival-Power-Analysen (Schoenfeld-Formel) empfehlen wir eine individuelle methodische Beratung.


Reporting-Standards: Wie berichte ich eine Überlebensanalyse?

Wissenschaftliche Journals und Ethikkommissionen erwarten ein standardisiertes Reporting nach den STROBE-Richtlinien (Beobachtungsstudien) oder CONSORT-Richtlinien (RCTs). Für Überlebensanalysen gelten spezifische Anforderungen:

Im Methodenteil

Im Ergebnisteil

Typische Journalistische Formulierung

"Die mediane Gesamtüberlebenszeit betrug in der Interventionsgruppe 42,3 Monate (95%-KI: 38,1–46,5) gegenüber 31,7 Monaten (95%-KI: 27,2–36,2) in der Kontrollgruppe. Der Log-Rank-Test zeigte einen statistisch signifikanten Unterschied (p = 0,003). Die Hazard Ratio für die Interventionsgruppe betrug in der multivariablen Cox-Regression 0,68 (95%-KI: 0,52–0,89; p = 0,005) nach Adjustierung für Alter, Tumorstadium und Komorbiditäten."


Zusammenfassung: Die 10 Kern-Regeln

  1. Zensierte Daten gehören in die Analyse — nicht ausschließen.
  2. Treppendiagramm statt glatter Kurve — Kaplan-Meier ist nicht-parametrisch.
  3. Tick-Marks einzeichnen — für jede Zensur ein Strich.
  4. Konfidenzintervalle zeigen — die Kurve allein ist nicht genug.
  5. Risk Table unter die Kurve — für seriöse Interpretierbarkeit.
  6. Median statt Mittelwert berichten — mit 95%-KI.
  7. Log-Rank für parallele Kurven, Breslow bei frühen Effekten.
  8. Bei sich kreuzenden Kurven: andere Tests prüfen.
  9. Multivariabel? → Cox-Regression, nicht mehr Kaplan-Meier.
  10. Reporting nach STROBE/CONSORT — Gutachter werden es prüfen.

Häufige Fragen

🔬 Teste dein Wissen zu diesem Thema

MC-Fragen nach IMPP-Katalog mit Erklärungen zu jeder Antwortoption. Von Fachärzten geprüft.

14 Tage kostenlos testen Keine Kreditkarte erforderlich