Likelihood Ratio: Definition, Formel & klinische Anwendung
Die Likelihood Ratio (LR) gibt an, wie stark ein Testergebnis die Wahrscheinlichkeit einer Erkrankung verändert. Definition, Formel, Berechnung in R/SPSS und klinische Interpretation von LR⁺ und LR⁻.
Definition
Die Likelihood Ratio (LR) — auch Wahrscheinlichkeitsverhältnis — beschreibt, wie stark ein Testergebnis die Wahrscheinlichkeit einer Erkrankung verändert. Sie ist eine der wichtigsten Kennzahlen der diagnostischen Statistik, weil sie unabhängig von der Prävalenz ist und sich direkt mit dem Satz von Bayes zur Berechnung der Posttest-Wahrscheinlichkeit nutzen lässt.
Man unterscheidet zwei Varianten:
- LR⁺ (positive Likelihood Ratio): Wie viel wahrscheinlicher ist ein positives Testergebnis bei Erkrankten als bei Gesunden?
- LR⁻ (negative Likelihood Ratio): Wie viel wahrscheinlicher ist ein negatives Testergebnis bei Erkrankten als bei Gesunden?
Merke: Während Sensitivität und Spezifität Eigenschaften des Tests beschreiben, übersetzt die LR diese in eine klinisch direkt nutzbare Größe — sie sagt dir, wie stark sich deine Verdachtsdiagnose nach dem Testergebnis ändern sollte.
Formel
Aus Sensitivität (Sens) und Spezifität (Spez) berechnen sich die LRs wie folgt:
$$LR^+ = \frac{\text{Sensitivität}}{1 - \text{Spezifität}} = \frac{P(T+|D+)}{P(T+|D-)}$$
$$LR^- = \frac{1 - \text{Sensitivität}}{\text{Spezifität}} = \frac{P(T-|D+)}{P(T-|D-)}$$
Die Posttest-Odds ergeben sich dann durch einfache Multiplikation der Prätest-Odds mit der LR:
$$\text{Posttest-Odds} = \text{Prätest-Odds} \times LR$$
Mit der Umrechnung Odds = p / (1 − p) lässt sich daraus die Posttest-Wahrscheinlichkeit berechnen.
Voraussetzungen
Für eine valide Berechnung und Interpretation der LR müssen folgende Bedingungen erfüllt sein:
- Goldstandard verfügbar — eine Referenzmethode, die als Wahrheit gilt (z.B. Histologie bei Tumordiagnostik)
- Repräsentative Stichprobe — Studienpopulation muss dem klinischen Anwendungsbereich entsprechen (Spektrum-Bias vermeiden)
- Test-unabhängige Evaluation — der Goldstandard wird unabhängig vom zu evaluierenden Test angewendet (Verifikations-Bias vermeiden)
- Definierte Cut-off-Werte — bei kontinuierlichen Tests muss der Schwellenwert vorab festgelegt sein (siehe ROC-Kurve)
- Ausreichende Fallzahl in beiden Gruppen (Erkrankte/Gesunde) für stabile Konfidenzintervalle
Interpretation
Die LR-Werte werden in der evidenzbasierten Medizin (EBM) nach folgenden Schwellen klassifiziert (Jaeschke et al., JAMA 1994):
| LR⁺ | LR⁻ | Diagnostische Aussagekraft |
|---|---|---|
| > 10 | < 0,1 | starke Änderung der Posttest-Wahrscheinlichkeit |
| 5 – 10 | 0,1 – 0,2 | mäßige Änderung |
| 2 – 5 | 0,2 – 0,5 | geringe Änderung |
| 1 – 2 | 0,5 – 1 | kaum relevante Änderung |
| = 1 | = 1 | Test ist diagnostisch wertlos |
Praxis-Tipp: Ein guter Rule-in-Test (Bestätigung) hat ein hohes LR⁺ (≥ 10). Ein guter Rule-out-Test (Ausschluss) hat ein niedriges LR⁻ (≤ 0,1). Idealtests haben beides.
Klinisches Anwendungsbeispiel
Studie: D-Dimer-Test zur Lungenembolie-Diagnostik.
- Sensitivität: 95 %
- Spezifität: 50 %
- LR⁺ = 0,95 / (1 − 0,50) = 1,9
- LR⁻ = (1 − 0,95) / 0,50 = 0,10
Klinische Anwendung bei einem Patienten mit Verdacht auf Lungenembolie:
- Prätest-Wahrscheinlichkeit (Wells-Score: niedrig) = 10 % → Prätest-Odds = 0,10/0,90 = 0,111
- Negativer D-Dimer-Test → Posttest-Odds = 0,111 × 0,10 = 0,0111 → Posttest-Wahrscheinlichkeit ≈ 1,1 %
Interpretation: Bei niedriger Prätest-Wahrscheinlichkeit und negativem D-Dimer sinkt die Posttest-Wahrscheinlichkeit für eine Lungenembolie auf etwa 1 % — ausreichend, um den Verdacht auszuschließen, ohne weitere bildgebende Diagnostik (Ausschluss-Test).
Bei positivem D-Dimer hingegen (LR⁺ = 1,9) steigt die Posttest-Wahrscheinlichkeit nur auf ≈ 17 % — der Test ist als Rule-in-Test ungeeignet und benötigt zwingend weitere Bildgebung (CT-Angiographie).
In SPSS berechnen
SPSS berechnet die LR nicht direkt im Menü, aber über eine Kreuztabelle mit Sensitivität/Spezifität:
Analysieren → Deskriptive Statistiken → Kreuztabellen
- Zeilen: Testergebnis (positiv/negativ)
- Spalten: Goldstandard (krank/gesund)
- Optionen → "Zeilenprozente" und "Spaltenprozente" anhaken
Aus der Vierfeldertafel die LR manuell berechnen:
Krank Gesund
Test positiv a (RP) b (FP)
Test negativ c (FN) d (RN)
Sens = a / (a+c)
Spez = d / (b+d)
LR⁺ = Sens / (1 − Spez)
LR⁻ = (1 − Sens) / Spez
Eine ausführliche SPSS-Anleitung zur Diagnostik-Auswertung findest du im Begleit-Tutorial.
In R berechnen
Mit dem Paket epiR lässt sich die LR inklusive 95%-Konfidenzintervallen direkt berechnen:
library(epiR)
# Vierfeldertafel: Reihen = Testergebnis, Spalten = Goldstandard
tab <- matrix(c(95, 50, 5, 50), nrow = 2, byrow = TRUE,
dimnames = list(Test = c("positiv", "negativ"),
Krankheit = c("ja", "nein")))
result <- epi.tests(tab, conf.level = 0.95)
print(result)
# Output enthält:
# Sensitivity, Specificity
# Likelihood ratio of a positive test (LR+)
# Likelihood ratio of a negative test (LR-)
# jeweils mit 95%-Konfidenzintervall
Alternativ ohne Paket:
sens <- 0.95
spez <- 0.50
lr_pos <- sens / (1 - spez) # 1.9
lr_neg <- (1 - sens) / spez # 0.10
Häufige Fehler
Fehler 1: LR mit Sensitivität/Spezifität verwechseln
LR ist ein Verhältnis, keine Wahrscheinlichkeit. Eine LR von 5 bedeutet nicht "5 % Wahrscheinlichkeit", sondern "fünfmal wahrscheinlicher bei Kranken als bei Gesunden".
Fehler 2: Prätest-Wahrscheinlichkeit ignorieren
Eine LR⁺ von 10 hört sich beeindruckend an — bei Prätest-Wahrscheinlichkeit von 1 % steigt die Posttest-Wahrscheinlichkeit aber nur auf ≈ 9 %. Ohne Prätest-Schätzung ist die LR klinisch nicht nutzbar.
Fehler 3: Odds und Wahrscheinlichkeiten gleichsetzen
Die LR multipliziert Odds, nicht Wahrscheinlichkeiten. Wer die Prätest-Wahrscheinlichkeit direkt mit der LR multipliziert, erhält falsche Posttest-Werte. Korrekter Workflow: p → Odds → ×LR → Odds → p.
Fehler 4: LR aus nicht-repräsentativer Stichprobe
Wenn die Studienpopulation extreme Fälle (klar krank vs. klar gesund) enthält, sind Sens/Spez und damit auch LR überschätzt — sogenannter Spektrum-Bias. Klinisch relevante Population muss abgebildet sein.
Fehler 5: LR ohne Konfidenzintervall berichten
LR-Punktschätzer ohne 95%-KI sind methodisch unvollständig. Bei kleinen Fallzahlen kann das KI sehr breit sein (z.B. LR⁺ = 8,5; 95%-KI: 2,1 – 34,2) — was die Aussagekraft stark relativiert.
Fehler 6: Multiple Cut-offs gleichzeitig vergleichen
Bei kontinuierlichen Tests (z.B. Troponin-Konzentration) gibt es für jeden Cut-off andere LRs. Stratifizierte LRs (z.B. LR für Troponin < 14, 14–50, > 50 ng/L) sind informativer als ein einzelner Schwellenwert.
Verwandte Konzepte
- Sensitivität & Spezifität — Basisparameter zur Berechnung der LR
- ROC-Kurve — visualisiert LR-Verhältnisse über alle Cut-offs
- Satz von Bayes — mathematische Grundlage zur Umrechnung Prä- in Posttest-Wahrscheinlichkeit
- Posttest-Wahrscheinlichkeit — Ergebnis der Bayes-Aktualisierung mittels LR
- Fagan-Nomogramm — grafisches Hilfsmittel zur schnellen Posttest-Abschätzung
- Diagnostische Odds Ratio (DOR) — alternatives Globalmaß: DOR = LR⁺ / LR⁻
Häufige Fragen
- „Was ist der Unterschied zwischen LR⁺ und LR⁻?" → LR⁺ beschreibt, wie stark ein positives Testergebnis die Krankheitswahrscheinlichkeit erhöht — je größer, desto besser für die Diagnosebestätigung. LR⁻ beschreibt, wie stark ein negatives Testergebnis die Krankheitswahrscheinlichkeit senkt — je kleiner (näher an 0), desto besser für den Krankheitsausschluss.
- „Warum ist die LR besser als die Sensitivität allein?" → Sensitivität und Spezifität sind Eigenschaften des Tests, sagen aber nichts darüber aus, wie ein konkretes Ergebnis bei einem konkreten Patienten zu interpretieren ist. Die LR vereint beide Maße in einer Zahl und erlaubt zusammen mit der Prätest-Wahrscheinlichkeit die direkte Berechnung der Posttest-Wahrscheinlichkeit — der eigentlich klinisch relevanten Größe.
- „Wann ist eine LR diagnostisch wertvoll?" → Faustregel: LR⁺ ≥ 10 oder LR⁻ ≤ 0,1 gelten als stark aussagekräftig. LR⁺ von 5–10 bzw. LR⁻ von 0,1–0,2 sind moderat. Werte zwischen 0,5 und 2 ändern die diagnostische Einschätzung kaum und sind klinisch nahezu wertlos. Eine LR von genau 1 bedeutet, dass der Test keinerlei diagnostische Information liefert.
- „Wie berechne ich die Posttest-Wahrscheinlichkeit aus der LR?" → Drei Schritte: (1) Prätest-Wahrscheinlichkeit p in Odds umrechnen: Odds = p/(1−p). (2) Posttest-Odds = Prätest-Odds × LR. (3) Posttest-Odds zurück in Wahrscheinlichkeit: p = Odds/(1+Odds). Alternativ: Fagan-Nomogramm verwenden — eine grafische Lösung, bei der eine Linie von der Prätest-Wahrscheinlichkeit über die LR zur Posttest-Wahrscheinlichkeit gezogen wird.
- „Ist die LR von der Prävalenz abhängig?" → Nein, das ist einer ihrer großen Vorteile. Wie Sensitivität und Spezifität ist auch die LR eine prävalenzunabhängige Test-Eigenschaft. Sie kann daher aus einer Studie auf andere Populationen mit anderer Prävalenz übertragen werden — sofern die Patient*innen-Charakteristika (Krankheitsspektrum, Komorbiditäten) vergleichbar sind.
- „Was ist ein Fagan-Nomogramm?" → Ein Fagan-Nomogramm ist eine grafische Darstellung, mit der man ohne Rechner die Posttest-Wahrscheinlichkeit aus Prätest-Wahrscheinlichkeit und LR ablesen kann. Drei vertikale Achsen (Prätest-W. links, LR Mitte, Posttest-W. rechts) werden durch eine Gerade verbunden. Das Werkzeug ist in der Notfallmedizin und bedside-Diagnostik weit verbreitet.
- „Welche Software berechnet LRs am komfortabelsten?" → R mit dem Paket
epiR(Funktionepi.tests()) liefert LR⁺, LR⁻ samt 95%-Konfidenzintervallen direkt. In Stata gibt es den Befehldiagt, in Python das Paketscikit-learnfür ROC/AUC und manuelle LR-Berechnung. SPSS und Jamovi erfordern manuelle Berechnung aus der Vierfeldertafel. - „Wie unterscheidet sich die LR vom Likelihood-Ratio-Test in der Inferenzstatistik?" → Der Likelihood-Ratio-Test (LRT) in der Inferenzstatistik vergleicht zwei verschachtelte Modelle anhand des Verhältnisses ihrer Likelihoods und liefert eine Teststatistik mit χ²-Verteilung — z.B. zum Modellvergleich in der logistischen Regression. Das diagnostische Likelihood Ratio ist eine völlig andere Kennzahl aus der Test-Evaluation. Beide nutzen den Begriff "Likelihood Ratio", sind aber nicht zu verwechseln.
- „Was bedeutet eine LR⁺ von genau 1?" → Eine LR⁺ = 1 bedeutet, dass ein positives Testergebnis bei Kranken und Gesunden gleich wahrscheinlich ist — der Test diskriminiert also nicht zwischen den Gruppen. Die Posttest-Wahrscheinlichkeit ändert sich nicht gegenüber der Prätest-Wahrscheinlichkeit. Solche Tests sind diagnostisch wertlos und sollten nicht klinisch eingesetzt werden.
- „Sollte ich in meiner Doktorarbeit LRs berichten?" → Ja, wenn deine Arbeit einen diagnostischen Test evaluiert. Die STARD-Leitlinie (Standards for Reporting of Diagnostic Accuracy) empfiehlt explizit die Angabe von Sens, Spez, LR⁺ und LR⁻ mit 95%-Konfidenzintervallen. Reine Sens/Spez-Berichte gelten heute als unvollständig. Mehr dazu in unserer Übersicht zu Statistik in der Doktorarbeit.