Bonferroni-Korrektur: Definition, Formel & Anwendung

Die Bonferroni-Korrektur passt das Signifikanzniveau bei multiplen Tests an, um die Familienweise Fehlerrate (FWER) zu kontrollieren. Definition, Formel, Anwendung in SPSS und R sowie häufige Fehler.

Definition

Die Bonferroni-Korrektur ist ein konservatives Verfahren zur Anpassung des Signifikanzniveaus α, wenn in einer Studie mehrere statistische Tests gleichzeitig durchgeführt werden. Sie kontrolliert die sogenannte Familienweise Fehlerrate (FWER, family-wise error rate) — also die Wahrscheinlichkeit, mindestens einen Fehler 1. Art über alle Tests hinweg zu begehen.

Das Prinzip ist einfach: Werden k Tests durchgeführt, wird das Signifikanzniveau jedes einzelnen Tests durch k geteilt. Statt α = 0,05 pro Test gilt dann α_korr = 0,05/k.

Merke: Ohne Korrektur steigt bei multiplen Tests die Wahrscheinlichkeit eines falsch-positiven Ergebnisses dramatisch. Bei 20 unabhängigen Tests à α = 0,05 erwartet man rein zufällig eine signifikante "Entdeckung" — auch wenn in Wahrheit kein Effekt existiert.

Formel

Bei k durchgeführten Tests und gewünschtem Gesamt-Signifikanzniveau α:

$$\alpha_{korr} = \frac{\alpha}{k}$$

Alternativ kann statt der Schwelle der p-Wert angepasst werden:

$$p_{korr} = \min(p \cdot k, 1)$$

Ein Einzeltest gilt dann als signifikant, wenn p_original < α_korr oder äquivalent p_korr < α.

Rechenbeispiel: Bei α = 0,05 und k = 10 Tests gilt α_korr = 0,005. Ein Test mit p = 0,02 wäre ohne Korrektur signifikant, mit Bonferroni-Korrektur jedoch nicht (0,02 > 0,005).

Voraussetzungen

Die Bonferroni-Korrektur ist universell anwendbar, hat aber spezifische Eigenschaften:

  • Anzahl der Tests muss vorab feststehen — k darf nicht nach Sichtung der Ergebnisse erhöht werden (sonst p-Hacking)
  • Tests müssen zur selben Hypothesenfamilie gehören — z.B. paarweise Vergleiche nach einer ANOVA, Subgruppenanalysen einer Studie
  • Funktioniert auch bei abhängigen Tests — die Korrektur ist dann jedoch noch konservativer (verschenkt Power)
  • Alle p-Werte werden gleich behandelt — anders als bei der Holm-Methode oder FDR

Anwendung & Interpretation

Bonferroni wird klassisch in drei Situationen eingesetzt:

Situation Beispiel Empfehlung
Post-hoc-Vergleiche nach ANOVA 4 Gruppen → 6 paarweise Tests Bonferroni geeignet, k = 6
Multiple primäre Endpunkte 3 Endpunkte einer RCT Bonferroni Pflicht, k = 3
Subgruppenanalysen Wirksamkeit nach Alter, Geschlecht, Komorbidität Korrektur erforderlich, k = Anzahl Subgruppen
Explorative Hypothesen-Generierung "Data dredging" mit > 50 Tests FDR statt Bonferroni (zu konservativ)

Praxis-Tipp: Bei sehr vielen Tests (k > 20, z.B. Genexpressionsanalysen) wird Bonferroni zu streng — kaum ein Test bleibt signifikant. In solchen Fällen ist die False Discovery Rate (FDR, Benjamini-Hochberg) das Mittel der Wahl. Sie kontrolliert nicht die FWER, sondern den erwarteten Anteil falsch-positiver unter den als signifikant deklarierten Tests.

Klinisches Anwendungsbeispiel

Studie: Eine zahnmedizinische Studie vergleicht die Plaque-Reduktion zwischen vier Mundspüllösungen (Chlorhexidin, ätherische Öle, CPC, Placebo) an n = 200 Patienten. Nach signifikanter ANOVA (F = 8,4; p < 0,001) sollen alle paarweisen Vergleiche durchgeführt werden.

Berechnung k: 4 Gruppen → C(4,2) = 6 paarweise Vergleiche

Korrigiertes Niveau: α_korr = 0,05 / 6 ≈ 0,0083

Vergleich p-Wert (roh) Signifikant ohne Korrektur? Signifikant mit Bonferroni?
CHX vs. Placebo 0,0002 Ja Ja (p < 0,0083)
CPC vs. Placebo 0,004 Ja Ja (p < 0,0083)
Öle vs. Placebo 0,018 Ja Nein (p > 0,0083)
CHX vs. CPC 0,031 Ja Nein
CHX vs. Öle 0,012 Ja Nein
CPC vs. Öle 0,67 Nein Nein

Interpretation: Nach Bonferroni-Korrektur bleiben nur CHX und CPC den Placebo überlegen. Die Wirksamkeit ätherischer Öle erreicht nach Korrektur das α-Niveau nicht — ein wichtiges Detail für die Schlussfolgerung.

In SPSS berechnen

SPSS bietet Bonferroni direkt im ANOVA-Dialog:

Analysieren → Mittelwerte vergleichen → Einfaktorielle ANOVA → Post-hoc → Bonferroni

Im Output-Tab "Mehrfachvergleiche" sind die p-Werte bereits korrigiert ausgegeben — das heißt, du vergleichst sie direkt mit α = 0,05, nicht mit α/k. SPSS multipliziert intern den p-Wert mit k.

Achtung: Wenn du Bonferroni außerhalb der ANOVA (z.B. für mehrere Chi-Quadrat-Tests) anwendest, musst du das Niveau manuell anpassen oder die p-Werte selbst mit k multiplizieren. Eine ausführliche SPSS-Anleitung zeigt weitere Anwendungsfälle.

In R berechnen

R bietet die Funktion p.adjust() zur direkten Anpassung von p-Werten:

# Vektor der rohen p-Werte
p_werte <- c(0.0002, 0.004, 0.018, 0.031, 0.012, 0.67)

# Bonferroni-Korrektur
p.adjust(p_werte, method = "bonferroni")
# [1] 0.0012 0.0240 0.1080 0.1860 0.0720 1.0000

# Holm-Korrektur (weniger konservativ, gleiche FWER-Kontrolle)
p.adjust(p_werte, method = "holm")
# [1] 0.0012 0.0200 0.0540 0.0620 0.0480 0.6700

# FDR (Benjamini-Hochberg)
p.adjust(p_werte, method = "BH")
# [1] 0.0012 0.0120 0.0270 0.0372 0.0240 0.6700

Nach paarweisen t-Tests:

pairwise.t.test(daten$plaque, daten$gruppe, p.adjust.method = "bonferroni")

Mehr in unserer R-Statistik-Anleitung.

Häufige Fehler

Fehler 1: Korrektur "vergessen"

Falsch: "Wir haben 15 Subgruppenanalysen gemacht und drei waren signifikant (p < 0,05)." Richtig: Bei k = 15 ist α_korr = 0,0033. Drei p-Werte unter 0,05 könnten reiner Zufall sein.

Fehler 2: k falsch zählen

Bei 4 Gruppen und paarweisen Vergleichen sind es 6 Tests, nicht 4. Allgemein: k = n·(n−1)/2 für alle paarweisen Vergleiche.

Fehler 3: Bonferroni bei explorativen Studien mit hunderten Tests

Bei k = 1.000 wird α_korr = 0,00005 — kaum ein realer Effekt überlebt. Hier ist FDR angemessener, da sie weniger konservativ ist.

Fehler 4: Korrektur nur über "signifikante" Tests

Manche Autoren korrigieren nur die als signifikant deklarierten Tests — das ist methodisch falsch. Alle geplanten Tests einer Hypothesenfamilie zählen zu k.

Fehler 5: Holm und Bonferroni verwechseln

Die Holm-Korrektur kontrolliert ebenfalls die FWER, ist aber stets mindestens so mächtig wie Bonferroni. Sie sollte bei kleinen k bevorzugt werden — Bonferroni ist die einfachere, aber konservativere Variante.

Verwandte Konzepte

  • p-Wert — Größe, die durch Bonferroni adjustiert wird
  • Signifikanzniveau α — wird bei Bonferroni durch k geteilt
  • Holm-Bonferroni-Methode — sequenzielle Variante, weniger konservativ, gleiche FWER-Kontrolle
  • False Discovery Rate (FDR) — alternative Strategie für hochdimensionale Daten
  • ANOVA — typische Quelle multipler Vergleiche, Bonferroni als Post-hoc-Test
  • Post-hoc-Tests — Tukey-HSD, Scheffé, Dunnett als Alternativen
  • Familienweise Fehlerrate (FWER) — Konzept, das Bonferroni kontrolliert

Häufige Fragen

  • „Was ist der Unterschied zwischen FWER und FDR?" → FWER (familywise error rate) ist die Wahrscheinlichkeit, mindestens einen Fehler 1. Art über alle Tests zu begehen — sie wird durch Bonferroni und Holm kontrolliert. FDR (false discovery rate) ist der erwartete Anteil falsch-positiver unter allen als signifikant erklärten Tests — sie wird durch Benjamini-Hochberg kontrolliert. FDR ist weniger streng und bei vielen Tests (k > 20) angemessener.
  • „Wann ist Bonferroni zu konservativ?" → Bei sehr vielen Tests (k > 20–30) und bei stark korrelierten Tests. In Genexpressions-Studien mit tausenden Tests, in der Bildgebung oder bei Microbiom-Analysen wird Bonferroni durch FDR ersetzt. Auch bei mittelstarken Korrelationen zwischen Tests verschenkt Bonferroni Power, weil es Unabhängigkeit annimmt.
  • „Wie zähle ich k bei mehreren Endpunkten korrekt?" → k umfasst alle Tests einer Hypothesenfamilie, die vorab geplant waren. Bei 3 primären Endpunkten ist k = 3. Bei einer ANOVA mit 4 Gruppen und allen paarweisen Vergleichen ist k = 6 (= 4·3/2). Subgruppenanalysen, Sensitivitätsanalysen und Interaktionstests zählen mit, wenn sie konfirmatorisch ausgewertet werden sollen.
  • „Muss ich auch korrigieren, wenn ich nur 2 Tests gemacht habe?" → Streng genommen ja — k = 2 ergibt α_korr = 0,025. In der Praxis wird bei 2–3 vorab geplanten Hauptanalysen oft hierarchisch getestet (Gatekeeping): Erst der wichtigste Endpunkt, dann der nächste, jeweils zu α = 0,05. Das vermeidet eine Korrektur ganz, erfordert aber eine vorab definierte Reihenfolge.
  • „Ist Bonferroni für nicht-parametrische Tests geeignet?" → Ja. Die Bonferroni-Korrektur ist verteilungsfrei und funktioniert mit jedem Test, der einen p-Wert liefert — also auch mit Mann-Whitney-U, Wilcoxon, Kruskal-Wallis, Chi-Quadrat oder Fishers exaktem Test. Sie korrigiert ausschließlich das Niveau, nicht die Teststatistik selbst.
  • „Warum zeigt SPSS p-Werte > 1 nach Bonferroni an?" → Das ist eine Anzeigeeigenheit. Mathematisch wird p · k berechnet — bei p = 0,4 und k = 6 ergäbe das 2,4. SPSS deckelt solche Werte auf 1,000, da Wahrscheinlichkeiten nicht größer als 1 sein können. Inhaltlich bedeutet "p_korr = 1,000" einfach: deutlich nicht signifikant.
  • „Soll ich Bonferroni oder Tukey-HSD nach einer ANOVA verwenden?" → Tukey-HSD ist speziell für alle paarweisen Mittelwertvergleiche entwickelt und meist mächtiger als Bonferroni. Bonferroni eignet sich besser, wenn nur ausgewählte (nicht alle) Vergleiche von Interesse sind, oder wenn Tests unterschiedlicher Art kombiniert werden. Bei vollständigen paarweisen Vergleichen → Tukey; bei selektiven oder gemischten Tests → Bonferroni.
  • „Wie gehe ich mit Bonferroni in der Doktorarbeit um?" → Bonferroni gehört in jede konfirmatorische Studie mit multiplen Tests. Im Methodenteil dokumentierst du: Anzahl k der Tests, gewählte Korrekturmethode, korrigiertes Niveau. Im Ergebnisteil gibst du sowohl rohe als auch korrigierte p-Werte an. Eine Übersicht zur Methodik bietet unser Leitfaden zur Statistik in der Doktorarbeit.
✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer