Signifikanzniveau α: Definition, Wahl & Interpretation
Das Signifikanzniveau α ist die vorab festgelegte Schwelle für die Wahrscheinlichkeit eines Fehlers 1. Art. Definition, Abgrenzung zum p-Wert, Wahl von 0,05 vs. 0,01 und multiple Testkorrektur.
Definition
Das Signifikanzniveau α (auch: alpha, Irrtumswahrscheinlichkeit) ist die vor Datenerhebung festgelegte Schwelle für die maximal akzeptierte Wahrscheinlichkeit, die Nullhypothese H₀ fälschlicherweise abzulehnen — also einen Fehler 1. Art zu begehen. Es bestimmt, wie streng der Test ist: Je kleiner α, desto strenger die Anforderung an die Evidenz für einen Effekt.
Merke: Signifikanzniveau und p-Wert sind nicht dasselbe. Das Signifikanzniveau α wird vor der Analyse fixiert, der p-Wert wird nach der Datenanalyse berechnet. Erst der Vergleich p < α führt zur Entscheidung "H₀ ablehnen".
Formel
Formal definiert ist α die bedingte Wahrscheinlichkeit:
$$\alpha = P(\text{H}_0 \text{ ablehnen} \mid \text{H}_0 \text{ wahr})$$
Das ist gleichbedeutend mit:
$$\alpha = P(\text{Fehler 1. Art})$$
Die Entscheidungsregel im Hypothesentest lautet daher:
$$p \leq \alpha ;\Rightarrow; \text{H}_0 \text{ ablehnen}$$ $$p > \alpha ;\Rightarrow; \text{H}_0 \text{ beibehalten}$$
Abgrenzung: Signifikanzniveau vs. p-Wert
Diese Unterscheidung ist die wohl häufigste Verwechslung in medizinischen Doktorarbeiten — daher hier explizit:
| Eigenschaft | Signifikanzniveau α | p-Wert |
|---|---|---|
| Wann festgelegt? | Vor Datenerhebung | Nach Datenanalyse |
| Quelle | Wahl des Forschenden (Konvention) | Berechnung aus Daten |
| Wert | Fixiert (z.B. 0,05) | Variabel (jede Studie anders) |
| Funktion | Schwelle / Entscheidungskriterium | Beobachtete Evidenz gegen H₀ |
| Interpretation | Maximal akzeptiertes Fehlerrisiko | Wahrscheinlichkeit der Daten unter H₀ |
Praxis-Tipp: In der Methodik deiner Doktorarbeit muss explizit stehen: "Das Signifikanzniveau wurde a priori auf α = 0,05 festgelegt." — ohne diesen Satz ist jede p-Wert-Interpretation methodisch angreifbar.
Voraussetzungen
Damit ein Signifikanzniveau seinen Zweck erfüllt, müssen folgende Bedingungen gelten:
- Festlegung vor Datenerhebung — sonst Risiko von p-Hacking und HARKing (Hypothesizing After Results are Known)
- Begründete Wahl — Standardkonvention 0,05 reicht meist aus, abweichende Werte (0,01; 0,001) müssen begründet werden
- Korrektur bei multiplen Tests — bei k unabhängigen Tests steigt die Familywise Error Rate; Korrektur via Bonferroni, Holm oder FDR erforderlich
- Power-Analyse passend zu α — Stichprobengröße muss so gewählt sein, dass bei gewähltem α auch eine ausreichende Power (1 − β ≥ 0,80) erreicht wird
Eine ausführliche Diskussion der Methodik findest du in der Übersicht zu Statistik in der Doktorarbeit.
Interpretation und übliche Werte
Die Wahl von α ist eine Risikoabwägung zwischen Fehler 1. Art (falsch-positiv) und Fehler 2. Art (falsch-negativ).
| α-Niveau | Anwendungsbereich | Begründung |
|---|---|---|
| 0,05 | Standard in medizinischer Forschung | Konvention seit Fisher; ausgewogene Risiken |
| 0,01 | Konfirmatorische Studien, sensible Endpunkte | Strengere Evidenz erforderlich |
| 0,001 | Genomweite Assoziationsstudien (GWAS) | Hunderttausende Tests gleichzeitig |
| 0,10 | Explorative Pilotstudien | Höhere Power bei kleinen n |
| 0,025 | Einseitige Tests bei Äquivalenz/Nichtunterlegenheit | FDA-Vorgabe in klinischen Studien |
Wichtig: Ein kleineres α reduziert zwar das Risiko falsch-positiver Befunde, erhöht aber das Risiko falsch-negativer Befunde (Fehler 2. Art) — bei gleicher Stichprobengröße sinkt die Power. Beide Fehlerarten müssen abgewogen werden.
Klinisches Anwendungsbeispiel
Studie: Phase-III-RCT zu einem neuen Antibiotikum bei der Behandlung der infektiösen Endokarditis.
A-priori-Festlegung in der Methodik:
- Primärer Endpunkt: 30-Tage-Mortalität
- Signifikanzniveau α = 0,05 (zweiseitig)
- Power 1 − β = 0,80 → benötigte Fallzahl n = 412 pro Gruppe
- Hypothesen vorab präregistriert
Ergebnis nach Datenanalyse:
- Mortalität Kontrolle: 18,4 %, Intervention: 12,1 %
- Risk Ratio = 0,66, p = 0,018
Entscheidung: Da p = 0,018 < α = 0,05, wird H₀ abgelehnt. Das neue Antibiotikum reduziert die 30-Tage-Mortalität statistisch signifikant.
Was wäre bei α = 0,01 passiert? Mit p = 0,018 > α = 0,01 hätte H₀ nicht abgelehnt werden können — bei strengerer Schwelle wäre derselbe Effekt als "nicht signifikant" gewertet worden. Das zeigt: Die α-Wahl ist eine Vorab-Entscheidung mit Konsequenzen, die nachträglich nicht angepasst werden darf.
In SPSS berechnen
SPSS berechnet das Signifikanzniveau nicht — es ist eine Vorab-Entscheidung des Forschenden. SPSS liefert ausschließlich den p-Wert; den Vergleich p < α musst du selbst durchführen.
Analysieren → Mittelwerte vergleichen → t-Test bei unabhängigen Stichproben
Im Output ist die Spalte "Signifikanz (zweiseitig)" der p-Wert. Du vergleichst diesen mit deinem vorab festgelegten α (z.B. 0,05). Eine ausführliche SPSS-Anleitung gibt es im Tutorial.
In Konfidenzintervallen kann α indirekt eingestellt werden:
- α = 0,05 → 95%-Konfidenzintervall (Standard)
- α = 0,01 → 99%-Konfidenzintervall
- Einstellung in den meisten Prozeduren unter Optionen → Konfidenzintervall (%)
In R berechnen
In R erfolgt die α-Festlegung implizit über das conf.level-Argument:
# Standard: α = 0,05 entspricht 95%-KI
result <- t.test(mortalitaet ~ gruppe, data = df, conf.level = 0.95)
result$p.value
# [1] 0.018
# Strengeres α = 0,01 → 99%-KI
result_strict <- t.test(mortalitaet ~ gruppe, data = df, conf.level = 0.99)
# Entscheidung in R explizit programmieren
alpha <- 0.05
if (result$p.value < alpha) {
cat("H0 ablehnen — Effekt signifikant bei α =", alpha)
} else {
cat("H0 beibehalten")
}
Mehr R-Beispiele in unserer R-Statistik-Anleitung.
Multiples Testen und Familywise Error Rate
Bei mehreren Tests pro Studie steigt die Wahrscheinlichkeit, mindestens einen falsch-positiven Befund zu erhalten — die Familywise Error Rate (FWER):
$$\text{FWER} = 1 - (1 - \alpha)^k$$
Bei k = 20 unabhängigen Tests à α = 0,05:
$$\text{FWER} = 1 - (1 - 0{,}05)^{20} \approx 0{,}64$$
Das heißt: Bei 20 Tests liegt die Wahrscheinlichkeit für mindestens eine zufällige Signifikanz bei 64 % — nicht mehr 5 %. Korrekturverfahren:
- Bonferroni: α' = α / k → bei 20 Tests α' = 0,0025 (sehr konservativ)
- Holm-Bonferroni: sequenziell, weniger konservativ als Bonferroni
- Benjamini-Hochberg (FDR): kontrolliert die False Discovery Rate statt FWER, höhere Power
Details siehe Bonferroni-Korrektur.
Häufige Fehler
Fehler 1: α nachträglich anpassen
Falsch: "p = 0,07 — wir setzen α auf 0,10, dann ist es signifikant." Richtig: α muss vor Datenerhebung festgelegt sein. Nachträgliche Anpassung ist p-Hacking und wissenschaftlich unredlich.
Fehler 2: α und p-Wert verwechseln
α ist die Schwelle, p ist die beobachtete Evidenz. Formulierungen wie "der Alpha-Wert beträgt 0,03" sind falsch — gemeint ist der p-Wert.
Fehler 3: Multiple Tests ohne Korrektur
Subgruppenanalysen, viele Endpunkte, mehrere Messzeitpunkte: Ohne Korrektur explodiert die FWER. Pflicht in jeder konfirmatorischen Studie.
Fehler 4: α = 0,05 als "Naturgesetz" behandeln
0,05 ist eine Konvention (Fisher, 1925) — kein mathematisch begründeter Schwellenwert. In Hochrisiko-Bereichen (Strahlentherapie, neue Medikamente) sind strengere α gerechtfertigt; in explorativen Pilotstudien laxere.
Fehler 5: Einseitige Tests heimlich verwenden
Einseitige Tests halbieren effektiv α (von 0,05 auf 0,025 zweiseitig). Sie sind nur zulässig, wenn die Effektrichtung vorab begründet feststeht — sonst Manipulation.
Verwandte Konzepte
- p-Wert — die berechnete Evidenz, die mit α verglichen wird
- Fehler 1. Art (α-Fehler) — H₀ wird fälschlich abgelehnt
- Fehler 2. Art (β-Fehler) — H₀ wird fälschlich beibehalten
- Statistische Power (1 − β) — Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt zu detektieren
- Konfidenzintervall — entspricht (1 − α) × 100 %, also bei α = 0,05 das 95%-KI
- Bonferroni-Korrektur — Anpassung von α bei multiplen Tests
Häufige Fragen
- „Was ist der Unterschied zwischen Signifikanzniveau und p-Wert?" → Das Signifikanzniveau α wird vor Datenerhebung festgelegt und ist die maximale akzeptierte Fehlerwahrscheinlichkeit (z.B. 0,05). Der p-Wert wird nach Datenanalyse aus den Daten berechnet und gibt die beobachtete Evidenz gegen H₀ an. Erst der Vergleich p < α führt zur Entscheidung "H₀ ablehnen".
- „Warum ist 0,05 die übliche Schwelle?" → Es ist eine Konvention, die auf Ronald A. Fisher (1925) zurückgeht. Fisher schlug 0,05 als praktische Schwelle vor, ohne sie als mathematisch zwingend zu deklarieren. Heute ist sie in der medizinischen Forschung Standard, kann aber je nach Kontext (Hochrisiko: 0,01; explorativ: 0,10) angepasst werden — vorausgesetzt, die Wahl ist begründet und vorab getroffen.
- „Kann ich α nach der Datenanalyse anpassen?" → Nein. Die nachträgliche Anpassung von α ist eine Form des p-Hackings und methodisch nicht akzeptabel. Das Signifikanzniveau muss in der Studienplanung festgelegt und idealerweise präregistriert werden. Reviewer und Ethikkommissionen prüfen dies.
- „Was bedeutet 'α = 0,05'?" → Es bedeutet: Wir akzeptieren ein Risiko von 5 %, dass wir die Nullhypothese ablehnen, obwohl sie tatsächlich wahr ist. Anders formuliert: Bei 100 Studien, in denen H₀ in Wahrheit stimmt, würden wir in 5 Studien fälschlicherweise einen Effekt finden.
- „Welches α bei multiplen Tests?" → Bei k Tests muss α korrigiert werden, sonst steigt die Familywise Error Rate. Standard: Bonferroni mit α' = α/k (z.B. bei 10 Tests α' = 0,005). Modernere Alternativen sind Holm-Bonferroni (sequenziell) oder Benjamini-Hochberg (kontrolliert die False Discovery Rate, höhere Power). Die Methode muss vorab gewählt werden.
- „Hängen α und Konfidenzintervall zusammen?" → Ja, direkt. Das (1 − α) × 100 %-Konfidenzintervall ist das Komplement zum gewählten Signifikanzniveau: α = 0,05 → 95%-KI, α = 0,01 → 99%-KI. Wenn das KI für eine Mittelwertdifferenz die Null nicht enthält, ist p < α — KI und Test führen zur gleichen Entscheidung.
- „Reduziert ein kleineres α immer das Fehlerrisiko?" → Nein. Ein kleineres α reduziert nur den Fehler 1. Art (falsch-positiv), erhöht aber bei gleicher Stichprobengröße den Fehler 2. Art (falsch-negativ) — die Power sinkt. Strengere Schwellen erfordern größere Fallzahlen, sonst werden echte Effekte übersehen. Beide Fehlerarten müssen in der Power-Analyse abgewogen werden.
- „Warum manchmal α = 0,025 in klinischen Studien?" → Bei einseitigen Tests (z.B. Nichtunterlegenheits- oder Überlegenheitsstudien) entspricht α = 0,025 einseitig dem α = 0,05 zweiseitig. Diese Konvention nutzt die FDA und EMA bei Zulassungsstudien, um die Strenge zweiseitiger Tests beizubehalten, auch wenn nur eine Effektrichtung relevant ist.
- „Muss α immer 0,05 sein, oder kann ich es selbst wählen?" → Du kannst α selbst wählen, musst die Wahl aber vorab in der Methodik begründen. 0,05 ist Konvention und meist akzeptiert. Strengere Werte (0,01; 0,001) sind bei Hochrisiko-Endpunkten oder vielen Tests sinnvoll, laxere Werte (0,10) nur in explorativen Pilotstudien. Die Begründung muss methodisch nachvollziehbar sein.