Warum ist 0,05 die übliche Schwelle?

Es ist eine Konvention, die auf Ronald A. Fisher (1925) zurückgeht. Fisher schlug 0,05 als praktische Schwelle vor, ohne sie als mathematisch zwingend zu deklarieren. Heute ist sie in der medizinischen Forschung Standard, kann aber je nach Kontext (Hochrisiko: 0,01; explorativ: 0,10) angepasst werden — vorausgesetzt, die Wahl ist begründet und vorab getroffen.

Kann ich α nach der Datenanalyse anpassen?

Nein. Die nachträgliche Anpassung von α ist eine Form des p-Hackings und methodisch nicht akzeptabel. Das Signifikanzniveau muss in der Studienplanung festgelegt und idealerweise präregistriert werden. Reviewer und Ethikkommissionen prüfen dies.

Was bedeutet 'α = 0,05'?

Es bedeutet: Wir akzeptieren ein Risiko von 5 %, dass wir die Nullhypothese ablehnen, obwohl sie tatsächlich wahr ist. Anders formuliert: Bei 100 Studien, in denen H₀ in Wahrheit stimmt, würden wir in 5 Studien fälschlicherweise einen Effekt finden.

Welches α bei multiplen Tests?

Bei k Tests muss α korrigiert werden, sonst steigt die Familywise Error Rate. Standard: Bonferroni mit α' = α/k (z.B. bei 10 Tests α' = 0,005). Modernere Alternativen sind Holm-Bonferroni (sequenziell) oder Benjamini-Hochberg (kontrolliert die False Discovery Rate, höhere Power). Die Methode muss vorab gewählt werden.

Hängen α und Konfidenzintervall zusammen?

Ja, direkt. Das (1 − α) × 100 %-Konfidenzintervall ist das Komplement zum gewählten Signifikanzniveau: α = 0,05 → 95%-KI, α = 0,01 → 99%-KI. Wenn das KI für eine Mittelwertdifferenz die Null nicht enthält, ist p < α — KI und Test führen zur gleichen Entscheidung.

Reduziert ein kleineres α immer das Fehlerrisiko?

Nein. Ein kleineres α reduziert nur den Fehler 1. Art (falsch-positiv), erhöht aber bei gleicher Stichprobengröße den Fehler 2. Art (falsch-negativ) — die Power sinkt. Strengere Schwellen erfordern größere Fallzahlen, sonst werden echte Effekte übersehen. Beide Fehlerarten müssen in der Power-Analyse abgewogen werden.

Warum manchmal α = 0,025 in klinischen Studien?

Bei einseitigen Tests (z.B. Nichtunterlegenheits- oder Überlegenheitsstudien) entspricht α = 0,025 einseitig dem α = 0,05 zweiseitig. Diese Konvention nutzt die FDA und EMA bei Zulassungsstudien, um die Strenge zweiseitiger Tests beizubehalten, auch wenn nur eine Effektrichtung relevant ist.

Muss α immer 0,05 sein, oder kann ich es selbst wählen?

Du kannst α selbst wählen, musst die Wahl aber vorab in der Methodik begründen. 0,05 ist Konvention und meist akzeptiert. Strengere Werte (0,01; 0,001) sind bei Hochrisiko-Endpunkten oder vielen Tests sinnvoll, laxere Werte (0,10) nur in explorativen Pilotstudien. Die Begründung muss methodisch nachvollziehbar sein.

Signifikanzniveau α: Definition, Wahl & Interpretation

Q: Reduziert ein kleineres α immer das Fehlerrisiko?

Nein. Ein kleineres α reduziert nur den Fehler 1. Art (falsch-positiv), erhöht aber bei gleicher Stichprobengröße den Fehler 2. Art (falsch-negativ) — die Power sinkt. Strengere Schwellen erfordern größere Fallzahlen, sonst werden echte Effekte übersehen. Beide Fehlerarten müssen in der Power-Analyse abgewogen werden.

Q: Warum manchmal α = 0,025 in klinischen Studien?

Bei einseitigen Tests (z.B. Nichtunterlegenheits- oder Überlegenheitsstudien) entspricht α = 0,025 einseitig dem α = 0,05 zweiseitig. Diese Konvention nutzt die FDA und EMA bei Zulassungsstudien, um die Strenge zweiseitiger Tests beizubehalten, auch wenn nur eine Effektrichtung relevant ist.

Q: Muss α immer 0,05 sein, oder kann ich es selbst wählen?

Du kannst α selbst wählen, musst die Wahl aber vorab in der Methodik begründen. 0,05 ist Konvention und meist akzeptiert. Strengere Werte (0,01; 0,001) sind bei Hochrisiko-Endpunkten oder vielen Tests sinnvoll, laxere Werte (0,10) nur in explorativen Pilotstudien. Die Begründung muss methodisch nachvollziehbar sein.

Das Signifikanzniveau α ist die vorab festgelegte Schwelle für die Wahrscheinlichkeit eines Fehlers 1. Art. Definition, Abgrenzung zum p-Wert, Wahl von 0,05 vs. 0,01 und multiple Testkorrektur.

📊 Inferenzstatistik · ⏱️ 8 Min. · Aktualisiert 2026-05-10

Definition

Das Signifikanzniveau α (auch: alpha, Irrtumswahrscheinlichkeit) ist die vor Datenerhebung festgelegte Schwelle für die maximal akzeptierte Wahrscheinlichkeit, die Nullhypothese H₀ fälschlicherweise abzulehnen — also einen Fehler 1. Art zu begehen. Es bestimmt, wie streng der Test ist: Je kleiner α, desto strenger die Anforderung an die Evidenz für einen Effekt.

Merke: Signifikanzniveau und p-Wert sind nicht dasselbe. Das Signifikanzniveau α wird vor der Analyse fixiert, der p-Wert wird nach der Datenanalyse berechnet. Erst der Vergleich p < α führt zur Entscheidung "H₀ ablehnen".

Formel

Formal definiert ist α die bedingte Wahrscheinlichkeit:

$$\alpha = P(\text{H}_0 \text{ ablehnen} \mid \text{H}_0 \text{ wahr})$$

Das ist gleichbedeutend mit:

$$\alpha = P(\text{Fehler 1. Art})$$

Die Entscheidungsregel im Hypothesentest lautet daher:

$$p \leq \alpha ;\Rightarrow; \text{H}_0 \text{ ablehnen}$$ $$p > \alpha ;\Rightarrow; \text{H}_0 \text{ beibehalten}$$

Abgrenzung: Signifikanzniveau vs. p-Wert

Diese Unterscheidung ist die wohl häufigste Verwechslung in medizinischen Doktorarbeiten — daher hier explizit:

Eigenschaft	Signifikanzniveau α	p-Wert
Wann festgelegt?	Vor Datenerhebung	Nach Datenanalyse
Quelle	Wahl des Forschenden (Konvention)	Berechnung aus Daten
Wert	Fixiert (z.B. 0,05)	Variabel (jede Studie anders)
Funktion	Schwelle / Entscheidungskriterium	Beobachtete Evidenz gegen H₀
Interpretation	Maximal akzeptiertes Fehlerrisiko	Wahrscheinlichkeit der Daten unter H₀

Praxis-Tipp: In der Methodik deiner Doktorarbeit muss explizit stehen: "Das Signifikanzniveau wurde a priori auf α = 0,05 festgelegt." — ohne diesen Satz ist jede p-Wert-Interpretation methodisch angreifbar.

Voraussetzungen

Damit ein Signifikanzniveau seinen Zweck erfüllt, müssen folgende Bedingungen gelten:

Festlegung vor Datenerhebung — sonst Risiko von p-Hacking und HARKing (Hypothesizing After Results are Known)
Begründete Wahl — Standardkonvention 0,05 reicht meist aus, abweichende Werte (0,01; 0,001) müssen begründet werden
Korrektur bei multiplen Tests — bei k unabhängigen Tests steigt die Familywise Error Rate; Korrektur via Bonferroni, Holm oder FDR erforderlich
Power-Analyse passend zu α — Stichprobengröße muss so gewählt sein, dass bei gewähltem α auch eine ausreichende Power (1 − β ≥ 0,80) erreicht wird

Eine ausführliche Diskussion der Methodik findest du in der Übersicht zu Statistik in der Doktorarbeit.

Interpretation und übliche Werte

Die Wahl von α ist eine Risikoabwägung zwischen Fehler 1. Art (falsch-positiv) und Fehler 2. Art (falsch-negativ).

α-Niveau	Anwendungsbereich	Begründung
0,05	Standard in medizinischer Forschung	Konvention seit Fisher; ausgewogene Risiken
0,01	Konfirmatorische Studien, sensible Endpunkte	Strengere Evidenz erforderlich
0,001	Genomweite Assoziationsstudien (GWAS)	Hunderttausende Tests gleichzeitig
0,10	Explorative Pilotstudien	Höhere Power bei kleinen n
0,025	Einseitige Tests bei Äquivalenz/Nichtunterlegenheit	FDA-Vorgabe in klinischen Studien

Wichtig: Ein kleineres α reduziert zwar das Risiko falsch-positiver Befunde, erhöht aber das Risiko falsch-negativer Befunde (Fehler 2. Art) — bei gleicher Stichprobengröße sinkt die Power. Beide Fehlerarten müssen abgewogen werden.

Klinisches Anwendungsbeispiel

Studie: Phase-III-RCT zu einem neuen Antibiotikum bei der Behandlung der infektiösen Endokarditis.

A-priori-Festlegung in der Methodik:

Primärer Endpunkt: 30-Tage-Mortalität
Signifikanzniveau α = 0,05 (zweiseitig)
Power 1 − β = 0,80 → benötigte Fallzahl n = 412 pro Gruppe
Hypothesen vorab präregistriert

Ergebnis nach Datenanalyse:

Mortalität Kontrolle: 18,4 %, Intervention: 12,1 %
Risk Ratio = 0,66, p = 0,018

Entscheidung: Da p = 0,018 < α = 0,05, wird H₀ abgelehnt. Das neue Antibiotikum reduziert die 30-Tage-Mortalität statistisch signifikant.

Was wäre bei α = 0,01 passiert? Mit p = 0,018 > α = 0,01 hätte H₀ nicht abgelehnt werden können — bei strengerer Schwelle wäre derselbe Effekt als "nicht signifikant" gewertet worden. Das zeigt: Die α-Wahl ist eine Vorab-Entscheidung mit Konsequenzen, die nachträglich nicht angepasst werden darf.

In SPSS berechnen

SPSS berechnet das Signifikanzniveau nicht — es ist eine Vorab-Entscheidung des Forschenden. SPSS liefert ausschließlich den p-Wert; den Vergleich p < α musst du selbst durchführen.

Analysieren → Mittelwerte vergleichen → t-Test bei unabhängigen Stichproben

Im Output ist die Spalte "Signifikanz (zweiseitig)" der p-Wert. Du vergleichst diesen mit deinem vorab festgelegten α (z.B. 0,05). Eine ausführliche SPSS-Anleitung gibt es im Tutorial.

In Konfidenzintervallen kann α indirekt eingestellt werden:

α = 0,05 → 95%-Konfidenzintervall (Standard)
α = 0,01 → 99%-Konfidenzintervall
Einstellung in den meisten Prozeduren unter Optionen → Konfidenzintervall (%)

In R berechnen

In R erfolgt die α-Festlegung implizit über das conf.level-Argument:

# Standard: α = 0,05 entspricht 95%-KI
result <- t.test(mortalitaet ~ gruppe, data = df, conf.level = 0.95)
result$p.value
# [1] 0.018

# Strengeres α = 0,01 → 99%-KI
result_strict <- t.test(mortalitaet ~ gruppe, data = df, conf.level = 0.99)

# Entscheidung in R explizit programmieren
alpha <- 0.05
if (result$p.value < alpha) {
  cat("H0 ablehnen — Effekt signifikant bei α =", alpha)
} else {
  cat("H0 beibehalten")
}

Mehr R-Beispiele in unserer R-Statistik-Anleitung.

Multiples Testen und Familywise Error Rate

Bei mehreren Tests pro Studie steigt die Wahrscheinlichkeit, mindestens einen falsch-positiven Befund zu erhalten — die Familywise Error Rate (FWER):

$$\text{FWER} = 1 - (1 - \alpha)^k$$

Bei k = 20 unabhängigen Tests à α = 0,05:

$$\text{FWER} = 1 - (1 - 0{,}05)^{20} \approx 0{,}64$$

Das heißt: Bei 20 Tests liegt die Wahrscheinlichkeit für mindestens eine zufällige Signifikanz bei 64 % — nicht mehr 5 %. Korrekturverfahren:

Bonferroni: α' = α / k → bei 20 Tests α' = 0,0025 (sehr konservativ)
Holm-Bonferroni: sequenziell, weniger konservativ als Bonferroni
Benjamini-Hochberg (FDR): kontrolliert die False Discovery Rate statt FWER, höhere Power

Details siehe Bonferroni-Korrektur.

Häufige Fehler

Fehler 1: α nachträglich anpassen

Falsch: "p = 0,07 — wir setzen α auf 0,10, dann ist es signifikant." Richtig: α muss vor Datenerhebung festgelegt sein. Nachträgliche Anpassung ist p-Hacking und wissenschaftlich unredlich.

Fehler 2: α und p-Wert verwechseln

α ist die Schwelle, p ist die beobachtete Evidenz. Formulierungen wie "der Alpha-Wert beträgt 0,03" sind falsch — gemeint ist der p-Wert.

Fehler 3: Multiple Tests ohne Korrektur

Subgruppenanalysen, viele Endpunkte, mehrere Messzeitpunkte: Ohne Korrektur explodiert die FWER. Pflicht in jeder konfirmatorischen Studie.

Fehler 4: α = 0,05 als "Naturgesetz" behandeln

0,05 ist eine Konvention (Fisher, 1925) — kein mathematisch begründeter Schwellenwert. In Hochrisiko-Bereichen (Strahlentherapie, neue Medikamente) sind strengere α gerechtfertigt; in explorativen Pilotstudien laxere.

Fehler 5: Einseitige Tests heimlich verwenden

Einseitige Tests halbieren effektiv α (von 0,05 auf 0,025 zweiseitig). Sie sind nur zulässig, wenn die Effektrichtung vorab begründet feststeht — sonst Manipulation.

Häufige Fragen

„Was ist der Unterschied zwischen Signifikanzniveau und p-Wert?" → Das Signifikanzniveau α wird vor Datenerhebung festgelegt und ist die maximale akzeptierte Fehlerwahrscheinlichkeit (z.B. 0,05). Der p-Wert wird nach Datenanalyse aus den Daten berechnet und gibt die beobachtete Evidenz gegen H₀ an. Erst der Vergleich p < α führt zur Entscheidung "H₀ ablehnen".
„Warum ist 0,05 die übliche Schwelle?" → Es ist eine Konvention, die auf Ronald A. Fisher (1925) zurückgeht. Fisher schlug 0,05 als praktische Schwelle vor, ohne sie als mathematisch zwingend zu deklarieren. Heute ist sie in der medizinischen Forschung Standard, kann aber je nach Kontext (Hochrisiko: 0,01; explorativ: 0,10) angepasst werden — vorausgesetzt, die Wahl ist begründet und vorab getroffen.
„Kann ich α nach der Datenanalyse anpassen?" → Nein. Die nachträgliche Anpassung von α ist eine Form des p-Hackings und methodisch nicht akzeptabel. Das Signifikanzniveau muss in der Studienplanung festgelegt und idealerweise präregistriert werden. Reviewer und Ethikkommissionen prüfen dies.
„Was bedeutet 'α = 0,05'?" → Es bedeutet: Wir akzeptieren ein Risiko von 5 %, dass wir die Nullhypothese ablehnen, obwohl sie tatsächlich wahr ist. Anders formuliert: Bei 100 Studien, in denen H₀ in Wahrheit stimmt, würden wir in 5 Studien fälschlicherweise einen Effekt finden.
„Welches α bei multiplen Tests?" → Bei k Tests muss α korrigiert werden, sonst steigt die Familywise Error Rate. Standard: Bonferroni mit α' = α/k (z.B. bei 10 Tests α' = 0,005). Modernere Alternativen sind Holm-Bonferroni (sequenziell) oder Benjamini-Hochberg (kontrolliert die False Discovery Rate, höhere Power). Die Methode muss vorab gewählt werden.
„Hängen α und Konfidenzintervall zusammen?" → Ja, direkt. Das (1 − α) × 100 %-Konfidenzintervall ist das Komplement zum gewählten Signifikanzniveau: α = 0,05 → 95%-KI, α = 0,01 → 99%-KI. Wenn das KI für eine Mittelwertdifferenz die Null nicht enthält, ist p < α — KI und Test führen zur gleichen Entscheidung.
„Reduziert ein kleineres α immer das Fehlerrisiko?" → Nein. Ein kleineres α reduziert nur den Fehler 1. Art (falsch-positiv), erhöht aber bei gleicher Stichprobengröße den Fehler 2. Art (falsch-negativ) — die Power sinkt. Strengere Schwellen erfordern größere Fallzahlen, sonst werden echte Effekte übersehen. Beide Fehlerarten müssen in der Power-Analyse abgewogen werden.
„Warum manchmal α = 0,025 in klinischen Studien?" → Bei einseitigen Tests (z.B. Nichtunterlegenheits- oder Überlegenheitsstudien) entspricht α = 0,025 einseitig dem α = 0,05 zweiseitig. Diese Konvention nutzt die FDA und EMA bei Zulassungsstudien, um die Strenge zweiseitiger Tests beizubehalten, auch wenn nur eine Effektrichtung relevant ist.
„Muss α immer 0,05 sein, oder kann ich es selbst wählen?" → Du kannst α selbst wählen, musst die Wahl aber vorab in der Methodik begründen. 0,05 ist Konvention und meist akzeptiert. Strengere Werte (0,01; 0,001) sind bei Hochrisiko-Endpunkten oder vielen Tests sinnvoll, laxere Werte (0,10) nur in explorativen Pilotstudien. Die Begründung muss methodisch nachvollziehbar sein.

✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer