Power-Analyse: Fallzahlplanung & Teststärke
Die Power-Analyse berechnet die statistische Teststärke (1 − β) und die nötige Fallzahl, um einen Effekt mit definierter Sicherheit zu detektieren. Definition, Formel, Beispiele in G*Power, R und SPSS.
Definition
Die Power-Analyse (auch: Fallzahlplanung, Teststärken-Analyse) ist ein methodisches Verfahren zur Berechnung der statistischen Power — der Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt durch einen Hypothesentest auch zu detektieren. Sie wird in der Studienplanung eingesetzt, um die notwendige Stichprobengröße vor Datenerhebung festzulegen.
Die Power ist definiert als 1 − β, wobei β die Wahrscheinlichkeit eines Fehlers 2. Art ist (H₀ nicht ablehnen, obwohl H₁ wahr ist). Eine Studie mit zu geringer Power riskiert, einen real existierenden Effekt zu übersehen — sie ist ethisch und wissenschaftlich problematisch, weil Patienten ohne ausreichende Erkenntnisaussicht eingeschlossen werden.
Merke: Eine Power-Analyse vor Studienbeginn ist Pflicht — nicht Kür. Ethikkommissionen, Reviewer und die ICH-GCP-Leitlinie verlangen dokumentierte Fallzahlbegründungen für jede konfirmatorische Studie.
Formel
Die zentrale Beziehung der Power-Analyse verbindet vier Größen:
$$\text{Power} = 1 - \beta = f(n, \alpha, \text{ES})$$
Dabei sind:
- n — Stichprobengröße (pro Gruppe bzw. gesamt)
- α — Signifikanzniveau (klassisch 0,05)
- ES — Effektstärke (z.B. Cohens d, Odds Ratio, η²)
- Power — gewünschte Teststärke (klassisch 0,80)
Aus drei dieser Größen lässt sich die vierte berechnen. In der prospektiven Fallzahlplanung sind α, Power und ES vorgegeben, n ist gesucht. Beispielhaft für den t-Test bei zwei unabhängigen Gruppen mit gleicher Gruppengröße:
$$n_{\text{pro Gruppe}} \approx \frac{2 \cdot (z_{1-\alpha/2} + z_{1-\beta})^2}{d^2}$$
mit Cohens d als standardisierter Effektgröße. In der Praxis übernimmt diese Berechnung Software (G*Power, pwr in R, SPSS Sample Power), nicht die Handrechnung.
Voraussetzungen
Damit eine Power-Analyse valide ist, müssen folgende Punkte vor Durchführung geklärt sein:
- Konkrete Fragestellung und Test gewählt — t-Test, ANOVA, Chi-Quadrat, Regression, Überlebenszeit etc. (jeder Test hat eigene Power-Formeln)
- Effektstärke begründet festgelegt — entweder aus Vorstudien, Meta-Analysen oder als minimal klinisch relevanter Effekt (MCID)
- α (zweiseitig vs. einseitig) definiert — meist 0,05 zweiseitig
- Power-Ziel festgelegt — Konvention: 0,80 (manche Felder verlangen 0,90)
- Drop-out-Rate kalkuliert — Bruttofallzahl = Nettofallzahl / (1 − Drop-out-Rate)
- Studiendesign berücksichtigt — gepaart vs. ungepaart, Cluster-Designs, Mehrgruppenvergleiche, Mehrfachtests
Praxis-Tipp: Die häufigste Fehlerquelle ist die zu optimistisch gewählte Effektstärke. Wenn keine Vorstudien existieren, lieber konservativ planen (kleiner Effekt → größere Fallzahl) als später unterpowert sein.
Interpretation
| Power (1 − β) | Übliche Bewertung |
|---|---|
| < 0,50 | inakzeptabel — Studie nicht aussagekräftig |
| 0,50 – 0,79 | unterdimensioniert — riskante Befundinterpretation |
| 0,80 | Standard in der medizinischen Forschung |
| 0,90 | erhöhte Anforderung (z.B. Zulassungsstudien) |
| ≥ 0,95 | sehr hohe Sicherheit — selten gefordert, hohe n nötig |
Eine Power von 0,80 bedeutet: Wenn der angenommene Effekt in der Population real existiert, wird die Studie ihn in 80 % der Wiederholungen entdecken. In 20 % der Fälle würde sie ihn dennoch übersehen — das ist der akzeptierte β-Fehler.
Wichtig: Post-hoc-Power (Power retrospektiv aus den eigenen Daten berechnet) ist methodisch fragwürdig und liefert kaum Zusatzinformation über den p-Wert hinaus. Ethikkommissionen und Reviewer verlangen a-priori-Power.
Klinisches Anwendungsbeispiel
Studie: Randomisierte kontrollierte Studie zur Wirksamkeit eines neuen Lokalanästhetikums in der Endodontie (Schmerzscore VAS 0–10) gegenüber dem Standardpräparat.
Annahmen vor Studienbeginn:
- Erwarteter Mittelwertunterschied: Δ = 1,2 Punkte VAS
- Geschätzte gemeinsame SD: 2,5 Punkte
- Daraus Cohens d = 1,2 / 2,5 = 0,48 (mittlerer Effekt)
- α = 0,05 (zweiseitig)
- Power = 0,80
- Drop-out-Rate: 15 %
Berechnung (zweiseitiger t-Test, unabhängige Stichproben):
- Nettofallzahl: n = 70 pro Gruppe (140 gesamt)
- Bruttofallzahl: n = 70 / 0,85 ≈ 83 pro Gruppe (166 gesamt)
Interpretation: Mit 83 Patienten pro Gruppe erreicht die Studie eine 80 %-Wahrscheinlichkeit, den postulierten Effekt von d = 0,48 als statistisch signifikant zu detektieren. Wäre nur n = 40 pro Gruppe geplant, sänke die Power auf ca. 0,55 — die Studie wäre stark unterdimensioniert.
In SPSS berechnen
SPSS bietet Power-Analysen über das Modul IBM SPSS Sample Power oder seit Version 27 nativ unter:
Analysieren → Power-Analyse → Mittelwerte → Unabhängige Stichproben t-Test
Eingabefelder:
- Test-Annahmen: α = 0,05, zweiseitig
- Effektstärke: Cohens d = 0,48 (oder direkt M1, M2, SD eingeben)
- Power: 0,80
- Berechnung: "Stichprobengröße schätzen"
Im Output-Tab erscheint die nötige Fallzahl pro Gruppe sowie eine Power-Kurve (Power als Funktion von n).
Für komplexere Designs (Cluster, Survival, Mixed Models) reicht SPSS oft nicht — dann lieber R oder G*Power. Eine Übersicht über die SPSS-Auswertung findest du im Begleit-Tutorial.
In R berechnen
Das Paket pwr deckt die häufigsten Tests ab:
library(pwr)
# t-Test, unabhängige Stichproben, zweiseitig
pwr.t.test(d = 0.48,
sig.level = 0.05,
power = 0.80,
type = "two.sample",
alternative = "two.sided")
# n = 69.2 pro Gruppe → aufrunden auf 70
# ANOVA mit 3 Gruppen
pwr.anova.test(k = 3, f = 0.25, sig.level = 0.05, power = 0.80)
# n = 52.3 pro Gruppe
# Chi-Quadrat-Test
pwr.chisq.test(w = 0.3, df = 1, sig.level = 0.05, power = 0.80)
# n = 87.2 gesamt
# Korrelation
pwr.r.test(r = 0.3, sig.level = 0.05, power = 0.80)
# n = 84
Für Überlebenszeit-Analysen (Cox-Regression, Log-Rank-Test) gibt es das Paket survSNP oder gsDesign. Für gemischte Modelle das Paket simr (simulationsbasierte Power). Mehr in unserer R-Statistik-Anleitung.
Häufige Fehler
Fehler 1: Effektstärke zu optimistisch wählen
Falsch: Aus einer kleinen Pilotstudie (n = 12) wird ein "großer" Effekt (d = 0,9) übernommen — die Hauptstudie wird mit kleiner Fallzahl geplant. Realer Effekt ist d = 0,4 → Studie unterpowert. Richtig: Konservativ den minimal klinisch relevanten Effekt ansetzen, nicht den optimistischsten Pilot-Schätzwert.
Fehler 2: Post-hoc-Power statt a-priori-Power
Wenn ein Test nicht signifikant wurde und man danach die Power aus den eigenen Daten berechnet, ist das Ergebnis mathematisch trivial mit dem p-Wert verknüpft — es liefert keine zusätzliche Information. Stattdessen Konfidenzintervalle für den Effekt berichten.
Fehler 3: Drop-outs vergessen
Eine Nettofallzahl von 70/Gruppe wird 1:1 in den Studienprotokoll geschrieben. Bei 20 % Drop-out hat man am Ende nur 56 auswertbare Patienten → Power deutlich unter 0,80. Immer Bruttofallzahl rekrutieren: n_brutto = n_netto / (1 − Drop-out-Rate).
Fehler 4: Einseitiger Test ohne Begründung zur Powersteigerung
Manche planen einseitig, weil das die Fallzahl reduziert. Das ist nur zulässig, wenn die Effektrichtung vor Datenerhebung biologisch/klinisch eindeutig ist. Reviewer und Ethikkommissionen prüfen das streng.
Fehler 5: Multiple Tests bei der Power-Planung ignorieren
Bei mehreren Endpunkten muss die Bonferroni-Korrektur (oder vergleichbare) auch in der Fallzahlplanung berücksichtigt werden. Bei 5 Endpunkten und α = 0,05/5 = 0,01 steigt die nötige Fallzahl deutlich.
Verwandte Konzepte
- Signifikanzniveau α — Wahrscheinlichkeit eines Fehlers 1. Art, klassisch 0,05
- Fehler 2. Art (β) — Wahrscheinlichkeit, einen real vorhandenen Effekt zu übersehen; Power = 1 − β
- Effektstärke — standardisiertes Maß der Effektgröße (Cohens d, η², OR), Kerngröße jeder Power-Analyse
- p-Wert — Ergebnis des Hypothesentests; Power bestimmt, wie wahrscheinlich p < α tatsächlich erreicht wird
- Konfidenzintervall — gibt Effektgröße + Präzision an; bei korrekt geplanter Power ist das KI ausreichend schmal
- Sensitivitätsanalyse — alternative Power-Berechnung: Welcher minimale Effekt wäre mit gegebener Fallzahl detektierbar?
Häufige Fragen
- „Welche Power ist in der medizinischen Forschung Standard?" → Die Konvention liegt bei 0,80 (80 %). Für Zulassungsstudien (Phase III) oder hochsensible Fragestellungen wird teilweise 0,90 gefordert. Werte unter 0,80 gelten als unterdimensioniert und werden von Ethikkommissionen kritisch hinterfragt.
- „Was ist der Unterschied zwischen a-priori- und post-hoc-Power?" → A-priori-Power wird vor Studienbeginn berechnet, um die nötige Fallzahl zu bestimmen — sie ist methodisch sinnvoll und Pflicht. Post-hoc-Power wird nach Datenerhebung aus den eigenen Daten geschätzt; sie ist mathematisch redundant zum p-Wert und liefert keinen Zusatznutzen. Reviewer akzeptieren post-hoc-Power nicht als Methodikbegründung.
- „Welche Software ist für Power-Analysen empfehlenswert?" → G*Power (kostenlos, Standard für Doktorarbeiten) deckt die meisten Standardtests ab. R mit
pwr,simr,gsDesignist flexibler, vor allem für komplexe Designs. SPSS Sample Power ist verfügbar, aber teuer. PASS (NCSS) ist die kommerzielle Premium-Lösung. Für die Promotion reicht G*Power oder R fast immer aus. - „Wie wähle ich die Effektstärke, wenn keine Vorstudien existieren?" → Drei Strategien: (1) Den minimal klinisch relevanten Effekt (MCID) aus klinischer Erfahrung definieren — dies ist methodisch am stärksten. (2) Konservative Cohen-Konventionen ansetzen (kleiner Effekt: d = 0,2; mittlerer: 0,5; großer: 0,8). (3) Pilot-Studie durchführen, aber nur als grobe Orientierung — kleine Pilots überschätzen Effekte systematisch.
- „Was passiert, wenn meine Studie unterpowert ist?" → Eine unterpowerte Studie hat ein hohes Risiko, einen real vorhandenen Effekt zu übersehen (Fehler 2. Art). Selbst signifikante Befunde sind problematisch: Bei niedriger Power produzieren signifikante Ergebnisse oft überschätzte Effektgrößen ("winner's curse"). Konsequenz: Ergebnisse sind schwer publizierbar, ethisch fragwürdig und für Meta-Analysen kaum verwertbar.
- „Muss ich für jede Hypothese eine eigene Power-Analyse machen?" → Ja, zumindest für jeden konfirmatorischen Endpunkt. In der Praxis wird die Fallzahl meist am primären Endpunkt ausgerichtet — sekundäre Endpunkte werden explorativ analysiert oder als Sensitivitätsanalyse berichtet. Das Studienprotokoll muss klar zwischen primären und sekundären Hypothesen trennen.
- „Wie hängt die Power-Analyse mit dem p-Wert zusammen?" → Beide hängen über die Stichprobengröße zusammen: Eine ausreichend gepowerte Studie wird, wenn der angenommene Effekt real existiert, mit hoher Wahrscheinlichkeit p < α erreichen. Power = P(p < α | H₁ wahr). Ohne adäquate Power ist der p-Wert wenig aussagekräftig — er kann nicht-signifikant sein, obwohl der Effekt real ist.
- „Wie berücksichtige ich Drop-outs in der Fallzahlplanung?" → Die berechnete Nettofallzahl muss um die erwartete Drop-out-Rate hochgerechnet werden: n_brutto = n_netto / (1 − Drop-out-Rate). Bei 70 Patienten netto und 20 % erwarteten Drop-outs müssen 70 / 0,80 = 88 Patienten rekrutiert werden. Die Drop-out-Rate sollte aus vergleichbaren Studien begründet werden.
- „Brauche ich für eine Doktorarbeit zwingend eine Power-Analyse?" → Bei prospektiven, konfirmatorischen Studien ja — ohne dokumentierte Fallzahlplanung wird die Ethikkommission das Votum verweigern. Bei retrospektiven Auswertungen oder rein deskriptiven Studien ist eine Sensitivitätsanalyse (welcher Effekt wäre mit der vorhandenen Fallzahl detektierbar?) angemessener. Mehr dazu in unserem Leitfaden zur Statistik in der Doktorarbeit und zur Promotionsstatistik-Auswertung.