A-priori Fallzahlplanung und Post-hoc Power-Analyse für klinische Studien und Forschungsprojekte. Basierend auf exakten nicht-zentralen Verteilungen.
Exakte Berechnung mit nicht-zentralen t-, F- und χ²-Verteilungen
Die Power-Analyse bestimmt das Zusammenspiel von vier Größen:
Die a-priori Analyse bestimmt die benötigte Fallzahl. Die post-hoc Analyse bestimmt die erreichte Power bei gegebener Fallzahl.
Die Power-Berechnung basiert auf nicht-zentralen Verteilungen via Poisson-Mischung zentraler Verteilungen.
| Test | Effektstärke | NCP-Formel |
|---|---|---|
| Unabhängiger t-Test | Cohen's d | λ = d × √(n₁n₂/(n₁+n₂)) |
| Gepaarter t-Test | Cohen's dz | λ = d × √n |
| Ein-Stichproben t-Test | Cohen's d | λ = d × √n |
| ANOVA (F-Test) | Cohen's f | λ = n × k × f² |
| Chi-Quadrat | Cohen's w | λ = N × w² |
| Korrelation | Pearson r | Fisher-z-Transformation |
| Zwei Proportionen | |p₁ − p₂| | Normalapproximation |
| Multiple Regression | Cohen's f² | λ = N × f² |
| Effektstärke | Klein | Mittel | Groß | Einsatz |
|---|---|---|---|---|
| Cohen's d | 0.20 | 0.50 | 0.80 | t-Tests |
| Cohen's f | 0.10 | 0.25 | 0.40 | ANOVA |
| Cohen's w | 0.10 | 0.30 | 0.50 | Chi² |
| Pearson r | 0.10 | 0.30 | 0.50 | Korrelation |
| Cohen's f² | 0.02 | 0.15 | 0.35 | Regression |
Eine korrekte Fallzahlberechnung ist aus drei Gründen essenziell: Erstens aus wissenschaftlicher Sicht, weil eine zu kleine Stichprobe reale Effekte übersieht (Typ-II-Fehler) und eine zu große Stichprobe zeitlich wie ethisch nicht vertretbar ist. Zweitens aus ethischer Sicht, weil nur eine angemessen gepowerte Studie die Belastung der Studienteilnehmer rechtfertigt — die Deklaration von Helsinki verpflichtet Forscher ausdrücklich zur statistisch korrekten Planung. Drittens aus regulatorischer Sicht, weil Ethikkommissionen, die MDR (Medizinproduktverordnung), die FDA und Peer-Review-Journals eine transparente a-priori Power-Analyse als Teil des Studienprotokolls voraussetzen.
Die konventionelle Power von 80 % ist bei konfirmatorischen Studien und Nachbeobachtungen der Standard, sie bedeutet dass ein real vorhandener Effekt in 80 % der Fälle detektiert wird. Bei Zulassungsstudien (Phase III), Überlegenheitsstudien für die Markteinführung eines Medizinprodukts oder Forschungsprojekten mit geringer Wiederholbarkeit (z. B. seltene Erkrankungen) sollte die Power auf 90 % oder 95 % angehoben werden. Für explorative Pilotstudien sind auch 70 % akzeptabel, sofern das kommuniziert wird.
Die Effektstärke sollte primär aus Vorstudien, Pilotdaten oder Metaanalysen abgeleitet werden. Fehlen solche Daten, sind Cohen's Konventionen (klein/mittel/groß) eine konservative Orientierung. Wichtig: Bei unklarer Datenlage ist die Angabe der minimalen klinisch relevanten Differenz (MCID) methodisch überlegen — etwa eine Blutdrucksenkung von mindestens 5 mmHg, eine Schmerzreduktion um 2 Punkte auf der VAS-Skala, oder eine Gewichtsreduktion von mindestens 5 %. Je kleiner die erwartete Effektstärke, desto größer die benötigte Fallzahl.
Eine zu kleine Fallzahl führt zu underpowerten Studien: Auch wenn ein realer Unterschied existiert, wird er statistisch nicht signifikant. Das Resultat ist entweder ein falsch-negativer Befund ("kein Effekt gefunden") oder im Fall von Zufallstreffern eine stark überschätzte Effektstärke (winner's curse und Type-M error). Beides verschwendet Ressourcen und verzerrt die Literatur. Eine a-priori Power-Analyse verhindert diese Fehler.
Die a-priori Power-Analyse berechnet die benötigte Fallzahl vor Studienbeginn — das ist die methodisch korrekte Anwendung. Die post-hoc Power berechnet die erreichte Power nach Abschluss einer Studie bei gegebener Fallzahl. Post-hoc Power ist in der Fachliteratur umstritten, weil sie bei einem nicht-signifikanten Ergebnis immer automatisch niedrig ist (tautologischer Zusammenhang mit dem p-Wert). Sinnvoll ist sie nur, um retrospektiv die Detektionsfähigkeit einer Studie einzuschätzen oder um die Planung einer Folgestudie zu kalibrieren.
Bei longitudinalen Studien, Interventionen mit unangenehmen Nebenwirkungen oder langen Beobachtungszeiträumen sollten die erwarteten Drop-out-Raten einkalkuliert werden. Die Faustregel: N_rekrutiert = N_benötigt / (1 − Drop-out-Rate). Typische Drop-out-Raten liegen bei RCTs zwischen 10–20 %, bei Kohortenstudien über mehrere Jahre deutlich höher. Plane konservativ: Lieber 25 % mehr rekrutieren als am Ende underpowered zu sein.
Multiple Testungen (mehrere primäre Endpunkte, Subgruppenanalysen, Zeitpunkt-Vergleiche) inflationieren den Alpha-Fehler. Werden k unabhängige Tests mit α = 0,05 durchgeführt, beträgt die familywise error rate ungefähr 1 − (1−0,05)^k — bei 5 Tests also 23 %. Korrekturen wie Bonferroni (konservativ), Holm-Bonferroni oder FDR (Benjamini-Hochberg, liberaler) sind methodisch etabliert. Die Fallzahl muss entsprechend höher kalkuliert werden.
Bei Cluster-randomisierten Studien (z. B. Randomisierung nach Klinik statt nach Patient) oder longitudinalen Messungen mit wiederholten Beobachtungen entsteht Intra-Cluster-Korrelation (ICC). Die effektive Fallzahl reduziert sich um den Design-Effekt DE = 1 + (k−1) × ICC, wobei k die durchschnittliche Clustergröße ist. Der Design-Effekt-Modus in unserem Rechner berücksichtigt dies explizit. Für eine fundierte Planung bei solchen Studien empfehlen wir die individuelle Biostatistik-Beratung.
Die folgenden Szenarien zeigen, wie eine solide Fallzahlplanung konkrete Forschungsvorhaben strukturiert:
Eine medizinische Doktorarbeit untersucht zwei Antihypertensiva. Aus der Literatur bekannt: Standardpräparat senkt Systolic Blood Pressure um 8 mmHg (SD 12). Minimale klinisch relevante Verbesserung durch das neue Präparat: zusätzliche 5 mmHg. Cohen's d = 5/12 ≈ 0,42 (klein-mittel). Bei α = 0,05 (zweiseitig) und Power = 0,80 benötigt der unabhängige t-Test ca. 90 Patienten pro Gruppe, also 180 insgesamt. Mit 15 % Drop-out-Kalkulation → 212 Rekrutierungen.
Eine Bachelorarbeit vergleicht zwei Diagnostikverfahren hinsichtlich der Sensitivität. Erwartete Sensitivitäten: 70 % vs. 85 %. Bei α = 0,05 und Power = 0,80 benötigt der Chi-Quadrat-Test mindestens 131 Patienten pro Gruppe. Bei Vorliegen gepaarter Daten (gleicher Patient, beide Tests) kann ein McNemar-Test die Fallzahl reduzieren — hier empfiehlt sich eine individuelle Beratung.
Eine experimentelle Doktorarbeit vergleicht drei Analgetika-Dosierungen. Cohen's f = 0,25 (mittlerer Effekt). Bei α = 0,05 und Power = 0,80 benötigt die einfaktorielle ANOVA 52 Patienten pro Gruppe, also 156 insgesamt. Bei geplanten paarweisen Post-hoc-Vergleichen (Tukey, Bonferroni) steigt die Fallzahl um weitere ca. 20–30 %.
Eine Kohortenstudie untersucht den Zusammenhang zwischen einem Entzündungsmarker und dem Krankheitsverlauf. Erwartete Korrelation r = 0,30 (mittel). Bei α = 0,05 und Power = 0,80 reichen 85 Patienten für eine statistisch belastbare Pearson-Korrelation.
Eine retrospektive Studie vergleicht zwei Tumortherapien anhand der Überlebenszeit. Erwartete Hazard Ratio 0,70, Ereignisrate 60 %. Die Fallzahlplanung für Cox-Regression benötigt einen log-rank Test mit Berücksichtigung der Ereigniszahl. Für solche komplexen Szenarien hilft unsere spezialisierte Biostatistik-Beratung, die auch Propensity-Score-Matching und Mixed Models abdeckt.
Detaillierte Fallzahlplanung für Ethikantrag, Studienprotokoll oder Promotion — inklusive Cluster-Designs, Überlebensanalysen und komplexer Studientypen.
Biostatistik-Beratung →