📐 Biostatistik-Tool

Fallzahlrechner &
Power-Analyse

A-priori Fallzahlplanung und Post-hoc Power-Analyse für klinische Studien und Forschungsprojekte. Basierend auf exakten nicht-zentralen Verteilungen.

Power-Analyse / Sample Size Calculator

Exakte Berechnung mit nicht-zentralen t-, F- und χ²-Verteilungen

Analyse-Typ
Statistischer Test
Testrichtung
Signifikanzniveau α
Gewünschte Power (1−β)
📐
Power-Kurve
Power (1−β) vs. Stichprobengröße (N)
Hinweis: Die Fallzahlplanung ist ein wesentlicher Bestandteil jedes Studienprotokolls. Für individuelle Beratung steht unsere Biostatistik-Beratung zur Verfügung.

Methodik & Berechnungsgrundlage

Grundlagen der Power-Analyse

Die Power-Analyse bestimmt das Zusammenspiel von vier Größen:

Die a-priori Analyse bestimmt die benötigte Fallzahl. Die post-hoc Analyse bestimmt die erreichte Power bei gegebener Fallzahl.

Statistische Verteilungen

Die Power-Berechnung basiert auf nicht-zentralen Verteilungen via Poisson-Mischung zentraler Verteilungen.

Power = 1 − Fnc(kritischer Wert; df, NCP)

Implementierte Tests

TestEffektstärkeNCP-Formel
Unabhängiger t-TestCohen's dλ = d × √(n₁n₂/(n₁+n₂))
Gepaarter t-TestCohen's dzλ = d × √n
Ein-Stichproben t-TestCohen's dλ = d × √n
ANOVA (F-Test)Cohen's fλ = n × k × f²
Chi-QuadratCohen's wλ = N × w²
KorrelationPearson rFisher-z-Transformation
Zwei Proportionen|p₁ − p₂|Normalapproximation
Multiple RegressionCohen's f²λ = N × f²

Effektstärken-Konventionen (Cohen, 1988)

EffektstärkeKleinMittelGroßEinsatz
Cohen's d0.200.500.80t-Tests
Cohen's f0.100.250.40ANOVA
Cohen's w0.100.300.50Chi²
Pearson r0.100.300.50Korrelation
Cohen's f²0.020.150.35Regression
Wichtig: Die Konventionen dienen der Orientierung. Die erwartete Effektstärke sollte aus Pilotstudien oder Metaanalysen abgeleitet werden.

Umrechnung zwischen Effektstärken

f = d / 2  (für 2 Gruppen)  |  f² = R² / (1 − R²)  |  d = 2r / √(1 − r²)

Zitation & Referenzen

📋 Empfohlene Zitation

SCIORA. Sample Size Calculator and Power Analysis Tool [Internet]. 2026. Available from: https://sciora.me/tools/fallzahlrechner. Based on exact noncentral distributions (Cohen, 1988; Faul et al., 2007).

📚 Methodische Referenzen

Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2nd ed. Hillsdale, NJ: Lawrence Erlbaum; 1988.
Faul F, Erdfelder E, Lang AG, Buchner A. G*Power 3. Behavior Research Methods. 2007;39(2):175–191.
Faul F, Erdfelder E, Buchner A, Lang AG. G*Power 3.1. Behavior Research Methods. 2009;41(4):1149–1160.

Häufige Fragen zur Fallzahlberechnung

Warum ist eine Fallzahlberechnung wichtig?

Eine korrekte Fallzahlberechnung ist aus drei Gründen essenziell: Erstens aus wissenschaftlicher Sicht, weil eine zu kleine Stichprobe reale Effekte übersieht (Typ-II-Fehler) und eine zu große Stichprobe zeitlich wie ethisch nicht vertretbar ist. Zweitens aus ethischer Sicht, weil nur eine angemessen gepowerte Studie die Belastung der Studienteilnehmer rechtfertigt — die Deklaration von Helsinki verpflichtet Forscher ausdrücklich zur statistisch korrekten Planung. Drittens aus regulatorischer Sicht, weil Ethikkommissionen, die MDR (Medizinproduktverordnung), die FDA und Peer-Review-Journals eine transparente a-priori Power-Analyse als Teil des Studienprotokolls voraussetzen.

Wann reicht Power = 0,80 und wann sollte man höher ansetzen?

Die konventionelle Power von 80 % ist bei konfirmatorischen Studien und Nachbeobachtungen der Standard, sie bedeutet dass ein real vorhandener Effekt in 80 % der Fälle detektiert wird. Bei Zulassungsstudien (Phase III), Überlegenheitsstudien für die Markteinführung eines Medizinprodukts oder Forschungsprojekten mit geringer Wiederholbarkeit (z. B. seltene Erkrankungen) sollte die Power auf 90 % oder 95 % angehoben werden. Für explorative Pilotstudien sind auch 70 % akzeptabel, sofern das kommuniziert wird.

Wie wähle ich die richtige Effektstärke?

Die Effektstärke sollte primär aus Vorstudien, Pilotdaten oder Metaanalysen abgeleitet werden. Fehlen solche Daten, sind Cohen's Konventionen (klein/mittel/groß) eine konservative Orientierung. Wichtig: Bei unklarer Datenlage ist die Angabe der minimalen klinisch relevanten Differenz (MCID) methodisch überlegen — etwa eine Blutdrucksenkung von mindestens 5 mmHg, eine Schmerzreduktion um 2 Punkte auf der VAS-Skala, oder eine Gewichtsreduktion von mindestens 5 %. Je kleiner die erwartete Effektstärke, desto größer die benötigte Fallzahl.

Was passiert bei zu kleiner Fallzahl?

Eine zu kleine Fallzahl führt zu underpowerten Studien: Auch wenn ein realer Unterschied existiert, wird er statistisch nicht signifikant. Das Resultat ist entweder ein falsch-negativer Befund ("kein Effekt gefunden") oder im Fall von Zufallstreffern eine stark überschätzte Effektstärke (winner's curse und Type-M error). Beides verschwendet Ressourcen und verzerrt die Literatur. Eine a-priori Power-Analyse verhindert diese Fehler.

Was ist der Unterschied zwischen a-priori und post-hoc Power?

Die a-priori Power-Analyse berechnet die benötigte Fallzahl vor Studienbeginn — das ist die methodisch korrekte Anwendung. Die post-hoc Power berechnet die erreichte Power nach Abschluss einer Studie bei gegebener Fallzahl. Post-hoc Power ist in der Fachliteratur umstritten, weil sie bei einem nicht-signifikanten Ergebnis immer automatisch niedrig ist (tautologischer Zusammenhang mit dem p-Wert). Sinnvoll ist sie nur, um retrospektiv die Detektionsfähigkeit einer Studie einzuschätzen oder um die Planung einer Folgestudie zu kalibrieren.

Wie berücksichtige ich Drop-outs?

Bei longitudinalen Studien, Interventionen mit unangenehmen Nebenwirkungen oder langen Beobachtungszeiträumen sollten die erwarteten Drop-out-Raten einkalkuliert werden. Die Faustregel: N_rekrutiert = N_benötigt / (1 − Drop-out-Rate). Typische Drop-out-Raten liegen bei RCTs zwischen 10–20 %, bei Kohortenstudien über mehrere Jahre deutlich höher. Plane konservativ: Lieber 25 % mehr rekrutieren als am Ende underpowered zu sein.

Wann brauche ich Bonferroni oder andere Multiplizitätskorrekturen?

Multiple Testungen (mehrere primäre Endpunkte, Subgruppenanalysen, Zeitpunkt-Vergleiche) inflationieren den Alpha-Fehler. Werden k unabhängige Tests mit α = 0,05 durchgeführt, beträgt die familywise error rate ungefähr 1 − (1−0,05)^k — bei 5 Tests also 23 %. Korrekturen wie Bonferroni (konservativ), Holm-Bonferroni oder FDR (Benjamini-Hochberg, liberaler) sind methodisch etabliert. Die Fallzahl muss entsprechend höher kalkuliert werden.

Wie gehe ich mit Cluster- oder Multilevel-Daten um?

Bei Cluster-randomisierten Studien (z. B. Randomisierung nach Klinik statt nach Patient) oder longitudinalen Messungen mit wiederholten Beobachtungen entsteht Intra-Cluster-Korrelation (ICC). Die effektive Fallzahl reduziert sich um den Design-Effekt DE = 1 + (k−1) × ICC, wobei k die durchschnittliche Clustergröße ist. Der Design-Effekt-Modus in unserem Rechner berücksichtigt dies explizit. Für eine fundierte Planung bei solchen Studien empfehlen wir die individuelle Biostatistik-Beratung.

Anwendungsbeispiele aus der klinischen Forschung

Die folgenden Szenarien zeigen, wie eine solide Fallzahlplanung konkrete Forschungsvorhaben strukturiert:

Beispiel 1: Randomisierte Studie zur Blutdrucksenkung

Eine medizinische Doktorarbeit untersucht zwei Antihypertensiva. Aus der Literatur bekannt: Standardpräparat senkt Systolic Blood Pressure um 8 mmHg (SD 12). Minimale klinisch relevante Verbesserung durch das neue Präparat: zusätzliche 5 mmHg. Cohen's d = 5/12 ≈ 0,42 (klein-mittel). Bei α = 0,05 (zweiseitig) und Power = 0,80 benötigt der unabhängige t-Test ca. 90 Patienten pro Gruppe, also 180 insgesamt. Mit 15 % Drop-out-Kalkulation → 212 Rekrutierungen.

Beispiel 2: Fallzahl für eine Chi-Quadrat-Analyse

Eine Bachelorarbeit vergleicht zwei Diagnostikverfahren hinsichtlich der Sensitivität. Erwartete Sensitivitäten: 70 % vs. 85 %. Bei α = 0,05 und Power = 0,80 benötigt der Chi-Quadrat-Test mindestens 131 Patienten pro Gruppe. Bei Vorliegen gepaarter Daten (gleicher Patient, beide Tests) kann ein McNemar-Test die Fallzahl reduzieren — hier empfiehlt sich eine individuelle Beratung.

Beispiel 3: ANOVA mit drei Behandlungsarmen

Eine experimentelle Doktorarbeit vergleicht drei Analgetika-Dosierungen. Cohen's f = 0,25 (mittlerer Effekt). Bei α = 0,05 und Power = 0,80 benötigt die einfaktorielle ANOVA 52 Patienten pro Gruppe, also 156 insgesamt. Bei geplanten paarweisen Post-hoc-Vergleichen (Tukey, Bonferroni) steigt die Fallzahl um weitere ca. 20–30 %.

Beispiel 4: Korrelationsstudie zu Biomarkern

Eine Kohortenstudie untersucht den Zusammenhang zwischen einem Entzündungsmarker und dem Krankheitsverlauf. Erwartete Korrelation r = 0,30 (mittel). Bei α = 0,05 und Power = 0,80 reichen 85 Patienten für eine statistisch belastbare Pearson-Korrelation.

Beispiel 5: Überlebensanalyse

Eine retrospektive Studie vergleicht zwei Tumortherapien anhand der Überlebenszeit. Erwartete Hazard Ratio 0,70, Ereignisrate 60 %. Die Fallzahlplanung für Cox-Regression benötigt einen log-rank Test mit Berücksichtigung der Ereigniszahl. Für solche komplexen Szenarien hilft unsere spezialisierte Biostatistik-Beratung, die auch Propensity-Score-Matching und Mixed Models abdeckt.

Individuelle Fallzahlberatung

Detaillierte Fallzahlplanung für Ethikantrag, Studienprotokoll oder Promotion — inklusive Cluster-Designs, Überlebensanalysen und komplexer Studientypen.

Biostatistik-Beratung →