Was ist eine Power-Analyse?

Eine Power-Analyse bestimmt die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt statistisch nachzuweisen. Konventionell wird eine Power von 0.80 oder 0.90 angestrebt.

Was ist eine Fallzahlplanung?

Die Fallzahlplanung berechnet die minimale Stichprobengröße, die benötigt wird, um einen erwarteten Effekt mit vorgegebener Power und Signifikanzniveau nachzuweisen.

Cohens d ist ein standardisiertes Effektstärkemaß. Nach Cohen (1988) gilt d=0.2 als kleiner, d=0.5 als mittlerer und d=0.8 als großer Effekt.

📐 Biostatistik-Tool

Fallzahlrechner &
Power-Analyse

Name: SCIORA Fallzahlrechner / Power-Analyse
Rating: 4.8 (47 reviews)
Author: SCIORA

A-priori Fallzahlplanung und Post-hoc Power-Analyse für klinische Studien und Forschungsprojekte. Basierend auf exakten nicht-zentralen Verteilungen.

Power-Analyse / Sample Size Calculator

Exakte Berechnung mit nicht-zentralen t-, F- und χ²-Verteilungen

Analyse-Typ

Statistischer Test

Testrichtung

Signifikanzniveau α

Gewünschte Power (1−β)

Power-Kurve

Power (1−β) vs. Stichprobengröße (N)

Hinweis: Die Fallzahlplanung ist ein wesentlicher Bestandteil jedes Studienprotokolls. Für individuelle Beratung steht unsere Biostatistik-Beratung zur Verfügung.

Methodik & Berechnungsgrundlage

Grundlagen der Power-Analyse

Die Power-Analyse bestimmt das Zusammenspiel von vier Größen:

Stichprobengröße (N) — Anzahl der Beobachtungen
Effektstärke (ES) — Größe des zu detektierenden Effekts
Signifikanzniveau (α) — Wahrscheinlichkeit eines Typ-I-Fehlers
Power (1−β) — Wahrscheinlichkeit, einen vorhandenen Effekt zu erkennen

Die a-priori Analyse bestimmt die benötigte Fallzahl. Die post-hoc Analyse bestimmt die erreichte Power bei gegebener Fallzahl.

Statistische Verteilungen

Die Power-Berechnung basiert auf nicht-zentralen Verteilungen via Poisson-Mischung zentraler Verteilungen.

Power = 1 − F_nc(kritischer Wert; df, NCP)

Implementierte Tests

Test	Effektstärke	NCP-Formel
Unabhängiger t-Test	Cohen's d	`λ = d × √(n₁n₂/(n₁+n₂))`
Gepaarter t-Test	Cohen's d_z	`λ = d × √n`
Ein-Stichproben t-Test	Cohen's d	`λ = d × √n`
ANOVA (F-Test)	Cohen's f	`λ = n × k × f²`
Chi-Quadrat	Cohen's w	`λ = N × w²`
Korrelation	Pearson r	Fisher-z-Transformation
Zwei Proportionen	\|p₁ − p₂\|	Normalapproximation
Multiple Regression	Cohen's f²	`λ = N × f²`

Effektstärken-Konventionen (Cohen, 1988)

Effektstärke	Klein	Mittel	Groß	Einsatz
Cohen's d	0.20	0.50	0.80	t-Tests
Cohen's f	0.10	0.25	0.40	ANOVA
Cohen's w	0.10	0.30	0.50	Chi²
Pearson r	0.10	0.30	0.50	Korrelation
Cohen's f²	0.02	0.15	0.35	Regression

Wichtig: Die Konventionen dienen der Orientierung. Die erwartete Effektstärke sollte aus Pilotstudien oder Metaanalysen abgeleitet werden.

Umrechnung zwischen Effektstärken

f = d / 2 (für 2 Gruppen) | f² = R² / (1 − R²) | d = 2r / √(1 − r²)

Zitation & Referenzen

📋 Empfohlene Zitation

SCIORA. Sample Size Calculator and Power Analysis Tool [Internet]. 2026. Available from: https://sciora.me/tools/fallzahlrechner. Based on exact noncentral distributions (Cohen, 1988; Faul et al., 2007).

📚 Methodische Referenzen

Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2nd ed. Hillsdale, NJ: Lawrence Erlbaum; 1988.
Faul F, Erdfelder E, Lang AG, Buchner A. G*Power 3. Behavior Research Methods. 2007;39(2):175–191.
Faul F, Erdfelder E, Buchner A, Lang AG. G*Power 3.1. Behavior Research Methods. 2009;41(4):1149–1160.

Häufige Fragen zur Fallzahlberechnung

Warum ist eine Fallzahlberechnung wichtig?

Eine korrekte Fallzahlberechnung ist aus drei Gründen essenziell: Erstens aus wissenschaftlicher Sicht, weil eine zu kleine Stichprobe reale Effekte übersieht (Typ-II-Fehler) und eine zu große Stichprobe zeitlich wie ethisch nicht vertretbar ist. Zweitens aus ethischer Sicht, weil nur eine angemessen gepowerte Studie die Belastung der Studienteilnehmer rechtfertigt — die Deklaration von Helsinki verpflichtet Forscher ausdrücklich zur statistisch korrekten Planung. Drittens aus regulatorischer Sicht, weil Ethikkommissionen, die MDR (Medizinproduktverordnung), die FDA und Peer-Review-Journals eine transparente a-priori Power-Analyse als Teil des Studienprotokolls voraussetzen.

Wann reicht Power = 0,80 und wann sollte man höher ansetzen?

Die konventionelle Power von 80 % ist bei konfirmatorischen Studien und Nachbeobachtungen der Standard, sie bedeutet dass ein real vorhandener Effekt in 80 % der Fälle detektiert wird. Bei Zulassungsstudien (Phase III), Überlegenheitsstudien für die Markteinführung eines Medizinprodukts oder Forschungsprojekten mit geringer Wiederholbarkeit (z. B. seltene Erkrankungen) sollte die Power auf 90 % oder 95 % angehoben werden. Für explorative Pilotstudien sind auch 70 % akzeptabel, sofern das kommuniziert wird.

Wie wähle ich die richtige Effektstärke?

Die Effektstärke sollte primär aus Vorstudien, Pilotdaten oder Metaanalysen abgeleitet werden. Fehlen solche Daten, sind Cohen's Konventionen (klein/mittel/groß) eine konservative Orientierung. Wichtig: Bei unklarer Datenlage ist die Angabe der minimalen klinisch relevanten Differenz (MCID) methodisch überlegen — etwa eine Blutdrucksenkung von mindestens 5 mmHg, eine Schmerzreduktion um 2 Punkte auf der VAS-Skala, oder eine Gewichtsreduktion von mindestens 5 %. Je kleiner die erwartete Effektstärke, desto größer die benötigte Fallzahl.

Was passiert bei zu kleiner Fallzahl?

Eine zu kleine Fallzahl führt zu underpowerten Studien: Auch wenn ein realer Unterschied existiert, wird er statistisch nicht signifikant. Das Resultat ist entweder ein falsch-negativer Befund ("kein Effekt gefunden") oder im Fall von Zufallstreffern eine stark überschätzte Effektstärke (winner's curse und Type-M error). Beides verschwendet Ressourcen und verzerrt die Literatur. Eine a-priori Power-Analyse verhindert diese Fehler.

Was ist der Unterschied zwischen a-priori und post-hoc Power?

Die a-priori Power-Analyse berechnet die benötigte Fallzahl vor Studienbeginn — das ist die methodisch korrekte Anwendung. Die post-hoc Power berechnet die erreichte Power nach Abschluss einer Studie bei gegebener Fallzahl. Post-hoc Power ist in der Fachliteratur umstritten, weil sie bei einem nicht-signifikanten Ergebnis immer automatisch niedrig ist (tautologischer Zusammenhang mit dem p-Wert). Sinnvoll ist sie nur, um retrospektiv die Detektionsfähigkeit einer Studie einzuschätzen oder um die Planung einer Folgestudie zu kalibrieren.

Wie berücksichtige ich Drop-outs?

Bei longitudinalen Studien, Interventionen mit unangenehmen Nebenwirkungen oder langen Beobachtungszeiträumen sollten die erwarteten Drop-out-Raten einkalkuliert werden. Die Faustregel: N_rekrutiert = N_benötigt / (1 − Drop-out-Rate). Typische Drop-out-Raten liegen bei RCTs zwischen 10–20 %, bei Kohortenstudien über mehrere Jahre deutlich höher. Plane konservativ: Lieber 25 % mehr rekrutieren als am Ende underpowered zu sein.

Wann brauche ich Bonferroni oder andere Multiplizitätskorrekturen?

Multiple Testungen (mehrere primäre Endpunkte, Subgruppenanalysen, Zeitpunkt-Vergleiche) inflationieren den Alpha-Fehler. Werden k unabhängige Tests mit α = 0,05 durchgeführt, beträgt die familywise error rate ungefähr 1 − (1−0,05)^k — bei 5 Tests also 23 %. Korrekturen wie Bonferroni (konservativ), Holm-Bonferroni oder FDR (Benjamini-Hochberg, liberaler) sind methodisch etabliert. Die Fallzahl muss entsprechend höher kalkuliert werden.

Wie gehe ich mit Cluster- oder Multilevel-Daten um?

Bei Cluster-randomisierten Studien (z. B. Randomisierung nach Klinik statt nach Patient) oder longitudinalen Messungen mit wiederholten Beobachtungen entsteht Intra-Cluster-Korrelation (ICC). Die effektive Fallzahl reduziert sich um den Design-Effekt DE = 1 + (k−1) × ICC, wobei k die durchschnittliche Clustergröße ist. Der Design-Effekt-Modus in unserem Rechner berücksichtigt dies explizit. Für eine fundierte Planung bei solchen Studien empfehlen wir die individuelle Biostatistik-Beratung.

Anwendungsbeispiele aus der klinischen Forschung

Die folgenden Szenarien zeigen, wie eine solide Fallzahlplanung konkrete Forschungsvorhaben strukturiert:

Beispiel 1: Randomisierte Studie zur Blutdrucksenkung

Eine medizinische Doktorarbeit untersucht zwei Antihypertensiva. Aus der Literatur bekannt: Standardpräparat senkt Systolic Blood Pressure um 8 mmHg (SD 12). Minimale klinisch relevante Verbesserung durch das neue Präparat: zusätzliche 5 mmHg. Cohen's d = 5/12 ≈ 0,42 (klein-mittel). Bei α = 0,05 (zweiseitig) und Power = 0,80 benötigt der unabhängige t-Test ca. 90 Patienten pro Gruppe, also 180 insgesamt. Mit 15 % Drop-out-Kalkulation → 212 Rekrutierungen.

Beispiel 2: Fallzahl für eine Chi-Quadrat-Analyse

Eine Bachelorarbeit vergleicht zwei Diagnostikverfahren hinsichtlich der Sensitivität. Erwartete Sensitivitäten: 70 % vs. 85 %. Bei α = 0,05 und Power = 0,80 benötigt der Chi-Quadrat-Test mindestens 131 Patienten pro Gruppe. Bei Vorliegen gepaarter Daten (gleicher Patient, beide Tests) kann ein McNemar-Test die Fallzahl reduzieren — hier empfiehlt sich eine individuelle Beratung.

Beispiel 3: ANOVA mit drei Behandlungsarmen

Eine experimentelle Doktorarbeit vergleicht drei Analgetika-Dosierungen. Cohen's f = 0,25 (mittlerer Effekt). Bei α = 0,05 und Power = 0,80 benötigt die einfaktorielle ANOVA 52 Patienten pro Gruppe, also 156 insgesamt. Bei geplanten paarweisen Post-hoc-Vergleichen (Tukey, Bonferroni) steigt die Fallzahl um weitere ca. 20–30 %.

Beispiel 4: Korrelationsstudie zu Biomarkern

Eine Kohortenstudie untersucht den Zusammenhang zwischen einem Entzündungsmarker und dem Krankheitsverlauf. Erwartete Korrelation r = 0,30 (mittel). Bei α = 0,05 und Power = 0,80 reichen 85 Patienten für eine statistisch belastbare Pearson-Korrelation.

Beispiel 5: Überlebensanalyse

Eine retrospektive Studie vergleicht zwei Tumortherapien anhand der Überlebenszeit. Erwartete Hazard Ratio 0,70, Ereignisrate 60 %. Die Fallzahlplanung für Cox-Regression benötigt einen log-rank Test mit Berücksichtigung der Ereigniszahl. Für solche komplexen Szenarien hilft unsere spezialisierte Biostatistik-Beratung, die auch Propensity-Score-Matching und Mixed Models abdeckt.

Individuelle Fallzahlberatung

Detaillierte Fallzahlplanung für Ethikantrag, Studienprotokoll oder Promotion — inklusive Cluster-Designs, Überlebensanalysen und komplexer Studientypen.

Biostatistik-Beratung →

Fallzahlrechner &Power-Analyse