Statistik Doktorarbeit: Welcher Test wann? 2026
Die wichtigsten statistischen Tests für medizinische Doktorarbeiten erklärt: t-Test, Chi-Quadrat, Mann-Whitney-U, Regression und mehr. Mit Entscheidungsbaum und Praxisbeispielen.
Statistik ist für viele Medizinstudierende das größte Hindernis auf dem Weg zur Promotion. Nicht weil die Daten schlecht sind — sondern weil die Wahl des richtigen Tests, die Interpretation der Ergebnisse und die korrekte Darstellung in der Dissertation Fähigkeiten erfordern, die im Medizinstudium kaum vermittelt werden.
Dieser Leitfaden gibt dir einen praxisorientierten Überblick über die häufigsten statistischen Tests in medizinischen Doktorarbeiten — mit klaren Entscheidungshilfen.
Grundbegriffe, die du kennen musst
Bevor wir zu den einzelnen Tests kommen, solltest du diese Begriffe sicher beherrschen:
Skalenniveau: Nominal (z.B. Geschlecht: männlich/weiblich), ordinal (z.B. Schmerzskala: leicht/mittel/stark), metrisch-intervall (z.B. Temperatur in °C), metrisch-ratio (z.B. Alter, Gewicht). Das Skalenniveau deiner Variablen bestimmt, welche Tests du verwenden darfst.
Normalverteilung: Viele parametrische Tests (t-Test, ANOVA) setzen voraus, dass deine Daten annähernd normalverteilt sind. Teste das mit dem Shapiro-Wilk-Test (bei n < 50) oder dem Kolmogorov-Smirnov-Test (bei n ≥ 50).
p-Wert: Die Wahrscheinlichkeit, das beobachtete Ergebnis (oder ein extremeres) zu erhalten, wenn die Nullhypothese wahr ist. Konvention: p < 0,05 = statistisch signifikant. Aber Achtung: statistisch signifikant ≠ klinisch relevant.
Effektstärke: Gibt an, wie groß ein Unterschied oder Zusammenhang tatsächlich ist. Cohen's d, Odds Ratio oder r sind gängige Maße. Immer angeben — nicht nur den p-Wert.
Konfidenzintervall: Der Bereich, in dem der wahre Wert mit 95% Wahrscheinlichkeit liegt. Informativer als der p-Wert allein.
Der Entscheidungsbaum: Welcher Test wann?
Zwei Gruppen vergleichen
Metrische Daten, normalverteilt: Unabhängige Gruppen → Ungepaarter t-Test (z.B. Blutdruck Therapiegruppe vs. Kontrollgruppe). Abhängige Gruppen → Gepaarter t-Test (z.B. Blutdruck vor und nach Therapie beim selben Patienten).
Metrische Daten, nicht normalverteilt: Unabhängige Gruppen → Mann-Whitney-U-Test (der nicht-parametrische Bruder des ungepaarten t-Tests). Abhängige Gruppen → Wilcoxon-Vorzeichen-Rang-Test (der nicht-parametrische Bruder des gepaarten t-Tests).
Kategoriale Daten (Häufigkeiten): → Chi-Quadrat-Test (z.B. Raucheranteil in Therapie- vs. Kontrollgruppe). Bei erwarteten Häufigkeiten < 5 → Fishers exakter Test.
Mehr als zwei Gruppen vergleichen
Metrische Daten, normalverteilt: → ANOVA (Varianzanalyse). Bei signifikantem Ergebnis: Post-hoc-Tests (z.B. Tukey, Bonferroni) für paarweise Vergleiche.
Metrische Daten, nicht normalverteilt: → Kruskal-Wallis-Test. Post-hoc: Dunn-Test mit Bonferroni-Korrektur.
Zusammenhänge untersuchen
Zwei metrische Variablen: Normalverteilt → Pearson-Korrelation (r). Nicht normalverteilt → Spearman-Rangkorrelation (ρ).
Einfluss mehrerer Variablen auf eine Zielvariable: Metrische Zielvariable → Lineare Regression. Binäre Zielvariable (ja/nein) → Logistische Regression. Überlebenszeit → Cox-Regression.
Überlebensanalysen
Kaplan-Meier-Kurven für die grafische Darstellung von Überlebenswahrscheinlichkeiten. Log-Rank-Test für den Vergleich zweier Überlebenskurven. Cox-Regression für die Analyse mehrerer Einflussfaktoren auf die Überlebenszeit.
Die 5 häufigsten Statistik-Fehler in Doktorarbeiten
Fehler 1: Den falschen Test verwenden. Ein t-Test bei nicht-normalverteilten Daten ist ein methodischer Fehler, der von Gutachtern sofort erkannt wird. Prüfe immer zuerst die Voraussetzungen.
Fehler 2: Multiples Testen ohne Korrektur. Wer 20 Variablen gleichzeitig testet, findet bei p < 0,05 im Schnitt ein signifikantes Ergebnis — rein zufällig. Lösung: Bonferroni-Korrektur oder andere Adjustierungsmethoden.
Fehler 3: p-Wert ohne Effektstärke. Ein p-Wert von 0,001 klingt beeindruckend — kann aber bei einer Stichprobe von n = 10.000 einen klinisch irrelevanten Unterschied beschreiben. Effektstärke und Konfidenzintervall immer mitberichten.
Fehler 4: Keine Power-Analyse vor Studienbeginn. Wie viele Patienten brauchst du, um einen klinisch relevanten Unterschied zu finden? Das berechnet die a-priori Power-Analyse — vor der Datenerhebung, nicht danach. Tools: G*Power (kostenlos), nQuery.
Fehler 5: Daten "schön rechnen". Ausreißer entfernen ohne Begründung, Post-hoc-Hypothesen als a-priori darstellen, oder p-Hacking (so lange verschiedene Tests probieren, bis einer signifikant wird). Das ist nicht nur schlechte Wissenschaft — es kann die Promotion kosten.
Software-Empfehlungen
SPSS: Der Klassiker an medizinischen Fakultäten. Menügesteuert, intuitive Oberfläche. Für die meisten Doktorarbeiten ausreichend. Nachteil: Lizenzkosten (oft über die Uni verfügbar).
R / RStudio: Kostenlos, extrem leistungsfähig, Goldstandard in der Biostatistik. Steile Lernkurve, aber es gibt exzellente Online-Ressourcen. Vorteil: reproduzierbare Analysen.
GraphPad Prism: Besonders beliebt für experimentelle Arbeiten. Exzellente Grafiken, einfache Bedienung. Für komplexere Analysen (Regression, Multilevel-Modelle) limitiert.
G*Power: Kostenlos. Nur für Power-Analysen — aber dafür der Goldstandard.
jamovi: Kostenlose SPSS-Alternative mit grafischer Oberfläche. Basiert auf R, aber ohne Programmierung.
Wann du dir Hilfe holen solltest
Statistik-Beratung ist kein Zeichen von Schwäche — sondern von methodischem Bewusstsein. Gute Anlaufstellen sind das Institut für Biometrie deiner Fakultät (viele bieten kostenlose Beratung für Doktoranden an), die statistischen Beratungsstellen der Uni, und spezialisierte Dienstleister für biostatistische Auswertungen.
Merke: Die statistische Planung gehört an den Anfang deiner Studie, nicht ans Ende. Wer die Auswertung erst plant, wenn die Daten erhoben sind, hat oft die falschen Variablen gemessen.
Häufige Fragen
- „Welches Signifikanzniveau soll ich verwenden?" → In der Medizin ist p < 0,05 Standard. Bei multiplem Testen solltest du adjustieren (z.B. Bonferroni).
- „Reichen 30 Patienten für eine Doktorarbeit?" → Das hängt von der Effektstärke ab. Mache immer eine Power-Analyse. Für viele klinische Fragestellungen brauchst du eher 50–100 Patienten.
- „Muss ich R lernen, oder reicht SPSS?" → Für die meisten Doktorarbeiten reicht SPSS. R ist perspektivisch wertvoller, aber die Lernkurve lohnt sich nur, wenn du langfristig forschen willst.
- „Wer hilft mir bei der Statistik?" → Biometrie-Institut, statistische Beratungsstelle der Uni, oder professionelle Biostatistik-Services.
Zusammenfassung
Die Wahl des richtigen statistischen Tests ist kein Hexenwerk — aber sie erfordert systematisches Vorgehen. Prüfe zuerst Skalenniveau und Normalverteilung, dann wähle den passenden Test. Berichte immer Effektstärke und Konfidenzintervall, nicht nur den p-Wert. Und plane die Statistik vor der Datenerhebung, nicht danach.
Statistik überfordert dich? Unsere Promotionsbegleitung bietet professionelle Unterstützung bei der statistischen Auswertung deiner Doktorarbeit.
🔬 Teste dein Wissen zu diesem Thema
MC-Fragen nach IMPP-Katalog mit Erklärungen zu jeder Antwortoption. Von Fachärzten geprüft.
14 Tage kostenlos testen Keine Kreditkarte erforderlich