t-Test: Definition, Voraussetzungen & Anwendung
Der t-Test prüft, ob sich zwei Mittelwerte signifikant unterscheiden. Definition, Voraussetzungen, Varianten (gepaart, ungepaart, Welch), Berechnung in SPSS und R sowie häufige Fehler.
Definition
Der t-Test ist ein parametrischer Hypothesentest, der prüft, ob sich Mittelwerte metrischer Daten signifikant unterscheiden. Er gehört zu den am häufigsten eingesetzten Verfahren in der medizinischen Forschung — etwa beim Vergleich von Blutdruckwerten, Laborparametern oder Schmerzscores zwischen zwei Gruppen oder Messzeitpunkten.
Es gibt drei Hauptvarianten:
- Einstichproben-t-Test — vergleicht einen Stichprobenmittelwert mit einem festen Referenzwert (z.B. Normwert)
- Ungepaarter (unabhängiger) t-Test — vergleicht die Mittelwerte zweier unabhängiger Gruppen (z.B. Verum vs. Placebo)
- Gepaarter (abhängiger) t-Test — vergleicht zwei Messungen an denselben Probanden (z.B. Vor-/Nach-Messung)
Eine Sonderform ist der Welch-Test, der bei ungleichen Varianzen der beiden Gruppen verwendet wird und heute vielerorts als Standard empfohlen wird.
Merke: Der t-Test prüft Mittelwerte, nicht Verteilungen. Bei deutlich nicht-normalverteilten oder ordinalen Daten ist der Mann-Whitney-U-Test (ungepaart) bzw. der Wilcoxon-Vorzeichen-Rang-Test (gepaart) die korrekte Alternative.
Formel
Die allgemeine Form der Teststatistik lautet:
$$t = \frac{\bar{x}_1 - \bar{x}_2}{SE}$$
wobei SE der Standardfehler der Mittelwertdifferenz ist. Konkret:
Ungepaarter t-Test (Student, gleiche Varianzen):
$$t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$$
mit gepoolter Standardabweichung $s_p$ und Freiheitsgraden $df = n_1 + n_2 - 2$.
Welch-Test (ungleiche Varianzen):
$$t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$$
mit korrigierten Freiheitsgraden nach der Welch-Satterthwaite-Gleichung.
Gepaarter t-Test:
$$t = \frac{\bar{d}}{s_d / \sqrt{n}}$$
mit $\bar{d}$ = mittlere Differenz der Messwertpaare, $s_d$ = Standardabweichung der Differenzen, $df = n - 1$.
Aus der t-Verteilung mit den jeweiligen Freiheitsgraden wird der zugehörige p-Wert berechnet.
Voraussetzungen
Damit der t-Test valide Ergebnisse liefert, sollten folgende Bedingungen erfüllt sein:
- Metrisches Skalenniveau — die abhängige Variable ist intervall- oder verhältnisskaliert
- Annähernde Normalverteilung in beiden Gruppen — bei n > 30 pro Gruppe greift der zentrale Grenzwertsatz, der t-Test ist dann robust
- Unabhängigkeit der Beobachtungen (außer beim gepaarten t-Test, wo gerade die Paarung Voraussetzung ist)
- Varianzhomogenität beim klassischen Student-t-Test (geprüft mit Levene-Test). Bei Verletzung: Welch-Korrektur verwenden
- Keine extremen Ausreißer — diese können den Mittelwert stark verzerren
Praxis-Tipp: In der modernen Statistik-Praxis wird empfohlen, standardmäßig den Welch-Test zu verwenden — er funktioniert sowohl bei gleichen als auch bei ungleichen Varianzen und vermeidet die fehleranfällige Vortest-Logik mit Levene. R nutzt Welch in
t.test()per Default.
Eine ausführliche Übersicht zu Testvoraussetzungen findest du im Leitfaden zur Statistik in der Doktorarbeit.
Interpretation
Der t-Test liefert drei zentrale Werte:
| Wert | Bedeutung |
|---|---|
| t-Wert | standardisierte Mittelwertdifferenz; je größer der Betrag, desto stärker das Signal |
| df (Freiheitsgrade) | abhängig von Stichprobengröße und Testvariante |
| p-Wert | Wahrscheinlichkeit, das beobachtete (oder extremeres) Ergebnis unter H₀ zu sehen |
Klassische Entscheidungsregel: p < 0,05 → H₀ ablehnen, also signifikanter Mittelwertunterschied. Zusätzlich sollten immer das 95%-Konfidenzintervall der Mittelwertdifferenz und die Effektstärke (Cohens d) angegeben werden — sonst bleibt die klinische Relevanz unklar.
Merke: Statistische Signifikanz ≠ klinische Relevanz. Bei n = 5.000 wird auch eine Differenz von 0,5 mmHg im Blutdruck signifikant — klinisch ist das aber bedeutungslos.
Klinisches Anwendungsbeispiel
Studie: Wirkt eine neue lokale Anästhesielösung schneller als das Standardpräparat? Gemessen wird die Zeit bis zum Wirkungseintritt (in Sekunden) bei n = 60 Patienten in der Endodontie, randomisiert in zwei Gruppen.
- Gruppe A (neu): M = 142 s, SD = 28, n = 30
- Gruppe B (Standard): M = 168 s, SD = 32, n = 30
- Mittelwertdifferenz: −26 s zugunsten Gruppe A
- t(58) = −3,35; p = 0,0014; 95%-KI: [−41,5; −10,5]; Cohens d = 0,87
Interpretation: Die neue Anästhesielösung wirkt im Mittel rund 26 Sekunden schneller. Das Ergebnis ist hochsignifikant (p < 0,01), das Konfidenzintervall enthält die Null nicht, und die Effektstärke (Cohens d = 0,87) entspricht einem großen Effekt — auch klinisch relevant. Die H₀ "kein Unterschied" wird abgelehnt.
In SPSS berechnen
Ungepaarter t-Test:
Analysieren → Mittelwerte vergleichen → t-Test bei unabhängigen Stichproben
Im Output erscheinen zwei Zeilen:
- "Varianzen sind gleich" — entspricht dem klassischen Student-t-Test
- "Varianzen sind nicht gleich" — entspricht dem Welch-Test
Welche Zeile interpretiert wird, entscheidet der Levene-Test (in derselben Tabelle): p > 0,05 → obere Zeile (Student), p ≤ 0,05 → untere Zeile (Welch).
Gepaarter t-Test:
Analysieren → Mittelwerte vergleichen → t-Test bei gepaarten Stichproben
Einstichproben-t-Test:
Analysieren → Mittelwerte vergleichen → t-Test bei einer Stichprobe
Die ausgegebene "Sig. (zweiseitig)" ist der p-Wert. Eine ausführliche SPSS-Anleitung mit weiteren Tests findest du im Begleit-Tutorial.
In R berechnen
# Ungepaarter t-Test (Welch per Default)
t.test(zeit ~ gruppe, data = df)
# Klassischer Student-t-Test (gleiche Varianzen)
t.test(zeit ~ gruppe, data = df, var.equal = TRUE)
# Gepaarter t-Test
t.test(df$vorher, df$nachher, paired = TRUE)
# Einstichproben-t-Test (Vergleich gegen Referenzwert 120)
t.test(df$systol_blutdruck, mu = 120)
# Beispiel-Output
# Welch Two Sample t-test
# t = -3.35, df = 56.4, p-value = 0.0014
# 95 percent confidence interval: -41.5 to -10.5
# mean in group A: 142, mean in group B: 168
Für die Effektstärke ergänzend:
library(effsize)
cohen.d(zeit ~ gruppe, data = df)
# Cohen's d estimate: 0.87 (large)
Mehr in unserer Übersicht zur R-Statistik-Auswertung.
Häufige Fehler
Fehler 1: t-Test bei deutlich nicht-normalverteilten Daten
Bei kleinen Stichproben (n < 30 pro Gruppe) und sichtbar schiefer Verteilung wird der t-Test unzuverlässig. Korrekte Alternative: Mann-Whitney-U-Test. Mehr dazu im Beitrag zum Wilcoxon-Mann-Whitney-Test.
Fehler 2: Gepaarte Daten ungepaart auswerten
Vor-/Nach-Messungen am selben Patienten sind abhängig. Wer hier den ungepaarten t-Test rechnet, verliert massiv Power und produziert falsche Konfidenzintervalle. Immer prüfen: gehören die Werte in zwei Spalten zum selben Probanden?
Fehler 3: Multiple t-Tests statt ANOVA
Bei drei oder mehr Gruppen werden gerne paarweise t-Tests gerechnet — das erhöht die Falsch-Positiv-Rate. Korrekt: erst ANOVA, dann post-hoc-Tests mit Korrektur (z.B. Tukey HSD, Bonferroni).
Fehler 4: Nur p-Wert, keine Effektstärke
Ein signifikanter t-Test ohne Cohens d und Konfidenzintervall ist publikationstechnisch unvollständig. Reviewer fordern beides standardmäßig ein.
Fehler 5: Levene-Test als verbindliches Kriterium
Die "Vortest-dann-entscheide"-Logik (erst Levene, dann Student vs. Welch) ist statistisch suboptimal. Empfehlung: standardmäßig Welch-Test verwenden — er ist konservativer und korrekt, egal ob die Varianzen gleich sind oder nicht.
Fehler 6: Einseitiger Test ohne Vorab-Begründung
Einseitige t-Tests halbieren den p-Wert — sie sind aber nur zulässig, wenn die Richtung des Effekts vor Datenerhebung begründet feststeht. Im Zweifel zweiseitig testen.
Verwandte Konzepte
- p-Wert — die zentrale Entscheidungsgröße des Tests
- Mann-Whitney-U-Test — nicht-parametrische Alternative bei nicht-normalverteilten oder ordinalen Daten
- ANOVA — Verallgemeinerung des t-Tests auf drei oder mehr Gruppen
- Normalverteilung — zentrale Voraussetzung des t-Tests
- Cohens d — die Standard-Effektstärke beim t-Test
- Konfidenzintervall — informativer als der p-Wert allein
- Power-Analyse — zur Fallzahlplanung vor der Studie
Häufige Fragen
- „Wann nutze ich den t-Test und wann den Mann-Whitney-U-Test?" → Den t-Test bei metrischen, annähernd normalverteilten Daten und ausreichender Stichprobengröße (n > 30 pro Gruppe macht ihn robust gegen leichte Verteilungsabweichungen). Den Mann-Whitney-U-Test bei ordinalen Daten, kleinen Stichproben mit deutlich schiefen Verteilungen oder bei extremen Ausreißern.
- „Was ist der Unterschied zwischen Student-t-Test und Welch-Test?" → Der Student-t-Test setzt gleiche Varianzen in beiden Gruppen voraus, der Welch-Test nicht. Der Welch-Test korrigiert die Freiheitsgrade nach Welch-Satterthwaite und ist auch bei ungleichen Varianzen valide. Moderne Empfehlung: standardmäßig Welch verwenden — er ist in R die Default-Einstellung von
t.test(). - „Wie viele Probanden brauche ich für einen t-Test?" → Das hängt vom erwarteten Effekt ab. Für einen mittleren Effekt (Cohens d = 0,5) bei α = 0,05 und Power = 0,80 sind etwa 64 Probanden pro Gruppe nötig. Für kleine Effekte (d = 0,2) bereits 394 pro Gruppe. Eine vorherige Power-Analyse mit G*Power oder dem R-Paket
pwrist Pflicht. - „Warum zeigt SPSS zwei Zeilen beim t-Test?" → SPSS gibt sowohl den klassischen Student-t-Test (Zeile "Varianzen sind gleich") als auch den Welch-Test (Zeile "Varianzen sind nicht gleich") aus. Welche Zeile interpretiert wird, hängt vom Levene-Test ab — oder du verwendest pragmatisch immer die Welch-Zeile, da sie konservativer ist.
- „Kann ich den t-Test bei ordinalen Likert-Skalen anwenden?" → Strittig. Streng genommen sind Likert-Items ordinal — dann ist der Mann-Whitney-U-Test korrekt. In der Praxis wird der t-Test bei Summenscores aus mehreren Items (z.B. 5-Item-Skala) und n > 30 oft toleriert. Bei einzelnen Likert-Items mit < 5 Stufen besser nicht-parametrisch testen.
- „Was bedeutet ein negativer t-Wert?" → Das Vorzeichen ergibt sich aus der Reihenfolge der Subtraktion (Gruppe 1 minus Gruppe 2). Ein negativer t-Wert bedeutet nur, dass der Mittelwert der ersten Gruppe kleiner ist. Für den p-Wert beim zweiseitigen Test wird ohnehin der Betrag verwendet — das Vorzeichen hat keinen Einfluss auf die Signifikanz, nur auf die Richtung des Effekts.
- „Muss ich vorher einen Test auf Normalverteilung durchführen?" → Bei n > 30 pro Gruppe ist der t-Test dank zentralem Grenzwertsatz robust — formale Normalverteilungstests (Shapiro-Wilk, Kolmogorov-Smirnov) reagieren bei großen Stichproben übersensibel und bei kleinen unsensibel. Empfohlen: visuelle Prüfung mit Histogramm und Q-Q-Plot, bei klarer Schiefe oder schweren Tails auf nicht-parametrische Tests umsteigen.
- „Was ist der Unterschied zwischen einseitigem und zweiseitigem t-Test?" → Beim zweiseitigen Test wird ein Effekt in beide Richtungen geprüft (Standard in der Medizin). Beim einseitigen Test nur in eine vorab spezifizierte Richtung — der p-Wert halbiert sich. Einseitige Tests sind nur zulässig, wenn die Richtung des Effekts vor Datenerhebung begründet feststeht. Im Zweifel zweiseitig testen.
- „Wie berichte ich einen t-Test in der Publikation korrekt?" → Standardformat: "Die mittlere Wirkzeit war in Gruppe A signifikant kürzer als in Gruppe B (M_A = 142 s, SD = 28; M_B = 168 s, SD = 32; t(58) = −3,35; p = 0,001; 95%-KI: [−41,5; −10,5]; Cohens d = 0,87)." Wichtig sind: Mittelwerte und SD beider Gruppen, t-Wert mit Freiheitsgraden, p-Wert, Konfidenzintervall der Differenz und Effektstärke.
- „Was tun, wenn die Voraussetzungen verletzt sind?" → Bei Verletzung der Normalverteilung: Mann-Whitney-U-Test (ungepaart) oder Wilcoxon-Vorzeichen-Rang-Test (gepaart). Bei Varianzheterogenität: Welch-Korrektur. Bei extremen Ausreißern: Robustheits-Analyse mit und ohne Ausreißer berichten oder auf nicht-parametrische Verfahren umsteigen. Datenmanipulation (Ausreißer entfernen ohne Begründung) ist unzulässig.