t-Test: Definition, Voraussetzungen & Anwendung

Der t-Test prüft, ob sich zwei Mittelwerte signifikant unterscheiden. Definition, Voraussetzungen, Varianten (gepaart, ungepaart, Welch), Berechnung in SPSS und R sowie häufige Fehler.

Definition

Der t-Test ist ein parametrischer Hypothesentest, der prüft, ob sich Mittelwerte metrischer Daten signifikant unterscheiden. Er gehört zu den am häufigsten eingesetzten Verfahren in der medizinischen Forschung — etwa beim Vergleich von Blutdruckwerten, Laborparametern oder Schmerzscores zwischen zwei Gruppen oder Messzeitpunkten.

Es gibt drei Hauptvarianten:

  • Einstichproben-t-Test — vergleicht einen Stichprobenmittelwert mit einem festen Referenzwert (z.B. Normwert)
  • Ungepaarter (unabhängiger) t-Test — vergleicht die Mittelwerte zweier unabhängiger Gruppen (z.B. Verum vs. Placebo)
  • Gepaarter (abhängiger) t-Test — vergleicht zwei Messungen an denselben Probanden (z.B. Vor-/Nach-Messung)

Eine Sonderform ist der Welch-Test, der bei ungleichen Varianzen der beiden Gruppen verwendet wird und heute vielerorts als Standard empfohlen wird.

Merke: Der t-Test prüft Mittelwerte, nicht Verteilungen. Bei deutlich nicht-normalverteilten oder ordinalen Daten ist der Mann-Whitney-U-Test (ungepaart) bzw. der Wilcoxon-Vorzeichen-Rang-Test (gepaart) die korrekte Alternative.

Formel

Die allgemeine Form der Teststatistik lautet:

$$t = \frac{\bar{x}_1 - \bar{x}_2}{SE}$$

wobei SE der Standardfehler der Mittelwertdifferenz ist. Konkret:

Ungepaarter t-Test (Student, gleiche Varianzen):

$$t = \frac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$$

mit gepoolter Standardabweichung $s_p$ und Freiheitsgraden $df = n_1 + n_2 - 2$.

Welch-Test (ungleiche Varianzen):

$$t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$$

mit korrigierten Freiheitsgraden nach der Welch-Satterthwaite-Gleichung.

Gepaarter t-Test:

$$t = \frac{\bar{d}}{s_d / \sqrt{n}}$$

mit $\bar{d}$ = mittlere Differenz der Messwertpaare, $s_d$ = Standardabweichung der Differenzen, $df = n - 1$.

Aus der t-Verteilung mit den jeweiligen Freiheitsgraden wird der zugehörige p-Wert berechnet.

Voraussetzungen

Damit der t-Test valide Ergebnisse liefert, sollten folgende Bedingungen erfüllt sein:

  • Metrisches Skalenniveau — die abhängige Variable ist intervall- oder verhältnisskaliert
  • Annähernde Normalverteilung in beiden Gruppen — bei n > 30 pro Gruppe greift der zentrale Grenzwertsatz, der t-Test ist dann robust
  • Unabhängigkeit der Beobachtungen (außer beim gepaarten t-Test, wo gerade die Paarung Voraussetzung ist)
  • Varianzhomogenität beim klassischen Student-t-Test (geprüft mit Levene-Test). Bei Verletzung: Welch-Korrektur verwenden
  • Keine extremen Ausreißer — diese können den Mittelwert stark verzerren

Praxis-Tipp: In der modernen Statistik-Praxis wird empfohlen, standardmäßig den Welch-Test zu verwenden — er funktioniert sowohl bei gleichen als auch bei ungleichen Varianzen und vermeidet die fehleranfällige Vortest-Logik mit Levene. R nutzt Welch in t.test() per Default.

Eine ausführliche Übersicht zu Testvoraussetzungen findest du im Leitfaden zur Statistik in der Doktorarbeit.

Interpretation

Der t-Test liefert drei zentrale Werte:

Wert Bedeutung
t-Wert standardisierte Mittelwertdifferenz; je größer der Betrag, desto stärker das Signal
df (Freiheitsgrade) abhängig von Stichprobengröße und Testvariante
p-Wert Wahrscheinlichkeit, das beobachtete (oder extremeres) Ergebnis unter H₀ zu sehen

Klassische Entscheidungsregel: p < 0,05 → H₀ ablehnen, also signifikanter Mittelwertunterschied. Zusätzlich sollten immer das 95%-Konfidenzintervall der Mittelwertdifferenz und die Effektstärke (Cohens d) angegeben werden — sonst bleibt die klinische Relevanz unklar.

Merke: Statistische Signifikanz ≠ klinische Relevanz. Bei n = 5.000 wird auch eine Differenz von 0,5 mmHg im Blutdruck signifikant — klinisch ist das aber bedeutungslos.

Klinisches Anwendungsbeispiel

Studie: Wirkt eine neue lokale Anästhesielösung schneller als das Standardpräparat? Gemessen wird die Zeit bis zum Wirkungseintritt (in Sekunden) bei n = 60 Patienten in der Endodontie, randomisiert in zwei Gruppen.

  • Gruppe A (neu): M = 142 s, SD = 28, n = 30
  • Gruppe B (Standard): M = 168 s, SD = 32, n = 30
  • Mittelwertdifferenz: −26 s zugunsten Gruppe A
  • t(58) = −3,35; p = 0,0014; 95%-KI: [−41,5; −10,5]; Cohens d = 0,87

Interpretation: Die neue Anästhesielösung wirkt im Mittel rund 26 Sekunden schneller. Das Ergebnis ist hochsignifikant (p < 0,01), das Konfidenzintervall enthält die Null nicht, und die Effektstärke (Cohens d = 0,87) entspricht einem großen Effekt — auch klinisch relevant. Die H₀ "kein Unterschied" wird abgelehnt.

In SPSS berechnen

Ungepaarter t-Test: Analysieren → Mittelwerte vergleichen → t-Test bei unabhängigen Stichproben

Im Output erscheinen zwei Zeilen:

  • "Varianzen sind gleich" — entspricht dem klassischen Student-t-Test
  • "Varianzen sind nicht gleich" — entspricht dem Welch-Test

Welche Zeile interpretiert wird, entscheidet der Levene-Test (in derselben Tabelle): p > 0,05 → obere Zeile (Student), p ≤ 0,05 → untere Zeile (Welch).

Gepaarter t-Test: Analysieren → Mittelwerte vergleichen → t-Test bei gepaarten Stichproben

Einstichproben-t-Test: Analysieren → Mittelwerte vergleichen → t-Test bei einer Stichprobe

Die ausgegebene "Sig. (zweiseitig)" ist der p-Wert. Eine ausführliche SPSS-Anleitung mit weiteren Tests findest du im Begleit-Tutorial.

In R berechnen

# Ungepaarter t-Test (Welch per Default)
t.test(zeit ~ gruppe, data = df)

# Klassischer Student-t-Test (gleiche Varianzen)
t.test(zeit ~ gruppe, data = df, var.equal = TRUE)

# Gepaarter t-Test
t.test(df$vorher, df$nachher, paired = TRUE)

# Einstichproben-t-Test (Vergleich gegen Referenzwert 120)
t.test(df$systol_blutdruck, mu = 120)

# Beispiel-Output
# Welch Two Sample t-test
# t = -3.35, df = 56.4, p-value = 0.0014
# 95 percent confidence interval: -41.5 to -10.5
# mean in group A: 142, mean in group B: 168

Für die Effektstärke ergänzend:

library(effsize)
cohen.d(zeit ~ gruppe, data = df)
# Cohen's d estimate: 0.87 (large)

Mehr in unserer Übersicht zur R-Statistik-Auswertung.

Häufige Fehler

Fehler 1: t-Test bei deutlich nicht-normalverteilten Daten

Bei kleinen Stichproben (n < 30 pro Gruppe) und sichtbar schiefer Verteilung wird der t-Test unzuverlässig. Korrekte Alternative: Mann-Whitney-U-Test. Mehr dazu im Beitrag zum Wilcoxon-Mann-Whitney-Test.

Fehler 2: Gepaarte Daten ungepaart auswerten

Vor-/Nach-Messungen am selben Patienten sind abhängig. Wer hier den ungepaarten t-Test rechnet, verliert massiv Power und produziert falsche Konfidenzintervalle. Immer prüfen: gehören die Werte in zwei Spalten zum selben Probanden?

Fehler 3: Multiple t-Tests statt ANOVA

Bei drei oder mehr Gruppen werden gerne paarweise t-Tests gerechnet — das erhöht die Falsch-Positiv-Rate. Korrekt: erst ANOVA, dann post-hoc-Tests mit Korrektur (z.B. Tukey HSD, Bonferroni).

Fehler 4: Nur p-Wert, keine Effektstärke

Ein signifikanter t-Test ohne Cohens d und Konfidenzintervall ist publikationstechnisch unvollständig. Reviewer fordern beides standardmäßig ein.

Fehler 5: Levene-Test als verbindliches Kriterium

Die "Vortest-dann-entscheide"-Logik (erst Levene, dann Student vs. Welch) ist statistisch suboptimal. Empfehlung: standardmäßig Welch-Test verwenden — er ist konservativer und korrekt, egal ob die Varianzen gleich sind oder nicht.

Fehler 6: Einseitiger Test ohne Vorab-Begründung

Einseitige t-Tests halbieren den p-Wert — sie sind aber nur zulässig, wenn die Richtung des Effekts vor Datenerhebung begründet feststeht. Im Zweifel zweiseitig testen.

Verwandte Konzepte

  • p-Wert — die zentrale Entscheidungsgröße des Tests
  • Mann-Whitney-U-Test — nicht-parametrische Alternative bei nicht-normalverteilten oder ordinalen Daten
  • ANOVA — Verallgemeinerung des t-Tests auf drei oder mehr Gruppen
  • Normalverteilung — zentrale Voraussetzung des t-Tests
  • Cohens d — die Standard-Effektstärke beim t-Test
  • Konfidenzintervall — informativer als der p-Wert allein
  • Power-Analyse — zur Fallzahlplanung vor der Studie

Häufige Fragen

  • „Wann nutze ich den t-Test und wann den Mann-Whitney-U-Test?" → Den t-Test bei metrischen, annähernd normalverteilten Daten und ausreichender Stichprobengröße (n > 30 pro Gruppe macht ihn robust gegen leichte Verteilungsabweichungen). Den Mann-Whitney-U-Test bei ordinalen Daten, kleinen Stichproben mit deutlich schiefen Verteilungen oder bei extremen Ausreißern.
  • „Was ist der Unterschied zwischen Student-t-Test und Welch-Test?" → Der Student-t-Test setzt gleiche Varianzen in beiden Gruppen voraus, der Welch-Test nicht. Der Welch-Test korrigiert die Freiheitsgrade nach Welch-Satterthwaite und ist auch bei ungleichen Varianzen valide. Moderne Empfehlung: standardmäßig Welch verwenden — er ist in R die Default-Einstellung von t.test().
  • „Wie viele Probanden brauche ich für einen t-Test?" → Das hängt vom erwarteten Effekt ab. Für einen mittleren Effekt (Cohens d = 0,5) bei α = 0,05 und Power = 0,80 sind etwa 64 Probanden pro Gruppe nötig. Für kleine Effekte (d = 0,2) bereits 394 pro Gruppe. Eine vorherige Power-Analyse mit G*Power oder dem R-Paket pwr ist Pflicht.
  • „Warum zeigt SPSS zwei Zeilen beim t-Test?" → SPSS gibt sowohl den klassischen Student-t-Test (Zeile "Varianzen sind gleich") als auch den Welch-Test (Zeile "Varianzen sind nicht gleich") aus. Welche Zeile interpretiert wird, hängt vom Levene-Test ab — oder du verwendest pragmatisch immer die Welch-Zeile, da sie konservativer ist.
  • „Kann ich den t-Test bei ordinalen Likert-Skalen anwenden?" → Strittig. Streng genommen sind Likert-Items ordinal — dann ist der Mann-Whitney-U-Test korrekt. In der Praxis wird der t-Test bei Summenscores aus mehreren Items (z.B. 5-Item-Skala) und n > 30 oft toleriert. Bei einzelnen Likert-Items mit < 5 Stufen besser nicht-parametrisch testen.
  • „Was bedeutet ein negativer t-Wert?" → Das Vorzeichen ergibt sich aus der Reihenfolge der Subtraktion (Gruppe 1 minus Gruppe 2). Ein negativer t-Wert bedeutet nur, dass der Mittelwert der ersten Gruppe kleiner ist. Für den p-Wert beim zweiseitigen Test wird ohnehin der Betrag verwendet — das Vorzeichen hat keinen Einfluss auf die Signifikanz, nur auf die Richtung des Effekts.
  • „Muss ich vorher einen Test auf Normalverteilung durchführen?" → Bei n > 30 pro Gruppe ist der t-Test dank zentralem Grenzwertsatz robust — formale Normalverteilungstests (Shapiro-Wilk, Kolmogorov-Smirnov) reagieren bei großen Stichproben übersensibel und bei kleinen unsensibel. Empfohlen: visuelle Prüfung mit Histogramm und Q-Q-Plot, bei klarer Schiefe oder schweren Tails auf nicht-parametrische Tests umsteigen.
  • „Was ist der Unterschied zwischen einseitigem und zweiseitigem t-Test?" → Beim zweiseitigen Test wird ein Effekt in beide Richtungen geprüft (Standard in der Medizin). Beim einseitigen Test nur in eine vorab spezifizierte Richtung — der p-Wert halbiert sich. Einseitige Tests sind nur zulässig, wenn die Richtung des Effekts vor Datenerhebung begründet feststeht. Im Zweifel zweiseitig testen.
  • „Wie berichte ich einen t-Test in der Publikation korrekt?" → Standardformat: "Die mittlere Wirkzeit war in Gruppe A signifikant kürzer als in Gruppe B (M_A = 142 s, SD = 28; M_B = 168 s, SD = 32; t(58) = −3,35; p = 0,001; 95%-KI: [−41,5; −10,5]; Cohens d = 0,87)." Wichtig sind: Mittelwerte und SD beider Gruppen, t-Wert mit Freiheitsgraden, p-Wert, Konfidenzintervall der Differenz und Effektstärke.
  • „Was tun, wenn die Voraussetzungen verletzt sind?" → Bei Verletzung der Normalverteilung: Mann-Whitney-U-Test (ungepaart) oder Wilcoxon-Vorzeichen-Rang-Test (gepaart). Bei Varianzheterogenität: Welch-Korrektur. Bei extremen Ausreißern: Robustheits-Analyse mit und ohne Ausreißer berichten oder auf nicht-parametrische Verfahren umsteigen. Datenmanipulation (Ausreißer entfernen ohne Begründung) ist unzulässig.
✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer