ANOVA: Varianzanalyse, Voraussetzungen & Interpretation
Die ANOVA (Varianzanalyse) prüft, ob sich die Mittelwerte von drei oder mehr Gruppen statistisch unterscheiden. Definition, Formel, Voraussetzungen, SPSS- und R-Anleitung sowie typische Fehler in der medizinischen Forschung.
Definition
Die ANOVA (Analysis of Variance, deutsch: Varianzanalyse) ist ein inferenzstatistisches Verfahren, das prüft, ob sich die Mittelwerte von drei oder mehr Gruppen signifikant voneinander unterscheiden. Sie verallgemeinert den t-Test auf mehr als zwei Gruppen und vermeidet damit das Problem der α-Fehler-Inflation, das bei multiplen paarweisen t-Tests entstehen würde.
Die ANOVA zerlegt die Gesamtvarianz der Daten in zwei Komponenten: die Varianz zwischen den Gruppen (durch den Faktor erklärt) und die Varianz innerhalb der Gruppen (Residual- oder Fehlervarianz). Das Verhältnis beider Varianzen — die F-Statistik — entscheidet, ob die beobachteten Gruppenunterschiede mit der Nullhypothese (alle Gruppenmittelwerte gleich) vereinbar sind.
Merke: Die ANOVA prüft den gemeinsamen Effekt — sie sagt dir, ob sich mindestens zwei Gruppen unterscheiden, aber nicht welche. Dafür sind anschließende Post-hoc-Tests nötig.
Formel
Die zentrale Teststatistik der ANOVA ist der F-Wert:
$$F = \frac{MS_{between}}{MS_{within}} = \frac{SS_{between} / df_{between}}{SS_{within} / df_{within}}$$
mit:
- SS_between = Summe der quadrierten Abweichungen zwischen den Gruppenmittelwerten und dem Gesamtmittelwert
- SS_within = Summe der quadrierten Abweichungen innerhalb jeder Gruppe
- df_between = k − 1 (k = Anzahl Gruppen)
- df_within = N − k (N = Gesamtstichprobe)
Unter H₀ (alle Gruppenmittelwerte gleich) folgt F einer F-Verteilung mit (df_between, df_within) Freiheitsgraden. Ein großer F-Wert spricht gegen H₀.
Voraussetzungen
Die parametrische ANOVA setzt voraus:
- Metrisches Skalenniveau der abhängigen Variable (intervall- oder verhältnisskaliert)
- Unabhängigkeit der Beobachtungen — keine wiederholten Messungen am gleichen Patienten (sonst → Repeated-Measures-ANOVA)
- Normalverteilung der Residuen in jeder Gruppe — bei n ≥ 30 pro Gruppe durch den zentralen Grenzwertsatz robust
- Varianzhomogenität (Homoskedastizität) — geprüft via Levene-Test; bei Verletzung Welch-ANOVA verwenden
- Keine starken Ausreißer, die die Mittelwerte verzerren
Praxis-Tipp: Bei Verletzung der Normalverteilung oder kleinen Stichproben (n < 15 pro Gruppe) → Kruskal-Wallis-Test als nicht-parametrische Alternative.
Interpretation
Die ANOVA liefert einen F-Wert mit zugehörigem p-Wert. Die Hypothesen lauten:
- H₀: μ₁ = μ₂ = μ₃ = … = μ_k (alle Gruppenmittelwerte gleich)
- H₁: mindestens zwei Gruppenmittelwerte unterscheiden sich
| Ergebnis | Interpretation |
|---|---|
| p < 0,05 | H₀ ablehnen → mindestens zwei Gruppen unterscheiden sich → Post-hoc-Test |
| p ≥ 0,05 | H₀ beibehalten → keine signifikanten Mittelwertunterschiede |
Zusätzlich sollte die Effektstärke angegeben werden — üblich ist η² (Eta-Quadrat) oder partielles η²:
$$\eta^2 = \frac{SS_{between}}{SS_{total}}$$
Übliche Schwellen nach Cohen: η² ≈ 0,01 (kleiner), 0,06 (mittlerer), 0,14 (großer Effekt).
Klinisches Anwendungsbeispiel
Studie: Vergleich der postoperativen Schmerzreduktion (NRS, 0–10) nach drei Anästhesieverfahren bei Weisheitszahn-Extraktion (n = 30 pro Gruppe).
- Gruppe A (Articain): M = 2,1, SD = 1,2
- Gruppe B (Lidocain): M = 3,4, SD = 1,5
- Gruppe C (Mepivacain): M = 2,8, SD = 1,3
ANOVA-Ergebnis:
- F(2, 87) = 6,82
- p = 0,002
- η² = 0,135 (großer Effekt)
Interpretation: Der p-Wert von 0,002 zeigt, dass sich mindestens zwei Verfahren signifikant in ihrer Schmerzreduktion unterscheiden. η² = 0,135 deutet auf einen klinisch relevanten Effekt hin. Welche Gruppen sich konkret unterscheiden, klärt ein Post-hoc-Test (z.B. Tukey-HSD): Hier zeigt sich, dass Articain signifikant besser als Lidocain wirkt (p = 0,001), während die Differenz Articain vs. Mepivacain knapp nicht signifikant ist (p = 0,12).
In SPSS berechnen
Einfaktorielle ANOVA:
Analysieren → Mittelwerte vergleichen → Einfaktorielle ANOVA
- Abhängige Variable: z.B. Schmerz_NRS
- Faktor: z.B. Anaesthesieverfahren
- Optionen: Levene-Test auf Varianzhomogenität, deskriptive Statistiken
- Post-hoc: Tukey-HSD (bei Varianzhomogenität) oder Games-Howell (bei Varianzheterogenität)
Im Output relevant:
- F-Wert + Sig. in der ANOVA-Tabelle
- Levene-Test: Sig. > 0,05 → Varianzhomogenität gegeben
- Mehrfachvergleiche-Tabelle: paarweise p-Werte mit Bonferroni- oder Tukey-Korrektur
Eine ausführliche SPSS-Anleitung mit allen Schritten findest du im Begleit-Tutorial.
In R berechnen
# Einfaktorielle ANOVA
modell <- aov(schmerz ~ verfahren, data = df)
summary(modell)
# Df Sum Sq Mean Sq F value Pr(>F)
# verfahren 2 25.32 12.66 6.82 0.002 **
# Residuals 87 161.45 1.86
# Levene-Test auf Varianzhomogenität
library(car)
leveneTest(schmerz ~ verfahren, data = df)
# Effektstärke η²
library(effectsize)
eta_squared(modell)
# Post-hoc Tukey-HSD
TukeyHSD(modell)
# Bei Varianzheterogenität: Welch-ANOVA
oneway.test(schmerz ~ verfahren, data = df, var.equal = FALSE)
Mehr Beispiele in der R-Statistik-Anleitung.
Häufige Fehler
Fehler 1: Multiple t-Tests statt ANOVA
Bei k = 4 Gruppen ergeben sich 6 paarweise t-Tests. Bei α = 0,05 pro Test steigt die Wahrscheinlichkeit für mindestens einen falsch-positiven Befund auf etwa 26 %. Die ANOVA kontrolliert diese α-Fehler-Inflation auf dem Gesamtniveau.
Fehler 2: Signifikante ANOVA ohne Post-hoc-Test berichten
Eine signifikante ANOVA sagt nur: Mindestens zwei Gruppen unterscheiden sich. Welche das sind, muss durch Post-hoc-Verfahren (Tukey-HSD, Bonferroni, Scheffé) geklärt werden. Ohne Post-hoc-Test ist die Aussage methodisch unvollständig.
Fehler 3: Voraussetzungen ungeprüft lassen
Die Varianzhomogenität wird oft übersehen. Bei Levene-Test mit p < 0,05 → Welch-ANOVA + Games-Howell-Post-hoc statt klassischer ANOVA + Tukey-HSD.
Fehler 4: Repeated Measures als unabhängige ANOVA rechnen
Wenn dieselben Patienten zu mehreren Zeitpunkten gemessen werden (z.B. Blutdruck vor, während, nach Therapie), muss eine Repeated-Measures-ANOVA oder ein Linear Mixed Model verwendet werden. Eine normale ANOVA verletzt die Unabhängigkeitsannahme.
Fehler 5: Effektstärke vergessen
Bei großen Stichproben werden auch winzige Mittelwertunterschiede signifikant. Ohne η² oder partielles η² lässt sich die klinische Relevanz nicht beurteilen.
Fehler 6: ANOVA bei ordinalen Daten (Likert-Skalen)
Bei strikt ordinalen Daten ist die ANOVA streng genommen nicht zulässig — hier ist der Kruskal-Wallis-Test korrekt. In der Praxis wird die ANOVA bei ≥ 5-stufigen Likert-Skalen mit Mittelwertbildung jedoch oft pragmatisch akzeptiert.
Verwandte Konzepte
- t-Test — Mittelwertvergleich für genau zwei Gruppen
- Kruskal-Wallis-Test — nicht-parametrische Alternative bei verletzten Voraussetzungen
- Post-hoc-Tests — Tukey-HSD, Bonferroni, Scheffé, Games-Howell
- Bonferroni-Korrektur — α-Anpassung bei multiplen Vergleichen
- Effektstärke — η², partielles η², Cohens f
- p-Wert — Signifikanzbeurteilung
- MANOVA — multivariate Erweiterung bei mehreren abhängigen Variablen
- ANCOVA — ANOVA mit Kontrolle einer kontinuierlichen Kovariate
Häufige Fragen
- „Wann verwende ich eine ANOVA und wann einen t-Test?" → Den t-Test bei genau zwei Gruppen, die ANOVA bei drei oder mehr. Multiple t-Tests bei mehr als zwei Gruppen sind methodisch falsch, weil sie die α-Fehlerwahrscheinlichkeit kumulieren — bei vier Gruppen läge sie bereits bei rund 26 % statt 5 %.
- „Was ist der Unterschied zwischen einfaktorieller und zweifaktorieller ANOVA?" → Die einfaktorielle ANOVA hat einen einzigen Gruppenfaktor (z.B. Therapie A/B/C). Die zweifaktorielle ANOVA prüft zwei Faktoren gleichzeitig (z.B. Therapie × Geschlecht) und kann zusätzlich deren Interaktion testen — also ob die Therapiewirkung bei Männern und Frauen unterschiedlich ausfällt.
- „Wie interpretiere ich einen signifikanten F-Wert?" → Ein signifikanter F-Wert (p < 0,05) bedeutet, dass die Varianz zwischen den Gruppen größer ist als durch Zufall erwartet — mindestens zwei Gruppen unterscheiden sich. Welche Gruppen das konkret sind, klärt erst der Post-hoc-Test.
- „Welcher Post-hoc-Test ist der richtige?" → Bei Varianzhomogenität ist Tukey-HSD der Standard — er kontrolliert das Familywise-α gut bei ausgewogener Power. Bei Varianzheterogenität wird Games-Howell empfohlen. Bonferroni ist konservativ, Scheffé extrem konservativ und vor allem bei komplexen Kontrasten geeignet.
- „Was bedeutet partielles η² und wie wird es interpretiert?" → Partielles η² gibt den Varianzanteil an, den ein Faktor an der Gesamtvarianz erklärt — bereinigt um andere Faktoren im Modell. Cohen-Schwellen: 0,01 = klein, 0,06 = mittel, 0,14 = groß. In Publikationen sollte η² oder partielles η² immer mit angegeben werden.
- „Was tun, wenn die Varianzhomogenität verletzt ist?" → Bei Levene-Test mit p < 0,05 wird die Welch-ANOVA verwendet (in SPSS automatisch ausgegeben, in R via
oneway.test(..., var.equal = FALSE)). Als Post-hoc-Test eignet sich dann Games-Howell statt Tukey-HSD. - „Kann ich die ANOVA auch bei ungleichen Gruppengrößen anwenden?" → Ja. Die ANOVA toleriert ungleiche Gruppengrößen, ist aber bei stark ungleichen Gruppen (z.B. n₁ = 10 vs. n₂ = 100) sensitiver gegenüber Verletzungen der Varianzhomogenität. Bei deutlichem Ungleichgewicht und Heterogenität immer Welch-ANOVA verwenden.
- „Was ist der Unterschied zwischen ANOVA und Regression?" → Mathematisch sind beide identisch — die ANOVA ist ein Spezialfall der linearen Regression mit kategorialen Prädiktoren. Sie liefern dieselben F- und p-Werte. Die ANOVA betont die Varianzzerlegung, die Regression die Schätzung von Koeffizienten. Bei gemischten Prädiktoren (kategorial + kontinuierlich) wird üblicherweise die Regression bzw. ANCOVA verwendet.
- „Wie groß muss die Stichprobe für eine ANOVA sein?" → Faustregel: mindestens 20–30 Beobachtungen pro Gruppe für robuste Ergebnisse. Eine Power-Analyse vor der Datenerhebung (z.B. mit G*Power) ist Pflicht für die Methodikbeschreibung in der Doktorarbeit — siehe Statistik in der Doktorarbeit.
- „Darf ich Likert-Skalen mit der ANOVA auswerten?" → Streng genommen nein, da Likert-Daten ordinal sind. In der Praxis wird die ANOVA bei mindestens 5-stufigen Likert-Skalen mit Mittelwertbildung jedoch häufig pragmatisch akzeptiert. Methodisch sauberer ist der Kruskal-Wallis-Test oder ordinale Regression — abhängig von der Akzeptanz im jeweiligen Fachgebiet.