Chi-Quadrat-Test: Definition, Formel & Anwendung
Der Chi-Quadrat-Test prüft, ob zwei kategoriale Variablen voneinander unabhängig sind oder ob beobachtete Häufigkeiten von erwarteten abweichen. Definition, Formel, Voraussetzungen, SPSS- und R-Anwendung.
Definition
Der Chi-Quadrat-Test (auch Pearson χ²-Test, Kontingenztest) ist ein nicht-parametrischer Hypothesentest für nominal skalierte Variablen. Er prüft, ob die in einer Stichprobe beobachteten Häufigkeiten (O = observed) signifikant von den unter der Nullhypothese erwarteten Häufigkeiten (E = expected) abweichen.
Es gibt drei Hauptvarianten:
- Unabhängigkeitstest — Sind zwei kategoriale Variablen voneinander unabhängig? (häufigster Anwendungsfall in der Medizin)
- Anpassungstest (Goodness-of-Fit) — Folgen die beobachteten Häufigkeiten einer theoretisch erwarteten Verteilung?
- Homogenitätstest — Stammen mehrere Stichproben aus Populationen mit gleicher Verteilung?
Merke: Der Chi-Quadrat-Test sagt dir nur, ob ein Zusammenhang besteht — nicht wie stark er ist. Für die Effektstärke benötigst du zusätzlich Cramérs V oder den Phi-Koeffizienten.
Formel
Die Teststatistik berechnet sich aus der Summe der quadrierten standardisierten Abweichungen:
$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$
Dabei ist:
- Oᵢ = beobachtete Häufigkeit in Zelle i
- Eᵢ = erwartete Häufigkeit in Zelle i (unter H₀)
- k = Anzahl der Zellen der Kreuztabelle
Bei einer Kreuztabelle mit r Zeilen und c Spalten berechnet sich die erwartete Häufigkeit pro Zelle als:
$$E_{ij} = \frac{\text{Zeilensumme}_i \times \text{Spaltensumme}_j}{n}$$
Die Freiheitsgrade ergeben sich aus df = (r − 1) × (c − 1). Der p-Wert wird aus der χ²-Verteilung mit entsprechenden Freiheitsgraden abgelesen.
Voraussetzungen
Damit der Chi-Quadrat-Test valide Ergebnisse liefert, müssen folgende Voraussetzungen erfüllt sein:
- Nominalskala — beide Variablen kategorial (z.B. Geschlecht, Erkrankungsstatus, Therapiegruppe). Ordinale Variablen werden zwar oft mitgetestet, aber Information geht verloren.
- Unabhängige Beobachtungen — jeder Proband zählt nur einmal. Bei verbundenen Stichproben (z.B. vorher/nachher) verwendet man den McNemar-Test.
- Erwartete Häufigkeiten Eᵢ ≥ 5 — die klassische Cochran-Regel besagt: alle erwarteten Häufigkeiten sollten ≥ 5 sein, bei 2×2-Tabellen sogar strikt. Mindestens 80 % der Zellen müssen Eᵢ ≥ 5 erreichen.
- Stichprobengröße ausreichend — Faustregel: n ≥ 20 pro Zeile/Spalte bei größeren Tabellen.
Praxis-Tipp: Sind die erwarteten Häufigkeiten zu klein, weiche auf den Fishers exakten Test aus (für 2×2-Tabellen exakt) oder fasse Kategorien sinnvoll zusammen.
Eine ausführliche Diskussion zur Testauswahl findest du im Beitrag zu Statistik in der Doktorarbeit.
Interpretation
Die Interpretation folgt dem klassischen Hypothesentest-Schema:
| χ²-Ergebnis | Interpretation |
|---|---|
| p < 0,05 | H₀ ablehnen — Variablen sind nicht unabhängig (es besteht ein Zusammenhang) |
| p ≥ 0,05 | H₀ beibehalten — kein Hinweis auf Zusammenhang |
| df hoch + großes n | auch kleine Effekte werden signifikant — Effektstärke prüfen! |
Effektstärke bei signifikantem Ergebnis ergänzen:
| Effektstärke | Maß | Wertebereich |
|---|---|---|
| 2×2-Tabelle | Phi (φ) | 0,1 klein / 0,3 mittel / 0,5 groß |
| > 2×2-Tabelle | Cramérs V | 0,1 klein / 0,3 mittel / 0,5 groß |
Wichtig: Ein signifikanter χ²-Test sagt nichts über die Richtung des Zusammenhangs aus. Ob Therapie A besser oder schlechter wirkt als B, musst du an den Häufigkeiten der Kreuztabelle bzw. an den standardisierten Residuen ablesen.
Klinisches Anwendungsbeispiel
Studie: Einfluss eines neuen Mundspüllösungs-Protokolls auf die Inzidenz postoperativer Wundinfektionen nach Weisheitszahnentfernung (n = 200).
| Infektion ja | Infektion nein | Σ | |
|---|---|---|---|
| Chlorhexidin (neu) | 8 | 92 | 100 |
| Standardspülung | 22 | 78 | 100 |
| Σ | 30 | 170 | 200 |
Erwartete Häufigkeiten unter H₀ (Unabhängigkeit):
- E(Chlorhexidin, Infektion) = (100 × 30) / 200 = 15
- E(Chlorhexidin, keine Infektion) = (100 × 170) / 200 = 85
- E(Standard, Infektion) = 15
- E(Standard, keine Infektion) = 85
Berechnung:
$$\chi^2 = \frac{(8-15)^2}{15} + \frac{(92-85)^2}{85} + \frac{(22-15)^2}{15} + \frac{(78-85)^2}{85}$$
$$\chi^2 = 3{,}27 + 0{,}58 + 3{,}27 + 0{,}58 = 7{,}69$$
Mit df = (2−1)(2−1) = 1 ergibt sich p = 0,0056.
Interpretation: Die Infektionsrate unterscheidet sich signifikant zwischen den Gruppen (p < 0,01). In der Chlorhexidin-Gruppe traten 8 % Infektionen auf, in der Standardgruppe 22 %. Die Effektstärke φ = 0,196 zeigt einen kleinen bis mittleren Effekt. Klinisch entspricht dies einer Risikoreduktion um etwa 64 % (Odds Ratio ≈ 0,31).
In SPSS berechnen
Analysieren → Deskriptive Statistiken → Kreuztabellen…
- Zeilenvariable und Spaltenvariable einfügen
- Button "Statistik…" → Häkchen bei Chi-Quadrat und Phi und Cramérs V
- Button "Zellen…" → Häkchen bei Erwartete Häufigkeiten und Standardisierte Residuen
- OK
Im Output relevant:
- Tabelle "Chi-Quadrat-Tests" → Zeile "Pearson-Chi-Quadrat" mit Wert, df und Asymptotische Signifikanz (zweiseitig) = p-Wert
- Fußnote prüfen: Wie viele Zellen haben erwartete Häufigkeit < 5? (Bei 2×2 sollte das 0 % sein, sonst Fishers exakten Test verwenden — wird darunter direkt mit angegeben)
- Tabelle "Symmetrische Maße" → Phi bzw. Cramérs V als Effektstärke
Eine ausführliche SPSS-Anleitung mit Screenshots findest du im Begleit-Tutorial.
In R berechnen
# Daten als Kreuztabelle
tab <- matrix(c(8, 22, 92, 78), nrow = 2,
dimnames = list(Gruppe = c("Chlorhexidin", "Standard"),
Infektion = c("Ja", "Nein")))
# Chi-Quadrat-Test
chi <- chisq.test(tab, correct = FALSE)
chi
# Pearson's Chi-squared test
# X-squared = 7.69, df = 1, p-value = 0.005558
# Erwartete Häufigkeiten prüfen
chi$expected
# Standardisierte Residuen (zeigen Abweichungsrichtung)
chi$stdres
# Effektstärke Cramérs V
library(rcompanion)
cramerV(tab)
# [1] 0.196
Bei kleinen Stichproben (E < 5):
fisher.test(tab) # Fishers exakter Test als Alternative
Die Option correct = FALSE deaktiviert die Yates-Kontinuitätskorrektur. Bei 2×2-Tabellen mit kleinen Erwartungswerten ist correct = TRUE (Default) konservativer. Mehr in unserer R-Statistik-Anleitung.
Häufige Fehler
Fehler 1: Erwartete Häufigkeiten nicht prüfen
Bei Eᵢ < 5 ist der χ²-Test nicht mehr valide — die χ²-Approximation versagt. Immer SPSS-Fußnote bzw. chisq.test()$expected prüfen und bei Bedarf auf Fishers exakten Test wechseln.
Fehler 2: Verbundene Stichproben mit normalem χ² testen
Vorher-/Nachher-Vergleiche oder Matched-Pairs-Designs verlangen den McNemar-Test statt χ². Der χ²-Test setzt unabhängige Beobachtungen voraus.
Fehler 3: Effektstärke vergessen
Bei großen Stichproben (n > 1.000) wird fast jeder Zusammenhang signifikant. Ohne Cramérs V oder Phi bleibt unklar, ob der Effekt klinisch relevant ist.
Fehler 4: Ordinale Information ignorieren
Werden ordinale Variablen (z.B. Schmerz-NRS in Kategorien) mit χ² getestet, geht die Rangordnung verloren. Sinnvoller: Mantel-Haenszel Trend-Test oder ordinaler Logit.
Fehler 5: Mehrfaches Testen ohne Korrektur
Werden mehrere Kreuztabellen geprüft (z.B. Therapieerfolg × Geschlecht × Alter × Rauchstatus), explodiert der α-Fehler. Korrektur via Bonferroni oder FDR notwendig.
Fehler 6: Yates-Korrektur unkritisch übernehmen
Die Kontinuitätskorrektur (correct = TRUE) ist bei 2×2 mit kleinen Erwartungen konservativ — viele Methodiker empfehlen heute, sie zu deaktivieren oder direkt Fishers exakten Test zu rechnen. Begründe deine Wahl in der Methodik.
Verwandte Konzepte
- Fishers exakter Test — exakte Alternative bei kleinen Stichproben oder Eᵢ < 5
- Kreuztabelle — Datendarstellung als Grundlage des χ²-Tests
- Cramérs V — Effektstärkemaß für Kontingenztabellen größer als 2×2
- p-Wert — Wahrscheinlichkeit der Daten unter H₀
- McNemar-Test — Pendant für verbundene Stichproben
- Mantel-Haenszel-Test — für stratifizierte 2×2-Tabellen (z.B. Confounder-Adjustierung)
- G-Test (Likelihood-Ratio χ²) — alternative Berechnung mit ähnlicher Verteilung
Häufige Fragen
- „Wann verwende ich den Chi-Quadrat-Test und wann Fishers exakten Test?" → Den χ²-Test bei ausreichender Stichprobe (alle erwarteten Häufigkeiten Eᵢ ≥ 5). Fishers exakten Test bei 2×2-Tabellen mit mindestens einer Zelle Eᵢ < 5 oder bei sehr kleinen Stichproben (n < 20). SPSS gibt bei 2×2-Tabellen beide Werte automatisch aus.
- „Was bedeutet 'Asymptotische Signifikanz' in SPSS?" → Das ist der p-Wert basierend auf der asymptotischen χ²-Verteilung — gültig bei ausreichend großer Stichprobe. Bei kleinen n nutzt man stattdessen die exakte Signifikanz (Fisher) oder Monte-Carlo-Simulation.
- „Muss ich die Yates-Kontinuitätskorrektur anwenden?" → Bei 2×2-Tabellen mit kleinen Stichproben war Yates lange Standard. Heute empfehlen viele Methodiker entweder den Fisher-Test direkt oder den unkorrigierten χ²-Test, da Yates' Korrektur als überkonservativ gilt. Wichtig ist Konsistenz und Transparenz in der Methodendokumentation.
- „Was sind standardisierte Residuen und wozu dienen sie?" → Standardisierte Residuen zeigen, welche einzelnen Zellen der Kreuztabelle besonders stark zur Signifikanz beitragen. Werte > |2| gelten als signifikant abweichend von der erwarteten Häufigkeit. Sie helfen, das Muster eines signifikanten χ²-Ergebnisses zu interpretieren.
- „Welche Effektstärke berichte ich bei einer 3×4-Kreuztabelle?" → Cramérs V. Phi (φ) ist nur für 2×2-Tabellen definiert. Cramérs V normiert auf den Wertebereich 0–1 und ist unabhängig von der Tabellengröße interpretierbar (0,1 klein / 0,3 mittel / 0,5 groß nach Cohen).
- „Kann ich den Chi-Quadrat-Test für ordinale Daten verwenden?" → Technisch ja, aber methodisch suboptimal. Der χ²-Test ignoriert die Ordnung der Kategorien. Bei ordinalen Variablen sind der Mantel-Haenszel Trend-Test, der Jonckheere-Terpstra-Test oder ordinale Logit-Modelle aussagekräftiger.
- „Was tun, wenn meine Kreuztabelle mehrere leere Zellen enthält?" → Erst inhaltlich prüfen: Sind die leeren Zellen strukturell (unmöglich) oder zufällig leer? Bei zufällig leeren Zellen Kategorien sinnvoll zusammenfassen (z.B. Altersgruppen kombinieren) oder auf den Fishers exakten Test bzw. Monte-Carlo-Simulation wechseln.
- „Wie unterscheidet sich der χ²-Anpassungstest vom Unabhängigkeitstest?" → Der Anpassungstest (Goodness-of-Fit) prüft eine Variable gegen eine theoretisch erwartete Verteilung (z.B. Mendelsche Vererbungsregeln 3:1). Der Unabhängigkeitstest prüft den Zusammenhang zweier Variablen in einer Kreuztabelle. Formel und Verteilung sind identisch, nur die Freiheitsgrade unterscheiden sich (df = k−1 vs. df = (r−1)(c−1)).
- „Wieso berichtet meine Doktormutter Odds Ratios statt χ²?" → Beide ergänzen sich: Der χ²-Test prüft, ob ein Zusammenhang signifikant ist; das Odds Ratio quantifiziert, wie stark und in welche Richtung der Effekt geht. Bei Fragebogen- und Therapieauswertungen sollten beide gemeinsam berichtet werden — siehe auch Fragebogen auswerten.
- „Wie groß muss meine Stichprobe für einen χ²-Test sein?" → Faustregel: n ≥ 20 insgesamt und alle Eᵢ ≥ 5. Für eine zuverlässige Detektion mittlerer Effekte (Cramérs V ≈ 0,3) bei α = 0,05 und Power = 0,80 in einer 2×2-Tabelle benötigt man etwa n = 88. Eine Power-Analyse vor Studienbeginn ist Standard.