Chi-Quadrat-Test: Definition, Formel & Anwendung

Der Chi-Quadrat-Test prüft, ob zwei kategoriale Variablen voneinander unabhängig sind oder ob beobachtete Häufigkeiten von erwarteten abweichen. Definition, Formel, Voraussetzungen, SPSS- und R-Anwendung.

Definition

Der Chi-Quadrat-Test (auch Pearson χ²-Test, Kontingenztest) ist ein nicht-parametrischer Hypothesentest für nominal skalierte Variablen. Er prüft, ob die in einer Stichprobe beobachteten Häufigkeiten (O = observed) signifikant von den unter der Nullhypothese erwarteten Häufigkeiten (E = expected) abweichen.

Es gibt drei Hauptvarianten:

  1. Unabhängigkeitstest — Sind zwei kategoriale Variablen voneinander unabhängig? (häufigster Anwendungsfall in der Medizin)
  2. Anpassungstest (Goodness-of-Fit) — Folgen die beobachteten Häufigkeiten einer theoretisch erwarteten Verteilung?
  3. Homogenitätstest — Stammen mehrere Stichproben aus Populationen mit gleicher Verteilung?

Merke: Der Chi-Quadrat-Test sagt dir nur, ob ein Zusammenhang besteht — nicht wie stark er ist. Für die Effektstärke benötigst du zusätzlich Cramérs V oder den Phi-Koeffizienten.

Formel

Die Teststatistik berechnet sich aus der Summe der quadrierten standardisierten Abweichungen:

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

Dabei ist:

  • Oᵢ = beobachtete Häufigkeit in Zelle i
  • Eᵢ = erwartete Häufigkeit in Zelle i (unter H₀)
  • k = Anzahl der Zellen der Kreuztabelle

Bei einer Kreuztabelle mit r Zeilen und c Spalten berechnet sich die erwartete Häufigkeit pro Zelle als:

$$E_{ij} = \frac{\text{Zeilensumme}_i \times \text{Spaltensumme}_j}{n}$$

Die Freiheitsgrade ergeben sich aus df = (r − 1) × (c − 1). Der p-Wert wird aus der χ²-Verteilung mit entsprechenden Freiheitsgraden abgelesen.

Voraussetzungen

Damit der Chi-Quadrat-Test valide Ergebnisse liefert, müssen folgende Voraussetzungen erfüllt sein:

  • Nominalskala — beide Variablen kategorial (z.B. Geschlecht, Erkrankungsstatus, Therapiegruppe). Ordinale Variablen werden zwar oft mitgetestet, aber Information geht verloren.
  • Unabhängige Beobachtungen — jeder Proband zählt nur einmal. Bei verbundenen Stichproben (z.B. vorher/nachher) verwendet man den McNemar-Test.
  • Erwartete Häufigkeiten Eᵢ ≥ 5 — die klassische Cochran-Regel besagt: alle erwarteten Häufigkeiten sollten ≥ 5 sein, bei 2×2-Tabellen sogar strikt. Mindestens 80 % der Zellen müssen Eᵢ ≥ 5 erreichen.
  • Stichprobengröße ausreichend — Faustregel: n ≥ 20 pro Zeile/Spalte bei größeren Tabellen.

Praxis-Tipp: Sind die erwarteten Häufigkeiten zu klein, weiche auf den Fishers exakten Test aus (für 2×2-Tabellen exakt) oder fasse Kategorien sinnvoll zusammen.

Eine ausführliche Diskussion zur Testauswahl findest du im Beitrag zu Statistik in der Doktorarbeit.

Interpretation

Die Interpretation folgt dem klassischen Hypothesentest-Schema:

χ²-Ergebnis Interpretation
p < 0,05 H₀ ablehnen — Variablen sind nicht unabhängig (es besteht ein Zusammenhang)
p ≥ 0,05 H₀ beibehalten — kein Hinweis auf Zusammenhang
df hoch + großes n auch kleine Effekte werden signifikant — Effektstärke prüfen!

Effektstärke bei signifikantem Ergebnis ergänzen:

Effektstärke Maß Wertebereich
2×2-Tabelle Phi (φ) 0,1 klein / 0,3 mittel / 0,5 groß
> 2×2-Tabelle Cramérs V 0,1 klein / 0,3 mittel / 0,5 groß

Wichtig: Ein signifikanter χ²-Test sagt nichts über die Richtung des Zusammenhangs aus. Ob Therapie A besser oder schlechter wirkt als B, musst du an den Häufigkeiten der Kreuztabelle bzw. an den standardisierten Residuen ablesen.

Klinisches Anwendungsbeispiel

Studie: Einfluss eines neuen Mundspüllösungs-Protokolls auf die Inzidenz postoperativer Wundinfektionen nach Weisheitszahnentfernung (n = 200).

Infektion ja Infektion nein Σ
Chlorhexidin (neu) 8 92 100
Standardspülung 22 78 100
Σ 30 170 200

Erwartete Häufigkeiten unter H₀ (Unabhängigkeit):

  • E(Chlorhexidin, Infektion) = (100 × 30) / 200 = 15
  • E(Chlorhexidin, keine Infektion) = (100 × 170) / 200 = 85
  • E(Standard, Infektion) = 15
  • E(Standard, keine Infektion) = 85

Berechnung:

$$\chi^2 = \frac{(8-15)^2}{15} + \frac{(92-85)^2}{85} + \frac{(22-15)^2}{15} + \frac{(78-85)^2}{85}$$

$$\chi^2 = 3{,}27 + 0{,}58 + 3{,}27 + 0{,}58 = 7{,}69$$

Mit df = (2−1)(2−1) = 1 ergibt sich p = 0,0056.

Interpretation: Die Infektionsrate unterscheidet sich signifikant zwischen den Gruppen (p < 0,01). In der Chlorhexidin-Gruppe traten 8 % Infektionen auf, in der Standardgruppe 22 %. Die Effektstärke φ = 0,196 zeigt einen kleinen bis mittleren Effekt. Klinisch entspricht dies einer Risikoreduktion um etwa 64 % (Odds Ratio ≈ 0,31).

In SPSS berechnen

Analysieren → Deskriptive Statistiken → Kreuztabellen…

  1. Zeilenvariable und Spaltenvariable einfügen
  2. Button "Statistik…" → Häkchen bei Chi-Quadrat und Phi und Cramérs V
  3. Button "Zellen…" → Häkchen bei Erwartete Häufigkeiten und Standardisierte Residuen
  4. OK

Im Output relevant:

  • Tabelle "Chi-Quadrat-Tests" → Zeile "Pearson-Chi-Quadrat" mit Wert, df und Asymptotische Signifikanz (zweiseitig) = p-Wert
  • Fußnote prüfen: Wie viele Zellen haben erwartete Häufigkeit < 5? (Bei 2×2 sollte das 0 % sein, sonst Fishers exakten Test verwenden — wird darunter direkt mit angegeben)
  • Tabelle "Symmetrische Maße" → Phi bzw. Cramérs V als Effektstärke

Eine ausführliche SPSS-Anleitung mit Screenshots findest du im Begleit-Tutorial.

In R berechnen

# Daten als Kreuztabelle
tab <- matrix(c(8, 22, 92, 78), nrow = 2,
              dimnames = list(Gruppe = c("Chlorhexidin", "Standard"),
                              Infektion = c("Ja", "Nein")))

# Chi-Quadrat-Test
chi <- chisq.test(tab, correct = FALSE)
chi
# Pearson's Chi-squared test
# X-squared = 7.69, df = 1, p-value = 0.005558

# Erwartete Häufigkeiten prüfen
chi$expected

# Standardisierte Residuen (zeigen Abweichungsrichtung)
chi$stdres

# Effektstärke Cramérs V
library(rcompanion)
cramerV(tab)
# [1] 0.196

Bei kleinen Stichproben (E < 5):

fisher.test(tab)   # Fishers exakter Test als Alternative

Die Option correct = FALSE deaktiviert die Yates-Kontinuitätskorrektur. Bei 2×2-Tabellen mit kleinen Erwartungswerten ist correct = TRUE (Default) konservativer. Mehr in unserer R-Statistik-Anleitung.

Häufige Fehler

Fehler 1: Erwartete Häufigkeiten nicht prüfen

Bei Eᵢ < 5 ist der χ²-Test nicht mehr valide — die χ²-Approximation versagt. Immer SPSS-Fußnote bzw. chisq.test()$expected prüfen und bei Bedarf auf Fishers exakten Test wechseln.

Fehler 2: Verbundene Stichproben mit normalem χ² testen

Vorher-/Nachher-Vergleiche oder Matched-Pairs-Designs verlangen den McNemar-Test statt χ². Der χ²-Test setzt unabhängige Beobachtungen voraus.

Fehler 3: Effektstärke vergessen

Bei großen Stichproben (n > 1.000) wird fast jeder Zusammenhang signifikant. Ohne Cramérs V oder Phi bleibt unklar, ob der Effekt klinisch relevant ist.

Fehler 4: Ordinale Information ignorieren

Werden ordinale Variablen (z.B. Schmerz-NRS in Kategorien) mit χ² getestet, geht die Rangordnung verloren. Sinnvoller: Mantel-Haenszel Trend-Test oder ordinaler Logit.

Fehler 5: Mehrfaches Testen ohne Korrektur

Werden mehrere Kreuztabellen geprüft (z.B. Therapieerfolg × Geschlecht × Alter × Rauchstatus), explodiert der α-Fehler. Korrektur via Bonferroni oder FDR notwendig.

Fehler 6: Yates-Korrektur unkritisch übernehmen

Die Kontinuitätskorrektur (correct = TRUE) ist bei 2×2 mit kleinen Erwartungen konservativ — viele Methodiker empfehlen heute, sie zu deaktivieren oder direkt Fishers exakten Test zu rechnen. Begründe deine Wahl in der Methodik.

Verwandte Konzepte

  • Fishers exakter Test — exakte Alternative bei kleinen Stichproben oder Eᵢ < 5
  • Kreuztabelle — Datendarstellung als Grundlage des χ²-Tests
  • Cramérs V — Effektstärkemaß für Kontingenztabellen größer als 2×2
  • p-Wert — Wahrscheinlichkeit der Daten unter H₀
  • McNemar-Test — Pendant für verbundene Stichproben
  • Mantel-Haenszel-Test — für stratifizierte 2×2-Tabellen (z.B. Confounder-Adjustierung)
  • G-Test (Likelihood-Ratio χ²) — alternative Berechnung mit ähnlicher Verteilung

Häufige Fragen

  • „Wann verwende ich den Chi-Quadrat-Test und wann Fishers exakten Test?" → Den χ²-Test bei ausreichender Stichprobe (alle erwarteten Häufigkeiten Eᵢ ≥ 5). Fishers exakten Test bei 2×2-Tabellen mit mindestens einer Zelle Eᵢ < 5 oder bei sehr kleinen Stichproben (n < 20). SPSS gibt bei 2×2-Tabellen beide Werte automatisch aus.
  • „Was bedeutet 'Asymptotische Signifikanz' in SPSS?" → Das ist der p-Wert basierend auf der asymptotischen χ²-Verteilung — gültig bei ausreichend großer Stichprobe. Bei kleinen n nutzt man stattdessen die exakte Signifikanz (Fisher) oder Monte-Carlo-Simulation.
  • „Muss ich die Yates-Kontinuitätskorrektur anwenden?" → Bei 2×2-Tabellen mit kleinen Stichproben war Yates lange Standard. Heute empfehlen viele Methodiker entweder den Fisher-Test direkt oder den unkorrigierten χ²-Test, da Yates' Korrektur als überkonservativ gilt. Wichtig ist Konsistenz und Transparenz in der Methodendokumentation.
  • „Was sind standardisierte Residuen und wozu dienen sie?" → Standardisierte Residuen zeigen, welche einzelnen Zellen der Kreuztabelle besonders stark zur Signifikanz beitragen. Werte > |2| gelten als signifikant abweichend von der erwarteten Häufigkeit. Sie helfen, das Muster eines signifikanten χ²-Ergebnisses zu interpretieren.
  • „Welche Effektstärke berichte ich bei einer 3×4-Kreuztabelle?" → Cramérs V. Phi (φ) ist nur für 2×2-Tabellen definiert. Cramérs V normiert auf den Wertebereich 0–1 und ist unabhängig von der Tabellengröße interpretierbar (0,1 klein / 0,3 mittel / 0,5 groß nach Cohen).
  • „Kann ich den Chi-Quadrat-Test für ordinale Daten verwenden?" → Technisch ja, aber methodisch suboptimal. Der χ²-Test ignoriert die Ordnung der Kategorien. Bei ordinalen Variablen sind der Mantel-Haenszel Trend-Test, der Jonckheere-Terpstra-Test oder ordinale Logit-Modelle aussagekräftiger.
  • „Was tun, wenn meine Kreuztabelle mehrere leere Zellen enthält?" → Erst inhaltlich prüfen: Sind die leeren Zellen strukturell (unmöglich) oder zufällig leer? Bei zufällig leeren Zellen Kategorien sinnvoll zusammenfassen (z.B. Altersgruppen kombinieren) oder auf den Fishers exakten Test bzw. Monte-Carlo-Simulation wechseln.
  • „Wie unterscheidet sich der χ²-Anpassungstest vom Unabhängigkeitstest?" → Der Anpassungstest (Goodness-of-Fit) prüft eine Variable gegen eine theoretisch erwartete Verteilung (z.B. Mendelsche Vererbungsregeln 3:1). Der Unabhängigkeitstest prüft den Zusammenhang zweier Variablen in einer Kreuztabelle. Formel und Verteilung sind identisch, nur die Freiheitsgrade unterscheiden sich (df = k−1 vs. df = (r−1)(c−1)).
  • „Wieso berichtet meine Doktormutter Odds Ratios statt χ²?" → Beide ergänzen sich: Der χ²-Test prüft, ob ein Zusammenhang signifikant ist; das Odds Ratio quantifiziert, wie stark und in welche Richtung der Effekt geht. Bei Fragebogen- und Therapieauswertungen sollten beide gemeinsam berichtet werden — siehe auch Fragebogen auswerten.
  • „Wie groß muss meine Stichprobe für einen χ²-Test sein?" → Faustregel: n ≥ 20 insgesamt und alle Eᵢ ≥ 5. Für eine zuverlässige Detektion mittlerer Effekte (Cramérs V ≈ 0,3) bei α = 0,05 und Power = 0,80 in einer 2×2-Tabelle benötigt man etwa n = 88. Eine Power-Analyse vor Studienbeginn ist Standard.
✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer