Wann verwende ich den Chi-Quadrat-Test und wann Fishers exakten Test?

Den χ²-Test bei ausreichender Stichprobe (alle erwarteten Häufigkeiten Eᵢ ≥ 5). Fishers exakten Test bei 2×2-Tabellen mit mindestens einer Zelle Eᵢ < 5 oder bei sehr kleinen Stichproben (n < 20). SPSS gibt bei 2×2-Tabellen beide Werte automatisch aus.

Was bedeutet 'Asymptotische Signifikanz' in SPSS?

Das ist der p-Wert basierend auf der asymptotischen χ²-Verteilung — gültig bei ausreichend großer Stichprobe. Bei kleinen n nutzt man stattdessen die exakte Signifikanz (Fisher) oder Monte-Carlo-Simulation.

Muss ich die Yates-Kontinuitätskorrektur anwenden?

Bei 2×2-Tabellen mit kleinen Stichproben war Yates lange Standard. Heute empfehlen viele Methodiker entweder den Fisher-Test direkt oder den unkorrigierten χ²-Test, da Yates' Korrektur als überkonservativ gilt. Wichtig ist Konsistenz und Transparenz in der Methodendokumentation.

Was sind standardisierte Residuen und wozu dienen sie?

Standardisierte Residuen zeigen, welche einzelnen Zellen der Kreuztabelle besonders stark zur Signifikanz beitragen. Werte > |2| gelten als signifikant abweichend von der erwarteten Häufigkeit. Sie helfen, das Muster eines signifikanten χ²-Ergebnisses zu interpretieren.

Welche Effektstärke berichte ich bei einer 3×4-Kreuztabelle?

Cramérs V. Phi (φ) ist nur für 2×2-Tabellen definiert. Cramérs V normiert auf den Wertebereich 0–1 und ist unabhängig von der Tabellengröße interpretierbar (0,1 klein / 0,3 mittel / 0,5 groß nach Cohen).

Kann ich den Chi-Quadrat-Test für ordinale Daten verwenden?

Technisch ja, aber methodisch suboptimal. Der χ²-Test ignoriert die Ordnung der Kategorien. Bei ordinalen Variablen sind der Mantel-Haenszel Trend-Test, der Jonckheere-Terpstra-Test oder ordinale Logit-Modelle aussagekräftiger.

Was tun, wenn meine Kreuztabelle mehrere leere Zellen enthält?

Erst inhaltlich prüfen: Sind die leeren Zellen strukturell (unmöglich) oder zufällig leer? Bei zufällig leeren Zellen Kategorien sinnvoll zusammenfassen (z.B. Altersgruppen kombinieren) oder auf den Fishers exakten Test bzw. Monte-Carlo-Simulation wechseln.

Wie unterscheidet sich der χ²-Anpassungstest vom Unabhängigkeitstest?

Der Anpassungstest (Goodness-of-Fit) prüft eine Variable gegen eine theoretisch erwartete Verteilung (z.B. Mendelsche Vererbungsregeln 3:1). Der Unabhängigkeitstest prüft den Zusammenhang zweier Variablen in einer Kreuztabelle. Formel und Verteilung sind identisch, nur die Freiheitsgrade unterscheiden sich (df = k−1 vs. df = (r−1)(c−1)).

Wieso berichtet meine Doktormutter Odds Ratios statt χ²?

Beide ergänzen sich: Der χ²-Test prüft,

Wie groß muss meine Stichprobe für einen χ²-Test sein?

Faustregel: n ≥ 20 insgesamt und alle Eᵢ ≥ 5. Für eine zuverlässige Detektion mittlerer Effekte (Cramérs V ≈ 0,3) bei α = 0,05 und Power = 0,80 in einer 2×2-Tabelle benötigt man etwa n = 88. Eine [Power-Analyse](/lexikon/statistik/power-analyse) vor Studienbeginn ist Standard.

Chi-Quadrat-Test: Definition, Formel & Anwendung

Q: Was bedeutet 'Asymptotische Signifikanz' in SPSS?

Das ist der p-Wert basierend auf der asymptotischen χ²-Verteilung — gültig bei ausreichend großer Stichprobe. Bei kleinen n nutzt man stattdessen die exakte Signifikanz (Fisher) oder Monte-Carlo-Simulation.

Q: Muss ich die Yates-Kontinuitätskorrektur anwenden?

Bei 2×2-Tabellen mit kleinen Stichproben war Yates lange Standard. Heute empfehlen viele Methodiker entweder den Fisher-Test direkt oder den unkorrigierten χ²-Test, da Yates' Korrektur als überkonservativ gilt. Wichtig ist Konsistenz und Transparenz in der Methodendokumentation.

Q: Was sind standardisierte Residuen und wozu dienen sie?

Standardisierte Residuen zeigen, welche einzelnen Zellen der Kreuztabelle besonders stark zur Signifikanz beitragen. Werte > |2| gelten als signifikant abweichend von der erwarteten Häufigkeit. Sie helfen, das Muster eines signifikanten χ²-Ergebnisses zu interpretieren.

Der Chi-Quadrat-Test prüft, ob zwei kategoriale Variablen voneinander unabhängig sind oder ob beobachtete Häufigkeiten von erwarteten abweichen. Definition, Formel, Voraussetzungen, SPSS- und R-Anwendung.

📊 Hypothesentests · ⏱️ 10 Min. · Aktualisiert 2026-05-10

Definition

Der Chi-Quadrat-Test (auch Pearson χ²-Test, Kontingenztest) ist ein nicht-parametrischer Hypothesentest für nominal skalierte Variablen. Er prüft, ob die in einer Stichprobe beobachteten Häufigkeiten (O = observed) signifikant von den unter der Nullhypothese erwarteten Häufigkeiten (E = expected) abweichen.

Es gibt drei Hauptvarianten:

Unabhängigkeitstest — Sind zwei kategoriale Variablen voneinander unabhängig? (häufigster Anwendungsfall in der Medizin)
Anpassungstest (Goodness-of-Fit) — Folgen die beobachteten Häufigkeiten einer theoretisch erwarteten Verteilung?
Homogenitätstest — Stammen mehrere Stichproben aus Populationen mit gleicher Verteilung?

Merke: Der Chi-Quadrat-Test sagt dir nur, ob ein Zusammenhang besteht — nicht wie stark er ist. Für die Effektstärke benötigst du zusätzlich Cramérs V oder den Phi-Koeffizienten.

Formel

Die Teststatistik berechnet sich aus der Summe der quadrierten standardisierten Abweichungen:

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

Dabei ist:

Oᵢ = beobachtete Häufigkeit in Zelle i
Eᵢ = erwartete Häufigkeit in Zelle i (unter H₀)
k = Anzahl der Zellen der Kreuztabelle

Bei einer Kreuztabelle mit r Zeilen und c Spalten berechnet sich die erwartete Häufigkeit pro Zelle als:

$$E_{ij} = \frac{\text{Zeilensumme}_i \times \text{Spaltensumme}_j}{n}$$

Die Freiheitsgrade ergeben sich aus df = (r − 1) × (c − 1). Der p-Wert wird aus der χ²-Verteilung mit entsprechenden Freiheitsgraden abgelesen.

Voraussetzungen

Damit der Chi-Quadrat-Test valide Ergebnisse liefert, müssen folgende Voraussetzungen erfüllt sein:

Nominalskala — beide Variablen kategorial (z.B. Geschlecht, Erkrankungsstatus, Therapiegruppe). Ordinale Variablen werden zwar oft mitgetestet, aber Information geht verloren.
Unabhängige Beobachtungen — jeder Proband zählt nur einmal. Bei verbundenen Stichproben (z.B. vorher/nachher) verwendet man den McNemar-Test.
Erwartete Häufigkeiten Eᵢ ≥ 5 — die klassische Cochran-Regel besagt: alle erwarteten Häufigkeiten sollten ≥ 5 sein, bei 2×2-Tabellen sogar strikt. Mindestens 80 % der Zellen müssen Eᵢ ≥ 5 erreichen.
Stichprobengröße ausreichend — Faustregel: n ≥ 20 pro Zeile/Spalte bei größeren Tabellen.

Praxis-Tipp: Sind die erwarteten Häufigkeiten zu klein, weiche auf den Fishers exakten Test aus (für 2×2-Tabellen exakt) oder fasse Kategorien sinnvoll zusammen.

Eine ausführliche Diskussion zur Testauswahl findest du im Beitrag zu Statistik in der Doktorarbeit.

Interpretation

Die Interpretation folgt dem klassischen Hypothesentest-Schema:

χ²-Ergebnis	Interpretation
p < 0,05	H₀ ablehnen — Variablen sind nicht unabhängig (es besteht ein Zusammenhang)
p ≥ 0,05	H₀ beibehalten — kein Hinweis auf Zusammenhang
df hoch + großes n	auch kleine Effekte werden signifikant — Effektstärke prüfen!

Effektstärke bei signifikantem Ergebnis ergänzen:

Effektstärke	Maß	Wertebereich
2×2-Tabelle	Phi (φ)	0,1 klein / 0,3 mittel / 0,5 groß
> 2×2-Tabelle	Cramérs V	0,1 klein / 0,3 mittel / 0,5 groß

Wichtig: Ein signifikanter χ²-Test sagt nichts über die Richtung des Zusammenhangs aus. Ob Therapie A besser oder schlechter wirkt als B, musst du an den Häufigkeiten der Kreuztabelle bzw. an den standardisierten Residuen ablesen.

Klinisches Anwendungsbeispiel

Studie: Einfluss eines neuen Mundspüllösungs-Protokolls auf die Inzidenz postoperativer Wundinfektionen nach Weisheitszahnentfernung (n = 200).

	Infektion ja	Infektion nein	Σ
Chlorhexidin (neu)	8	92	100
Standardspülung	22	78	100
Σ	30	170	200

Erwartete Häufigkeiten unter H₀ (Unabhängigkeit):

E(Chlorhexidin, Infektion) = (100 × 30) / 200 = 15
E(Chlorhexidin, keine Infektion) = (100 × 170) / 200 = 85
E(Standard, Infektion) = 15
E(Standard, keine Infektion) = 85

Berechnung:

$$\chi^2 = \frac{(8-15)^2}{15} + \frac{(92-85)^2}{85} + \frac{(22-15)^2}{15} + \frac{(78-85)^2}{85}$$

$$\chi^2 = 3{,}27 + 0{,}58 + 3{,}27 + 0{,}58 = 7{,}69$$

Mit df = (2−1)(2−1) = 1 ergibt sich p = 0,0056.

Interpretation: Die Infektionsrate unterscheidet sich signifikant zwischen den Gruppen (p < 0,01). In der Chlorhexidin-Gruppe traten 8 % Infektionen auf, in der Standardgruppe 22 %. Die Effektstärke φ = 0,196 zeigt einen kleinen bis mittleren Effekt. Klinisch entspricht dies einer Risikoreduktion um etwa 64 % (Odds Ratio ≈ 0,31).

In SPSS berechnen

Analysieren → Deskriptive Statistiken → Kreuztabellen…

Zeilenvariable und Spaltenvariable einfügen
Button "Statistik…" → Häkchen bei Chi-Quadrat und Phi und Cramérs V
Button "Zellen…" → Häkchen bei Erwartete Häufigkeiten und Standardisierte Residuen
OK

Im Output relevant:

Tabelle "Chi-Quadrat-Tests" → Zeile "Pearson-Chi-Quadrat" mit Wert, df und Asymptotische Signifikanz (zweiseitig) = p-Wert
Fußnote prüfen: Wie viele Zellen haben erwartete Häufigkeit < 5? (Bei 2×2 sollte das 0 % sein, sonst Fishers exakten Test verwenden — wird darunter direkt mit angegeben)
Tabelle "Symmetrische Maße" → Phi bzw. Cramérs V als Effektstärke

Eine ausführliche SPSS-Anleitung mit Screenshots findest du im Begleit-Tutorial.

In R berechnen

# Daten als Kreuztabelle
tab <- matrix(c(8, 22, 92, 78), nrow = 2,
              dimnames = list(Gruppe = c("Chlorhexidin", "Standard"),
                              Infektion = c("Ja", "Nein")))

# Chi-Quadrat-Test
chi <- chisq.test(tab, correct = FALSE)
chi
# Pearson's Chi-squared test
# X-squared = 7.69, df = 1, p-value = 0.005558

# Erwartete Häufigkeiten prüfen
chi$expected

# Standardisierte Residuen (zeigen Abweichungsrichtung)
chi$stdres

# Effektstärke Cramérs V
library(rcompanion)
cramerV(tab)
# [1] 0.196

Bei kleinen Stichproben (E < 5):

fisher.test(tab)   # Fishers exakter Test als Alternative

Die Option correct = FALSE deaktiviert die Yates-Kontinuitätskorrektur. Bei 2×2-Tabellen mit kleinen Erwartungswerten ist correct = TRUE (Default) konservativer. Mehr in unserer R-Statistik-Anleitung.

Häufige Fehler

Fehler 1: Erwartete Häufigkeiten nicht prüfen

Bei Eᵢ < 5 ist der χ²-Test nicht mehr valide — die χ²-Approximation versagt. Immer SPSS-Fußnote bzw. chisq.test()$expected prüfen und bei Bedarf auf Fishers exakten Test wechseln.

Fehler 2: Verbundene Stichproben mit normalem χ² testen

Vorher-/Nachher-Vergleiche oder Matched-Pairs-Designs verlangen den McNemar-Test statt χ². Der χ²-Test setzt unabhängige Beobachtungen voraus.

Fehler 3: Effektstärke vergessen

Bei großen Stichproben (n > 1.000) wird fast jeder Zusammenhang signifikant. Ohne Cramérs V oder Phi bleibt unklar, ob der Effekt klinisch relevant ist.

Fehler 4: Ordinale Information ignorieren

Werden ordinale Variablen (z.B. Schmerz-NRS in Kategorien) mit χ² getestet, geht die Rangordnung verloren. Sinnvoller: Mantel-Haenszel Trend-Test oder ordinaler Logit.

Fehler 5: Mehrfaches Testen ohne Korrektur

Werden mehrere Kreuztabellen geprüft (z.B. Therapieerfolg × Geschlecht × Alter × Rauchstatus), explodiert der α-Fehler. Korrektur via Bonferroni oder FDR notwendig.

Fehler 6: Yates-Korrektur unkritisch übernehmen

Die Kontinuitätskorrektur (correct = TRUE) ist bei 2×2 mit kleinen Erwartungen konservativ — viele Methodiker empfehlen heute, sie zu deaktivieren oder direkt Fishers exakten Test zu rechnen. Begründe deine Wahl in der Methodik.

Häufige Fragen

„Wann verwende ich den Chi-Quadrat-Test und wann Fishers exakten Test?" → Den χ²-Test bei ausreichender Stichprobe (alle erwarteten Häufigkeiten Eᵢ ≥ 5). Fishers exakten Test bei 2×2-Tabellen mit mindestens einer Zelle Eᵢ < 5 oder bei sehr kleinen Stichproben (n < 20). SPSS gibt bei 2×2-Tabellen beide Werte automatisch aus.
„Was bedeutet 'Asymptotische Signifikanz' in SPSS?" → Das ist der p-Wert basierend auf der asymptotischen χ²-Verteilung — gültig bei ausreichend großer Stichprobe. Bei kleinen n nutzt man stattdessen die exakte Signifikanz (Fisher) oder Monte-Carlo-Simulation.
„Muss ich die Yates-Kontinuitätskorrektur anwenden?" → Bei 2×2-Tabellen mit kleinen Stichproben war Yates lange Standard. Heute empfehlen viele Methodiker entweder den Fisher-Test direkt oder den unkorrigierten χ²-Test, da Yates' Korrektur als überkonservativ gilt. Wichtig ist Konsistenz und Transparenz in der Methodendokumentation.
„Was sind standardisierte Residuen und wozu dienen sie?" → Standardisierte Residuen zeigen, welche einzelnen Zellen der Kreuztabelle besonders stark zur Signifikanz beitragen. Werte > |2| gelten als signifikant abweichend von der erwarteten Häufigkeit. Sie helfen, das Muster eines signifikanten χ²-Ergebnisses zu interpretieren.
„Welche Effektstärke berichte ich bei einer 3×4-Kreuztabelle?" → Cramérs V. Phi (φ) ist nur für 2×2-Tabellen definiert. Cramérs V normiert auf den Wertebereich 0–1 und ist unabhängig von der Tabellengröße interpretierbar (0,1 klein / 0,3 mittel / 0,5 groß nach Cohen).
„Kann ich den Chi-Quadrat-Test für ordinale Daten verwenden?" → Technisch ja, aber methodisch suboptimal. Der χ²-Test ignoriert die Ordnung der Kategorien. Bei ordinalen Variablen sind der Mantel-Haenszel Trend-Test, der Jonckheere-Terpstra-Test oder ordinale Logit-Modelle aussagekräftiger.
„Was tun, wenn meine Kreuztabelle mehrere leere Zellen enthält?" → Erst inhaltlich prüfen: Sind die leeren Zellen strukturell (unmöglich) oder zufällig leer? Bei zufällig leeren Zellen Kategorien sinnvoll zusammenfassen (z.B. Altersgruppen kombinieren) oder auf den Fishers exakten Test bzw. Monte-Carlo-Simulation wechseln.
„Wie unterscheidet sich der χ²-Anpassungstest vom Unabhängigkeitstest?" → Der Anpassungstest (Goodness-of-Fit) prüft eine Variable gegen eine theoretisch erwartete Verteilung (z.B. Mendelsche Vererbungsregeln 3:1). Der Unabhängigkeitstest prüft den Zusammenhang zweier Variablen in einer Kreuztabelle. Formel und Verteilung sind identisch, nur die Freiheitsgrade unterscheiden sich (df = k−1 vs. df = (r−1)(c−1)).
„Wieso berichtet meine Doktormutter Odds Ratios statt χ²?" → Beide ergänzen sich: Der χ²-Test prüft, ob ein Zusammenhang signifikant ist; das Odds Ratio quantifiziert, wie stark und in welche Richtung der Effekt geht. Bei Fragebogen- und Therapieauswertungen sollten beide gemeinsam berichtet werden — siehe auch Fragebogen auswerten.
„Wie groß muss meine Stichprobe für einen χ²-Test sein?" → Faustregel: n ≥ 20 insgesamt und alle Eᵢ ≥ 5. Für eine zuverlässige Detektion mittlerer Effekte (Cramérs V ≈ 0,3) bei α = 0,05 und Power = 0,80 in einer 2×2-Tabelle benötigt man etwa n = 88. Eine Power-Analyse vor Studienbeginn ist Standard.

✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer