Fishers exakter Test: Definition, Anwendung & Beispiele
Fishers exakter Test prüft den Zusammenhang zweier nominaler Variablen in 2×2-Tabellen — besonders bei kleinen Stichproben oder geringer Zellbesetzung. Definition, Voraussetzungen, Abgrenzung zum Chi-Quadrat-Test, Anwendung in SPSS und R.
Definition
Fishers exakter Test (auch Fisher-Yates-Test) ist ein nicht-parametrischer Signifikanztest zur Prüfung des Zusammenhangs zweier kategorialer (nominaler) Variablen in einer Kreuztabelle. Im Unterschied zum Chi-Quadrat-Test, der auf einer asymptotischen Approximation beruht, berechnet Fishers Test den exakten p-Wert über die hypergeometrische Verteilung — er ist daher auch bei sehr kleinen Stichproben gültig.
Merke: "Exakt" bedeutet, dass der p-Wert nicht über eine Näherungsverteilung (χ²-Verteilung) geschätzt, sondern direkt kombinatorisch berechnet wird. Damit umgeht der Test die Voraussetzung "erwartete Zellhäufigkeit ≥ 5" des Chi-Quadrat-Tests.
Der Test wurde 1935 von Ronald A. Fisher am Beispiel des berühmten Lady-Tasting-Tea-Experiments eingeführt und ist heute Standard für 2×2-Kreuztabellen mit kleinen Fallzahlen — typisch für klinische Pilotstudien, Fallserien oder seltene Erkrankungen.
Voraussetzungen
Damit Fishers exakter Test korrekt angewendet werden kann, müssen folgende Bedingungen erfüllt sein:
- Beide Variablen kategorial (nominal) — typischerweise dichotom (ja/nein, krank/gesund, Therapie A/B)
- Beobachtungen unabhängig — jede Person/Einheit erscheint nur einmal in der Tabelle
- Feste Randsummen (formal-strenge Annahme) — in der Praxis wird der Test aber auch bei nur einer fixierten Randsumme breit eingesetzt
- Idealerweise 2×2-Tabelle — Erweiterungen auf r×c-Tabellen sind möglich (Fisher-Freeman-Halton-Test), rechnerisch jedoch aufwendig
Anders als beim Chi-Quadrat-Test gibt es keine Mindestanforderung an erwartete Zellhäufigkeiten. Eine ausführliche Diskussion der Testwahl bei nominalen Daten findest du im Leitfaden Statistik in der Doktorarbeit.
Wann Fisher statt Chi-Quadrat?
Die Faustregel lautet:
| Situation | Empfohlener Test |
|---|---|
| 2×2-Tabelle, alle erwarteten Häufigkeiten ≥ 5 | Chi-Quadrat-Test (oder Fisher — beide gültig) |
| 2×2-Tabelle, ≥ 1 erwartete Häufigkeit < 5 | Fishers exakter Test |
| Gesamt-N < 20 | Fishers exakter Test |
| 20 ≤ N < 40 und min. erwartete Häufigkeit < 5 | Fishers exakter Test |
| r×c-Tabelle (z.B. 3×4), kleine Zellen | Fisher-Freeman-Halton (exakte Erweiterung) |
Praxis-Tipp: Bei modernen Statistik-Paketen ist Fishers Test rechnerisch kein Problem mehr — auch bei großen Stichproben. Viele Methodikgutachter akzeptieren ihn daher als universellen Standard für 2×2-Tabellen, unabhängig von der Zellbesetzung. Im Zweifel: Fisher.
Berechnung des p-Werts
Der p-Wert basiert auf der hypergeometrischen Verteilung. Für eine 2×2-Tabelle:
| Merkmal + | Merkmal − | Summe | |
|---|---|---|---|
| Gruppe 1 | a | b | a+b |
| Gruppe 2 | c | d | c+d |
| Summe | a+c | b+d | n |
Die Wahrscheinlichkeit der beobachteten Tabelle (gegeben die Randsummen) wird kombinatorisch berechnet, ebenso für alle "extremeren" Tabellen mit denselben Randsummen. Die Summe dieser Wahrscheinlichkeiten ergibt den exakten p-Wert. In der Praxis übernimmt das die Software — eine händische Berechnung ist ab n > 20 nicht mehr praktikabel.
Klinisches Anwendungsbeispiel
Studie: Pilotstudie zur Prophylaxe einer postoperativen Wundinfektion nach Weisheitszahn-OP. Zwei Gruppen erhalten unterschiedliche perioperative Antibiose-Schemata.
| Wundinfektion | Keine Infektion | Summe | |
|---|---|---|---|
| Schema A (Single Shot) | 1 | 14 | 15 |
| Schema B (3 Tage oral) | 5 | 10 | 15 |
| Summe | 6 | 24 | 30 |
Erwartete Häufigkeit für Zelle "Schema A & Infektion": (15 × 6) / 30 = 3,0 → < 5 → Chi-Quadrat-Test ungeeignet → Fishers exakter Test.
Ergebnis (R): p = 0,169 (zweiseitig), Odds Ratio = 0,15 (95%-KI: 0,003–1,40)
Interpretation: Obwohl die Infektionsrate unter Schema A nur 6,7 % vs. 33,3 % unter Schema B beträgt, ist der Unterschied bei n = 30 nicht signifikant (p > 0,05). Das weite Konfidenzintervall der Odds Ratio zeigt: Die Stichprobe ist zu klein, um den (möglicherweise klinisch relevanten) Effekt zuverlässig zu bestätigen. Eine Power-Analyse für die geplante Hauptstudie ist notwendig.
In SPSS berechnen
Analysieren → Deskriptive Statistiken → Kreuztabellen…
- Zeilen-Variable und Spalten-Variable auswählen
- Button Statistiken… → Häkchen bei Chi-Quadrat setzen
- OK
Im Output-Tab "Chi-Quadrat-Tests" erscheint bei 2×2-Tabellen automatisch die Zeile "Exakter Test nach Fisher" mit zwei p-Werten:
- Exakte Signifikanz (zweiseitig) — Standardangabe für Publikationen
- Exakte Signifikanz (einseitig) — nur bei vorab begründeter Richtungshypothese
Hinweis: SPSS gibt Fishers Test bei 2×2-Tabellen routinemäßig aus. Für r×c-Tabellen (z.B. 3×3) muss das Modul "Exakte Tests" lizenziert sein, sonst nur Monte-Carlo-Approximation. Eine ausführliche SPSS-Anleitung zeigt weitere Tests im Detail.
In R berechnen
# 2x2-Kreuztabelle aufbauen
infektion <- matrix(c(1, 5, 14, 10),
nrow = 2,
dimnames = list(Schema = c("A", "B"),
Outcome = c("Infektion", "keine")))
# Fishers exakter Test
fisher.test(infektion)
#
# Fisher's Exact Test for Count Data
#
# data: infektion
# p-value = 0.169
# alternative hypothesis: true odds ratio is not equal to 1
# 95 percent confidence interval:
# 0.003 1.404
# sample estimates:
# odds ratio
# 0.152
# Einseitig (nur wenn Richtung vorab begründet)
fisher.test(infektion, alternative = "less")
# Für r×c-Tabellen mit hohem Rechenaufwand:
fisher.test(grosse_tabelle, simulate.p.value = TRUE, B = 10000)
Die Funktion fisher.test() liefert zusätzlich die Odds Ratio mit 95%-Konfidenzintervall — ein großer Vorteil gegenüber chisq.test(). Mehr Beispiele in unserer R-Statistik-Anleitung.
Häufige Fehler
Fehler 1: Chi-Quadrat trotz kleiner erwarteter Häufigkeiten anwenden
Wenn auch nur eine erwartete Zellhäufigkeit < 5 ist, wird die χ²-Approximation unzuverlässig — der p-Wert kann deutlich verzerrt sein. Lösung: auf Fisher umsteigen (kostet nichts, keine zusätzlichen Annahmen).
Fehler 2: Einseitigen p-Wert berichten ohne Begründung
Der einseitige Test halbiert den p-Wert — was attraktiv wirkt, aber nur zulässig ist, wenn die Effektrichtung vor Datenerhebung begründet feststand. In der medizinischen Forschung ist der zweiseitige Test Standard.
Fehler 3: Fisher bei abhängigen Stichproben
Bei gepaarten Daten (z.B. Vorher-Nachher am selben Patienten) ist Fishers Test falsch. Korrekt ist hier der McNemar-Test.
Fehler 4: Fisher bei mehr als zwei Gruppen ohne Erweiterung
Eine 3×3-Tabelle kann nicht mit dem klassischen 2×2-Fisher analysiert werden. Notwendig ist die Fisher-Freeman-Halton-Erweiterung (in R via fisher.test() automatisch, in SPSS nur mit Modul "Exakte Tests").
Fehler 5: Statistische Signifikanz mit klinischer Relevanz verwechseln
Auch ein nicht-signifikanter p-Wert (wie im Beispiel oben) schließt einen klinisch wichtigen Effekt nicht aus — bei kleinen Stichproben fehlt häufig die statistische Power. Immer Effektgröße (Odds Ratio) und Konfidenzintervall mit berichten.
Verwandte Konzepte
- Chi-Quadrat-Test — asymptotische Alternative für größere Stichproben
- Kreuztabelle — Darstellungsform für Zusammenhang zweier kategorialer Variablen
- p-Wert — Wahrscheinlichkeit unter H₀
- Odds Ratio — Effektmaß für 2×2-Tabellen
- McNemar-Test — Pendant für gepaarte (abhängige) dichotome Daten
- Fisher-Freeman-Halton-Test — Erweiterung für r×c-Tabellen
Häufige Fragen
- „Wann sollte ich Fishers exakten Test statt Chi-Quadrat verwenden?" → Immer dann, wenn mindestens eine erwartete Zellhäufigkeit kleiner als 5 ist oder die Gesamt-Stichprobe unter 20 liegt. Bei größeren Stichproben mit ausreichend besetzten Zellen liefern beide Tests praktisch identische Ergebnisse — bei modernen Rechnerleistungen kannst du Fisher auch routinemäßig als Standard für 2×2-Tabellen einsetzen.
- „Was bedeutet 'exakt' im Namen des Tests?" → Der p-Wert wird nicht über eine Näherungsverteilung (wie die χ²-Verteilung beim Chi-Quadrat-Test) geschätzt, sondern direkt aus der hypergeometrischen Verteilung kombinatorisch berechnet. Dadurch ist der Test auch bei sehr kleinen Stichproben mathematisch korrekt.
- „Kann ich Fishers Test bei einer 3×4-Tabelle anwenden?" → Ja, in der erweiterten Form als Fisher-Freeman-Halton-Test. R berechnet diesen automatisch über
fisher.test(). SPSS benötigt das Zusatzmodul 'Exakte Tests'. Bei sehr großen Tabellen kann die Rechenzeit hoch sein — dann bietet sichsimulate.p.value = TRUEmit Monte-Carlo-Simulation an. - „Was ist der Unterschied zwischen einseitigem und zweiseitigem Fisher-Test?" → Beim zweiseitigen Test wird ein Zusammenhang in beide Richtungen geprüft (Standard in der Medizin). Beim einseitigen Test nur in eine vorab spezifizierte Richtung — der p-Wert wird dann etwa halbiert. Einseitige Tests sind nur zulässig, wenn die Effektrichtung vor Datenerhebung begründet wurde, und müssen entsprechend dokumentiert sein.
- „Liefert Fishers Test auch eine Effektstärke?" → Direkt nicht, aber in der Standardausgabe (z.B. R) wird zusätzlich die Odds Ratio mit 95%-Konfidenzintervall ausgegeben. Diese sollte immer mit dem p-Wert berichtet werden, da sie die Größe und Präzision des Effekts beschreibt — was der p-Wert allein nicht leistet.
- „Was tun bei abhängigen (gepaarten) Daten?" → Dann ist Fishers Test ungeeignet. Für gepaarte dichotome Daten (z.B. derselbe Patient vor und nach einer Intervention) ist der McNemar-Test der korrekte Test. Bei mehreren Messzeitpunkten erweitert sich das auf den Cochran-Q-Test.
- „Warum gibt SPSS bei größeren Tabellen manchmal keinen Fisher-p-Wert aus?" → SPSS berechnet Fisher routinemäßig nur für 2×2-Tabellen. Für größere Tabellen (z.B. 3×3) braucht es das kostenpflichtige Modul 'Exakte Tests'. Ohne dieses Modul wird stattdessen ein Monte-Carlo-geschätzter p-Wert oder nur der approximative Chi-Quadrat-p-Wert ausgegeben.
- „Ist Fishers Test konservativ?" → Ja, in der klassischen Variante mit fixierten Randsummen gilt der Test als leicht konservativ — das heißt, er hat tendenziell eine niedrigere Power als notwendig, um signifikante Ergebnisse zu detektieren. In der Praxis ist dieser Effekt gering, und der Vorteil der mathematischen Exaktheit bei kleinen Stichproben überwiegt deutlich.
- „Wie berichte ich Fishers Test in einer Publikation?" → Standardformat: 'Der Zusammenhang zwischen Therapieschema und Wundinfektion wurde mit Fishers exaktem Test geprüft (Schema A: 1/15 [6,7 %] vs. Schema B: 5/15 [33,3 %]; OR = 0,15; 95%-KI: 0,003–1,40; p = 0,169).' Wichtig sind absolute Häufigkeiten, Prozente, Effektmaß mit KI und der zweiseitige p-Wert.