Wie erkenne ich, ob meine Daten normalverteilt sind?

Drei Schritte: (1) Histogramm zeichnen — sieht es glockenförmig aus? (2) Q-Q-Plot erstellen — liegen die Punkte auf der Diagonalen? (3) Shapiro-Wilk-Test (bei n < 5.000) durchführen. Bei Diskrepanzen zählt der visuelle Eindruck mehr als der p-Wert, vor allem bei sehr kleinen oder sehr großen Stichproben.

Welcher Test auf Normalverteilung ist der beste?

Der Shapiro-Wilk-Test gilt als trennschärfster Test und ist Standard bis n ≈ 5.000. Der Kolmogorov-Smirnov-Test (mit Lilliefors-Korrektur) ist konservativer. Bei n > 5.000 sollten Schiefe, Kurtosis und Q-Q-Plot bevorzugt werden, da formale Tests dann fast immer signifikant werden.

Was bedeutet die 68-95-99,7-Regel?

Bei einer Normalverteilung liegen ca. 68 % aller Werte im Bereich μ ± 1σ, ca. 95 % im Bereich μ ± 2σ und ca. 99,7 % im Bereich μ ± 3σ. Diese Faustregel ist Grundlage für 95%-Konfidenzintervalle (μ ± 1,96σ) und Referenzbereiche in der Labormedizin.

Was ist der Unterschied zwischen Normalverteilung und Standardnormalverteilung?

Die Standardnormalverteilung ist der Spezialfall der Normalverteilung mit μ = 0 und σ = 1. Jede Normalverteilung lässt sich durch z-Transformation (z = (x − μ)/σ) in die Standardnormalverteilung überführen. Das vereinfacht Wahrscheinlichkeitsberechnungen, da Tabellen und Funktionen für N(0,1) tabelliert sind.

Was tun, wenn meine Daten nicht normalverteilt sind?

Drei Optionen: (1) Bei n ≥ 30 pro Gruppe trotzdem parametrische Tests verwenden (zentraler Grenzwertsatz). (2) Daten transformieren (z.B. log-Transformation bei rechtsschiefen Daten wie CRP, Krankheitsdauer). (3) Nichtparametrische Verfahren wie Mann-Whitney-U, Wilcoxon oder Kruskal-Wallis verwenden, die keine Normalverteilung voraussetzen.

Müssen meine Rohdaten normalverteilt sein, oder die Residuen?

Das hängt vom Verfahren ab. Beim t-Test gilt die Annahme für die Daten in den Gruppen. Bei linearer Regression und ANOVA sind die

Warum ist die Normalverteilung so wichtig in der Statistik?

Zwei Gründe: (1) Viele biologische Messgrößen (Körpergröße, Blutdruck, IQ) sind approximativ normalverteilt. (2) Der zentrale Grenzwertsatz garantiert, dass Mittelwerte und Summen unabhängiger Zufallsvariablen bei wachsendem n gegen eine Normalverteilung konvergieren — unabhängig von der ursprünglichen Verteilung. Daher beruhen die meisten Inferenztests auf der Normalverteilung.

Wie berechne ich Wahrscheinlichkeiten aus der Normalverteilung in R?

Mit `pnorm(x, mean, sd)` für P(X ≤ x), `qnorm(p, mean, sd)` für Quantile und `dnorm(x, mean, sd)` für die Dichte. Beispiel: `1 - pnorm(160, 132, 16)` ergibt 0,040 — also liegt bei N(132, 16²) der Anteil mit Werten > 160 bei ca. 4 %. In SPSS verwendet man `CDF.NORMAL(x, mean, sd)`.

Können auch diskrete Daten normalverteilt sein?

Streng genommen nein — die Normalverteilung ist eine stetige Verteilung. In der Praxis können diskrete Variablen mit vielen Ausprägungen (z.B. Punktwerte einer Skala 0–100) approximativ normalverteilt sein. Für Zähldaten mit wenigen Ausprägungen sind Poisson- oder Binomialverteilung besser geeignet. Mehr zu Verteilungs-Auswahl in unserem [Statistik-Leitfaden](/blog/statistik-doktorarbeit).

Normalverteilung: Definition, Formel & Prüfung

Q: Welcher Test auf Normalverteilung ist der beste?

Der Shapiro-Wilk-Test gilt als trennschärfster Test und ist Standard bis n ≈ 5.000. Der Kolmogorov-Smirnov-Test (mit Lilliefors-Korrektur) ist konservativer. Bei n > 5.000 sollten Schiefe, Kurtosis und Q-Q-Plot bevorzugt werden, da formale Tests dann fast immer signifikant werden.

Die Normalverteilung (Gauß-Verteilung) ist die wichtigste stetige Wahrscheinlichkeitsverteilung der Statistik. Definition, Formel, Eigenschaften, Prüfung auf Normalität in SPSS und R.

📊 Verteilungen · ⏱️ 10 Min. · Aktualisiert 2026-05-10

Definition

Die Normalverteilung (auch: Gauß-Verteilung, Glockenkurve) ist die zentrale stetige Wahrscheinlichkeitsverteilung der Statistik. Sie ist symmetrisch um ihren Mittelwert μ, glockenförmig und vollständig durch zwei Parameter beschrieben: den Mittelwert μ (Lage) und die Standardabweichung σ (Streuung). Schreibweise: X ~ N(μ, σ²).

Die Normalverteilung ist deshalb so bedeutsam, weil viele biologische und medizinische Messgrößen (Körpergröße, Blutdruck, Hämoglobin) approximativ normalverteilt sind — und weil der zentrale Grenzwertsatz garantiert, dass Mittelwerte unabhängiger Stichproben bei wachsendem n gegen eine Normalverteilung konvergieren, unabhängig von der Verteilung der Ausgangsdaten.

Merke: Die Normalverteilung ist die Verteilung der Verteilungen — nicht weil alles in der Natur normalverteilt ist, sondern weil Mittelwerte und Summen bei großen Stichproben fast immer normalverteilt sind.

Formel

Die Dichtefunktion (PDF) der Normalverteilung lautet:

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \cdot e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$

Die Standardnormalverteilung ist der Spezialfall mit μ = 0 und σ = 1. Jede Normalverteilung lässt sich durch z-Transformation in die Standardnormalverteilung überführen:

$$z = \frac{x - \mu}{\sigma}$$

Der z-Wert gibt an, um wie viele Standardabweichungen ein Wert vom Mittelwert abweicht.

Eigenschaften

Die Normalverteilung hat folgende charakteristische Eigenschaften:

Symmetrie um μ — Schiefe = 0
Glockenform — Kurtosis (Wölbung) = 3 (bzw. Exzess = 0)
Mittelwert = Median = Modus = μ
Wendepunkte bei μ ± σ
Asymptotisches Verhalten — die Kurve nähert sich der x-Achse, erreicht sie aber nie

68-95-99,7-Regel

Eine zentrale Faustregel für die Normalverteilung:

Intervall	Anteil der Werte
μ ± 1σ	ca. 68,3 %
μ ± 2σ	ca. 95,4 %
μ ± 1,96σ	exakt 95 %
μ ± 3σ	ca. 99,7 %

Diese Regel ist Grundlage für Konfidenzintervalle: Das 95%-KI eines Mittelwerts liegt bei μ ± 1,96 · SE.

Voraussetzungen für die Anwendung

Viele klassische Tests setzen Normalverteilung der Daten (oder der Residuen) voraus:

t-Test — Normalverteilung der Daten in den Gruppen (bei n > 30 dank zentralem Grenzwertsatz weniger kritisch)
ANOVA — Normalverteilung der Residuen, Varianzhomogenität
Lineare Regression — Normalverteilung der Residuen
Pearson-Korrelation — bivariate Normalverteilung

Praxis-Tipp: Bei n ≥ 30 pro Gruppe sind parametrische Tests dank des zentralen Grenzwertsatzes meist robust gegen moderate Abweichungen von der Normalverteilung. Bei n < 30 sollte die Normalverteilung sorgfältig geprüft werden.

Klinisches Anwendungsbeispiel

Studie: In einer kardiologischen Kohorte (n = 1.200) ist der systolische Blutdruck approximativ normalverteilt mit μ = 132 mmHg und σ = 16 mmHg.

Frage 1: Welcher Anteil der Patienten hat einen Blutdruck zwischen 116 und 148 mmHg?

116 = μ − 1σ, 148 = μ + 1σ → ca. 68,3 % (per 68-95-99,7-Regel)

Frage 2: Welcher z-Wert entspricht einem Blutdruck von 160 mmHg?

z = (160 − 132) / 16 = 1,75 → der Patient liegt 1,75 SD über dem Mittelwert.

Frage 3: Welcher Anteil hat einen Blutdruck > 160 mmHg?

P(Z > 1,75) ≈ 4,0 % (aus der Standardnormaltabelle bzw. 1 - pnorm(1.75) in R)

Solche Berechnungen sind die Grundlage für Referenzbereiche in der Labormedizin (üblicherweise μ ± 1,96σ als 95%-Referenzintervall).

Normalverteilung in SPSS prüfen

Analysieren → Deskriptive Statistiken → Explorative Datenanalyse

Im Dialog unter "Diagramme" → Normalverteilungsdiagramm mit Tests aktivieren.

Im Output bekommst du:

Shapiro-Wilk-Test (empfohlen bei n < 50, gilt aber bis n ≈ 5.000): Sig. > 0,05 → Normalverteilung kann nicht abgelehnt werden
Kolmogorov-Smirnov-Test (mit Lilliefors-Korrektur): konservativer
Q-Q-Plot: Punkte sollten annähernd auf der Diagonalen liegen
Histogramm mit Normalverteilungskurve

Wichtig: Bei sehr großen Stichproben (n > 1.000) werden Shapiro-Wilk und Kolmogorov-Smirnov fast immer signifikant — selbst bei minimalen, klinisch irrelevanten Abweichungen. Daher zusätzlich Q-Q-Plot und Histogramm visuell beurteilen. Mehr Details in unserer SPSS-Anleitung.

Normalverteilung in R prüfen

# Shapiro-Wilk-Test (Standardmethode bei n < 5000)
shapiro.test(df$blutdruck)
# W = 0.9956, p-value = 0.231 → keine signifikante Abweichung

# Q-Q-Plot
qqnorm(df$blutdruck, main = "Q-Q-Plot Blutdruck")
qqline(df$blutdruck, col = "red", lwd = 2)

# Histogramm mit Normalverteilungskurve
hist(df$blutdruck, freq = FALSE, breaks = 30,
     main = "Verteilung systolischer Blutdruck")
curve(dnorm(x, mean = mean(df$blutdruck), sd = sd(df$blutdruck)),
      add = TRUE, col = "red", lwd = 2)

# Wahrscheinlichkeit P(X > 160) bei N(132, 16²)
1 - pnorm(160, mean = 132, sd = 16)
# [1] 0.04005916

# z-Wert berechnen
z <- (160 - 132) / 16   # = 1.75

Für formale Tests bei großen Stichproben sind Schiefe und Kurtosis (Paket moments oder e1071) oft informativer als p-Werte:

library(moments)
skewness(df$blutdruck)  # Werte zwischen -1 und 1 unkritisch
kurtosis(df$blutdruck)  # Werte zwischen 2 und 4 unkritisch

Häufige Fehler

Fehler 1: Tests auf Normalverteilung bei großen Stichproben überinterpretieren

Bei n > 1.000 wird der Shapiro-Wilk-Test fast immer signifikant. Das heißt nicht, dass parametrische Tests nicht anwendbar sind — der zentrale Grenzwertsatz schützt. Q-Q-Plot visuell beurteilen.

Fehler 2: Daten vs. Residuen verwechseln

Bei Regression und ANOVA müssen die Residuen normalverteilt sein, nicht die Rohdaten. Eine schief verteilte abhängige Variable kann nach Modellanpassung normalverteilte Residuen haben.

Fehler 3: Normalverteilung als Voraussetzung für nichtparametrische Tests annehmen

Mann-Whitney-U, Wilcoxon, Kruskal-Wallis benötigen keine Normalverteilung. Sie sind die Alternative bei Verletzung der Annahme.

Fehler 4: "Annähernd normalverteilt" pauschal akzeptieren

Bei n < 30 sollte die Normalverteilung kritisch geprüft werden. Bei deutlich schiefen Verteilungen (z.B. Krankheitsdauer, Laborwerte wie CRP) sind log-Transformation oder nichtparametrische Verfahren angezeigt.

Fehler 5: Modus, Median und Mittelwert gleichsetzen, ohne Verteilung zu prüfen

Diese drei Maße fallen NUR bei symmetrischen Verteilungen zusammen. Bei rechtsschiefen Verteilungen (häufig in der Medizin: Krankheitsdauer, Einkommen) gilt: Modus < Median < Mittelwert.

Häufige Fragen

„Wie erkenne ich, ob meine Daten normalverteilt sind?" → Drei Schritte: (1) Histogramm zeichnen — sieht es glockenförmig aus? (2) Q-Q-Plot erstellen — liegen die Punkte auf der Diagonalen? (3) Shapiro-Wilk-Test (bei n < 5.000) durchführen. Bei Diskrepanzen zählt der visuelle Eindruck mehr als der p-Wert, vor allem bei sehr kleinen oder sehr großen Stichproben.
„Welcher Test auf Normalverteilung ist der beste?" → Der Shapiro-Wilk-Test gilt als trennschärfster Test und ist Standard bis n ≈ 5.000. Der Kolmogorov-Smirnov-Test (mit Lilliefors-Korrektur) ist konservativer. Bei n > 5.000 sollten Schiefe, Kurtosis und Q-Q-Plot bevorzugt werden, da formale Tests dann fast immer signifikant werden.
„Was bedeutet die 68-95-99,7-Regel?" → Bei einer Normalverteilung liegen ca. 68 % aller Werte im Bereich μ ± 1σ, ca. 95 % im Bereich μ ± 2σ und ca. 99,7 % im Bereich μ ± 3σ. Diese Faustregel ist Grundlage für 95%-Konfidenzintervalle (μ ± 1,96σ) und Referenzbereiche in der Labormedizin.
„Was ist der Unterschied zwischen Normalverteilung und Standardnormalverteilung?" → Die Standardnormalverteilung ist der Spezialfall der Normalverteilung mit μ = 0 und σ = 1. Jede Normalverteilung lässt sich durch z-Transformation (z = (x − μ)/σ) in die Standardnormalverteilung überführen. Das vereinfacht Wahrscheinlichkeitsberechnungen, da Tabellen und Funktionen für N(0,1) tabelliert sind.
„Was tun, wenn meine Daten nicht normalverteilt sind?" → Drei Optionen: (1) Bei n ≥ 30 pro Gruppe trotzdem parametrische Tests verwenden (zentraler Grenzwertsatz). (2) Daten transformieren (z.B. log-Transformation bei rechtsschiefen Daten wie CRP, Krankheitsdauer). (3) Nichtparametrische Verfahren wie Mann-Whitney-U, Wilcoxon oder Kruskal-Wallis verwenden, die keine Normalverteilung voraussetzen.
„Müssen meine Rohdaten normalverteilt sein, oder die Residuen?" → Das hängt vom Verfahren ab. Beim t-Test gilt die Annahme für die Daten in den Gruppen. Bei linearer Regression und ANOVA sind die Residuen entscheidend, nicht die Rohdaten. Eine schief verteilte abhängige Variable kann nach Modellanpassung normalverteilte Residuen produzieren.
„Warum ist die Normalverteilung so wichtig in der Statistik?" → Zwei Gründe: (1) Viele biologische Messgrößen (Körpergröße, Blutdruck, IQ) sind approximativ normalverteilt. (2) Der zentrale Grenzwertsatz garantiert, dass Mittelwerte und Summen unabhängiger Zufallsvariablen bei wachsendem n gegen eine Normalverteilung konvergieren — unabhängig von der ursprünglichen Verteilung. Daher beruhen die meisten Inferenztests auf der Normalverteilung.
„Wie berechne ich Wahrscheinlichkeiten aus der Normalverteilung in R?" → Mit pnorm(x, mean, sd) für P(X ≤ x), qnorm(p, mean, sd) für Quantile und dnorm(x, mean, sd) für die Dichte. Beispiel: 1 - pnorm(160, 132, 16) ergibt 0,040 — also liegt bei N(132, 16²) der Anteil mit Werten > 160 bei ca. 4 %. In SPSS verwendet man CDF.NORMAL(x, mean, sd).
„Können auch diskrete Daten normalverteilt sein?" → Streng genommen nein — die Normalverteilung ist eine stetige Verteilung. In der Praxis können diskrete Variablen mit vielen Ausprägungen (z.B. Punktwerte einer Skala 0–100) approximativ normalverteilt sein. Für Zähldaten mit wenigen Ausprägungen sind Poisson- oder Binomialverteilung besser geeignet. Mehr zu Verteilungs-Auswahl in unserem Statistik-Leitfaden.

✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer