Varianz: Definition, Formel & Interpretation

Die Varianz ist das durchschnittliche Quadrat der Abweichungen vom Mittelwert. Definition, Formel, Berechnung in SPSS und R sowie häufige Fehler bei der Interpretation.

Definition

Die Varianz (Symbol: σ² für die Population, s² für die Stichprobe) ist ein zentrales Streuungsmaß metrischer Daten. Sie gibt an, wie stark die einzelnen Messwerte im Durchschnitt — quadriert — vom arithmetischen Mittelwert abweichen. Eine kleine Varianz bedeutet: Die Werte liegen eng um den Mittelwert. Eine große Varianz bedeutet: Die Werte streuen weit.

Merke: Die Varianz ist die Quadrierung der durchschnittlichen Abweichungen — ihre Einheit ist daher das Quadrat der Originaleinheit (z.B. mmHg²). Für die Interpretation in der ursprünglichen Einheit nutzt man die Standardabweichung σ = √σ².

Die Varianz ist die mathematische Grundlage zahlreicher inferenzstatistischer Verfahren — von der Varianzanalyse (ANOVA) über die Regression bis zu Effektstärken wie Cohens d.

Formel

Populationsvarianz (alle Werte der Grundgesamtheit bekannt):

$$\sigma^2 = \frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}$$

Stichprobenvarianz (üblicher Fall in der Forschung):

$$s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}$$

Der Nenner n − 1 statt n (sogenannte Bessel-Korrektur) macht die Stichprobenvarianz zu einem erwartungstreuen Schätzer der Populationsvarianz. SPSS, R, Stata und alle gängigen Pakete verwenden standardmäßig n − 1.

Praxis-Tipp: Bei n > 30 wird der Unterschied zwischen Division durch n und n − 1 numerisch klein. Bei kleinen Stichproben (n < 20) ist die Korrektur dagegen entscheidend — und in Doktorarbeiten Pflicht.

Voraussetzungen

Die Varianz ist nur sinnvoll interpretierbar, wenn folgende Bedingungen erfüllt sind:

  • Metrisches Skalenniveau — Intervall- oder Verhältnisskala (z.B. Blutdruck, Alter, Sondierungstiefe). Bei Ordinaldaten ist die Varianz mathematisch berechenbar, aber inhaltlich problematisch.
  • Sinnvoller Mittelwert — die Daten sollten annähernd symmetrisch verteilt sein. Bei stark schiefen Verteilungen ist der Median + Interquartilsabstand aussagekräftiger.
  • Keine extremen Ausreißer — die Quadrierung der Abweichungen verstärkt den Einfluss von Ausreißern überproportional.
  • Unabhängige Beobachtungen — bei abhängigen Daten (z.B. Messwiederholungen) müssen spezielle Modelle verwendet werden.

Interpretation

Die Varianz selbst ist wegen der quadrierten Einheit schwer direkt zu interpretieren. In Publikationen wird daher meist die Standardabweichung berichtet. Dennoch ist die Varianz unverzichtbar als Bausteingröße für viele Tests:

Verfahren Rolle der Varianz
t-Test Vergleich zweier Mittelwerte unter Berücksichtigung der Varianzen
ANOVA Zerlegung in Varianz zwischen und innerhalb der Gruppen
Lineare Regression Erklärte vs. unerklärte Varianz (R²)
Cohens d Effektstärke = Mittelwertdifferenz / gepoolte SD
Varianzhomogenität Voraussetzung für parametrische Tests (Levene-Test)

Merke: Die Varianz beantwortet die Frage "Wie homogen ist meine Stichprobe?" — eine niedrige Varianz spricht für eine homogene Patientengruppe, eine hohe Varianz für heterogene Therapieantworten.

Klinisches Anwendungsbeispiel

Studie: Sondierungstiefen (in mm) bei 6 Patienten nach Parodontitis-Therapie:

Werte: 3, 4, 4, 5, 6, 4

Schritt 1 — Mittelwert: $$\bar{x} = \frac{3+4+4+5+6+4}{6} = 4{,}33 \text{ mm}$$

Schritt 2 — Quadrierte Abweichungen:

x x − x̄ (x − x̄)²
3 −1,33 1,77
4 −0,33 0,11
4 −0,33 0,11
5 0,67 0,45
6 1,67 2,79
4 −0,33 0,11
Σ 5,33

Schritt 3 — Stichprobenvarianz: $$s^2 = \frac{5{,}33}{6-1} = 1{,}07 \text{ mm}^2$$

Schritt 4 — Standardabweichung zur Interpretation: $$s = \sqrt{1{,}07} = 1{,}03 \text{ mm}$$

Interpretation: Die Sondierungstiefen schwanken durchschnittlich um etwa 1 mm um den Mittelwert von 4,33 mm. Eine relativ homogene Gruppe — gut für nachfolgende Vergleichstests.

In SPSS berechnen

Analysieren → Deskriptive Statistiken → Deskriptive Statistik...

Im Dialog die Variable in das Feld "Variable(n)" verschieben, dann auf "Optionen..." klicken und die Checkbox "Varianz" aktivieren. Im Output erscheint:

  • Varianz = s² (Stichprobenvarianz mit n − 1)
  • Std.-Abweichung = s = √s²

Alternativ über Analysieren → Mittelwerte vergleichen → Mittelwerte für gruppierte Varianzen. Eine ausführliche SPSS-Anleitung mit weiteren deskriptiven Verfahren findest du im Begleit-Tutorial.

In R berechnen

# Sondierungstiefen
sondierung <- c(3, 4, 4, 5, 6, 4)

# Stichprobenvarianz (Standard: n-1)
var(sondierung)
# [1] 1.066667

# Standardabweichung
sd(sondierung)
# [1] 1.032796

# Populationsvarianz manuell (Division durch n)
mean((sondierung - mean(sondierung))^2)
# [1] 0.8888889

# Gruppierte Varianz (z.B. nach Behandlungsgruppe)
aggregate(blutdruck ~ gruppe, data = df, FUN = var)

Die Funktionen var() und sd() liefern stets die Stichproben-Varianten mit Bessel-Korrektur. Mehr in der R-Statistik-Anleitung.

Häufige Fehler

Fehler 1: Division durch n statt n − 1

Bei der Stichprobenvarianz muss durch n − 1 geteilt werden, sonst unterschätzt der Schätzer die wahre Populationsvarianz systematisch. Manche Lehrbücher und Taschenrechner verwenden noch n — Vorsicht!

Fehler 2: Varianz mit Standardabweichung verwechseln

Die Varianz hat quadrierte Einheiten (mmHg², mm², kg²). In Publikationen wird fast immer die Standardabweichung berichtet (M ± SD), nicht die Varianz direkt.

Fehler 3: Varianz bei ordinalen oder nominalen Daten

Eine Varianz auf Likert-Skalen oder Schulnoten ist mathematisch berechenbar, aber inhaltlich fragwürdig. Bei ordinalen Daten gehören Median und Interquartilsabstand in den Methodenteil.

Fehler 4: Ausreißer-Effekt unterschätzen

Da Abweichungen quadriert werden, gewichtet die Varianz Ausreißer überproportional. Ein einziger extremer Wert kann die Varianz vervielfachen. Robustere Alternativen: MAD (Median Absolute Deviation) oder getrimmte Varianz.

Fehler 5: Varianzhomogenität nicht prüfen

Vor t-Test oder ANOVA muss geprüft werden, ob die Varianzen in den Gruppen vergleichbar sind (Levene-Test). Bei Varianzheterogenität wird der Welch-Test verwendet — kein klassischer t-Test.

Verwandte Konzepte

  • Standardabweichung — Wurzel aus der Varianz, in der Originaleinheit der Daten interpretierbar
  • Kovarianz — Verallgemeinerung der Varianz auf zwei Variablen, Grundlage der Korrelation
  • Varianzanalyse (ANOVA) — vergleicht Mittelwerte mehrerer Gruppen über Zerlegung der Gesamtvarianz
  • Residuen — Differenzen zwischen beobachteten und vorhergesagten Werten in Regressionsmodellen
  • Mittelwert — Bezugspunkt der Varianzberechnung
  • Variationskoeffizient — Standardabweichung / Mittelwert, ermöglicht Vergleich zwischen Variablen unterschiedlicher Größenordnung

Häufige Fragen

  • „Was ist der Unterschied zwischen Varianz und Standardabweichung?" → Die Standardabweichung ist die Quadratwurzel der Varianz. Beide messen die Streuung um den Mittelwert, aber die Varianz hat quadrierte Einheiten (z.B. mmHg²), die Standardabweichung dagegen die Originaleinheit (mmHg). In Publikationen wird fast immer die Standardabweichung berichtet, weil sie direkt interpretierbar ist.
  • „Warum dividiert man bei der Stichprobenvarianz durch n − 1?" → Die Division durch n − 1 (Bessel-Korrektur) macht die Stichprobenvarianz zu einem erwartungstreuen Schätzer der Populationsvarianz. Würde man durch n teilen, würde der Schätzer die wahre Varianz systematisch unterschätzen — besonders bei kleinen Stichproben. Alle gängigen Statistik-Pakete (SPSS, R, Stata) verwenden standardmäßig n − 1.
  • „Welche Varianz gibt SPSS aus — Population oder Stichprobe?" → SPSS gibt standardmäßig die Stichprobenvarianz mit Division durch n − 1 aus. Das ist auch in der Forschung der Regelfall, da man fast immer mit Stichproben arbeitet, nicht mit der vollständigen Grundgesamtheit.
  • „Kann die Varianz negativ sein?" → Nein. Da die Abweichungen vom Mittelwert quadriert werden, ist die Varianz mathematisch immer ≥ 0. Eine Varianz von 0 bedeutet, dass alle Werte identisch sind. Eine negative Varianz im Output deutet auf einen Berechnungsfehler hin.
  • „Wie interpretiert man eine Varianz von z.B. 9 mmHg² beim Blutdruck?" → Direkt schwer — die quadrierte Einheit hilft nicht intuitiv. Besser: Die Standardabweichung √9 = 3 mmHg interpretieren. Das bedeutet, die Blutdruckwerte schwanken im Durchschnitt um etwa 3 mmHg um den Mittelwert.
  • „Was ist Varianzhomogenität und warum ist sie wichtig?" → Varianzhomogenität (Homoskedastizität) bedeutet, dass die zu vergleichenden Gruppen ähnliche Varianzen haben. Sie ist Voraussetzung für klassische parametrische Tests wie t-Test und ANOVA. Geprüft wird sie mit dem Levene-Test. Bei Verletzung wird auf Welch-Test oder nicht-parametrische Verfahren ausgewichen.
  • „Wie wirken sich Ausreißer auf die Varianz aus?" → Sehr stark. Da Abweichungen vom Mittelwert quadriert werden, gewichtet die Varianz Ausreißer überproportional: Ein Wert, der das Doppelte aller anderen vom Mittelwert abweicht, geht mit dem Vierfachen in die Varianz ein. Bei Verdacht auf Ausreißer empfehlen sich robuste Streuungsmaße wie der Interquartilsabstand oder die MAD.
  • „Was ist der Variationskoeffizient und wann nutze ich ihn?" → Der Variationskoeffizient (CV) ist das Verhältnis von Standardabweichung zu Mittelwert (CV = s/x̄), oft in Prozent angegeben. Er ermöglicht den Vergleich der Streuung zwischen Variablen unterschiedlicher Größenordnung — z.B. Streuung von Blutdruck (mmHg) versus HbA1c (%). Eine reine Varianz oder SD ist dafür nicht geeignet.
  • „Welche Rolle spielt die Varianz in der Doktorarbeit?" → Die Varianz ist Grundlage fast aller inferenzstatistischen Verfahren: t-Test, ANOVA, Regression, Effektstärken. In den deskriptiven Tabellen wird meist die Standardabweichung berichtet, in Methodendiskussionen die Varianzhomogenität. Eine systematische Übersicht zur statistischen Auswertung findest du im Leitfaden zur Statistik in der Doktorarbeit.
✅ Fachlich geprüft von PD Dr. Dr. Andreas Vollmer