Schiefe: Definition, Interpretation & Berechnung
Die Schiefe misst die Asymmetrie einer Verteilung. Definition, Formel, Interpretation linksschiefer und rechtsschiefer Verteilungen, Berechnung in SPSS und R sowie typische Anwendungsfehler.
Definition
Die Schiefe (engl. skewness, Symbol γ₁) ist ein Maß für die Asymmetrie einer Verteilung um ihren Mittelwert. Sie quantifiziert, ob und in welche Richtung die Verteilung von einer perfekt symmetrischen Form (wie der Normalverteilung) abweicht.
- Schiefe = 0 → symmetrische Verteilung (z.B. Normalverteilung)
- Schiefe > 0 → rechtsschief (auch: positiv schief) — der Verteilungsschwanz zieht nach rechts, viele kleine Werte, wenige große Ausreißer
- Schiefe < 0 → linksschief (auch: negativ schief) — der Schwanz zieht nach links, viele große Werte, wenige kleine Ausreißer
Merke: Bei rechtsschiefer Verteilung gilt typischerweise Modus < Median < Mittelwert. Bei linksschiefer Verteilung ist die Reihenfolge umgekehrt: Mittelwert < Median < Modus. Der Mittelwert wird durch die Ausreißer im Schwanz "weggezogen".
Formel
Die theoretische Schiefe einer Zufallsvariable X mit Mittelwert μ und Standardabweichung σ ist definiert als der dritte standardisierte Moment:
$$\gamma_1 = E\left[\left(\frac{X - \mu}{\sigma}\right)^3\right] = \frac{E[(X - \mu)^3]}{\sigma^3}$$
Für eine Stichprobe mit n Beobachtungen wird die Schiefe geschätzt durch:
$$g_1 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{\left(\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2\right)^{3/2}}$$
SPSS und R verwenden meist eine bias-korrigierte Variante (Fisher-Pearson-Koeffizient), die für kleine Stichproben präziser ist:
$$G_1 = \frac{n^2}{(n-1)(n-2)} \cdot g_1$$
Voraussetzungen
Damit die Schiefe sinnvoll interpretiert werden kann:
- Metrisches Skalenniveau — Schiefe ist nur für intervall- oder verhältnisskalierte Variablen definiert (nicht für ordinale oder nominale Daten)
- Ausreichende Stichprobengröße — bei n < 30 sind Schiefe-Schätzer instabil und stark abhängig von einzelnen Ausreißern
- Keine zu starke Bimodalität — bei mehrgipfligen Verteilungen verliert die Schiefe ihre intuitive Aussagekraft
- Keine extremen Ausreißer ohne Prüfung — einzelne Extremwerte können die Schiefe massiv verzerren (dritte Potenz!)
Interpretation
Eine grobe Faustregel zur Einordnung des Schiefe-Werts:
| |γ₁| | Interpretation | |---|---| | 0,0 – 0,5 | annähernd symmetrisch | | 0,5 – 1,0 | mäßig schief | | > 1,0 | stark schief | | > 2,0 | sehr stark schief — Transformation prüfen |
Eine zusätzliche Faustregel: Die Schiefe gilt als signifikant von 0 verschieden, wenn sie betragsmäßig größer ist als das Zweifache ihres Standardfehlers (SE ≈ √(6/n) für große n).
Praxis-Tipp: In der medizinischen Statistik sind viele biologische Variablen rechtsschief verteilt — z.B. Krankheitsdauer, Laborwerte (CRP, Bilirubin), Wartezeiten, Tumormarker. Bei Schiefe > 1 solltest du eine Log-Transformation prüfen oder auf nicht-parametrische Tests ausweichen.
Klinisches Anwendungsbeispiel
Studie: Verteilung der CRP-Werte (mg/L) bei n = 200 Patienten mit Verdacht auf bakterielle Infektion.
- Mittelwert: M = 42,3 mg/L
- Median: Mdn = 18,5 mg/L
- Standardabweichung: SD = 58,7
- Schiefe: γ₁ = 2,14 (Standardfehler: 0,17)
Interpretation: Die Verteilung ist stark rechtsschief (γ₁ > 2). Die meisten Patienten haben moderate CRP-Werte, einige wenige aber sehr hohe Werte (Sepsis-Verdacht). Der Mittelwert (42,3) liegt deutlich über dem Median (18,5) — typisches Zeichen einer rechtsschiefen Verteilung.
Konsequenz für die Auswertung:
- Ein t-Test wäre problematisch — die Voraussetzung der Normalverteilung ist verletzt.
- Lösung A: Log-Transformation (
log(CRP+1)) — danach Schiefe oft nahe 0, parametrische Tests anwendbar. - Lösung B: Nicht-parametrische Verfahren wie Mann-Whitney-U-Test oder Wilcoxon-Test.
- Berichtsstandard: Bei schiefen Verteilungen Median + Interquartilsabstand statt Mittelwert + SD berichten.
In SPSS berechnen
Analysieren → Deskriptive Statistiken → Häufigkeiten → Statistik...
In der Dialogbox unter "Verteilung" die Häkchen bei Schiefe und Kurtosis setzen. Im Output erhältst du:
- Schiefe — der geschätzte Wert (G₁, bias-korrigiert)
- Standardfehler der Schiefe — zur Beurteilung der Signifikanz
Alternative: Analysieren → Deskriptive Statistiken → Explorative Datenanalyse — hier zusätzlich grafische Darstellungen (Histogramm, Q-Q-Plot), die die Schiefe visuell bestätigen. Mehr in der ausführlichen SPSS-Anleitung.
In R berechnen
# Variante 1: Basis-R (manuell)
schiefe <- function(x) {
n <- length(x)
m3 <- mean((x - mean(x))^3)
s3 <- sd(x)^3
(n^2 / ((n-1)*(n-2))) * m3 / s3
}
schiefe(crp_werte)
# [1] 2.142
# Variante 2: Paket "moments"
library(moments)
skewness(crp_werte)
# [1] 2.138
# Variante 3: Paket "psych" (mit deskriptiver Statistik)
library(psych)
describe(crp_werte)
# n mean sd median skew kurtosis se
# 1 200 42.3 58.7 18.5 2.14 5.83 4.15
Visuelle Prüfung mit Histogramm und Q-Q-Plot gehört bei jeder Schiefe-Analyse dazu — siehe auch R-Statistik-Tutorial.
Häufige Fehler
Fehler 1: Schiefe nur numerisch beurteilen, ohne Visualisierung
Falsch: "Schiefe = 0,3 → Verteilung ist symmetrisch, t-Test ok." Richtig: Histogramm und Q-Q-Plot ergänzend prüfen. Bimodale Verteilungen können γ₁ ≈ 0 haben und trotzdem nicht-normal sein.
Fehler 2: Verwechslung der Richtung
Rechtsschief = Schwanz zieht nach rechts = positive Schiefe = viele kleine, wenige große Werte. Häufige Eselsbrücke: "Der Schwanz zeigt in die Richtung des Vorzeichens."
Fehler 3: Schiefe bei zu kleinen Stichproben
Bei n < 30 ist die Schiefe-Schätzung sehr instabil. Ein einzelner Ausreißer kann γ₁ um mehrere Einheiten verändern. Konsequenz: Lieber Median + IQR berichten und nicht-parametrisch testen.
Fehler 4: Log-Transformation ohne Begründung
Eine Log-Transformation ist nur sinnvoll bei rechtsschiefer, strikt positiver Variable (z.B. Konzentrationen). Bei linksschiefen Daten oder solchen mit Nullwerten/negativen Werten muss anders transformiert werden (z.B. Box-Cox, Yeo-Johnson).
Fehler 5: Schiefe als alleiniges Kriterium für Normalverteilung
Schiefe ≈ 0 bedeutet nicht automatisch Normalverteilung — auch Kurtosis, Bimodalität oder schwere Schwänze müssen geprüft werden. Formale Tests: Shapiro-Wilk, Kolmogorov-Smirnov.
Verwandte Konzepte
- Kurtosis — Maß für die "Schwere der Schwänze" und Steilheit der Verteilung; ergänzt die Schiefe bei der Verteilungsbeurteilung
- Normalverteilung — symmetrisch (γ₁ = 0), Referenz für viele parametrische Tests
- Mittelwert — wird bei schiefen Verteilungen vom Median weggezogen; bei stark schiefen Daten unzuverlässig
- Median und Interquartilsabstand — robuste Lagemaße für schiefe Verteilungen, sollten bei |γ₁| > 1 berichtet werden
- Log-Transformation — häufige Methode zur Normalisierung rechtsschiefer biologischer Daten
- Shapiro-Wilk-Test — formaler Test auf Normalverteilung, der u.a. Schiefe-Abweichungen detektiert
Häufige Fragen
- „Was bedeutet eine positive Schiefe?" → Eine positive Schiefe (γ₁ > 0) bedeutet, dass die Verteilung rechtsschief ist — der Verteilungsschwanz zieht nach rechts, also in Richtung großer Werte. Es gibt viele kleine bis mittlere Beobachtungen und wenige sehr große Ausreißer. Der Mittelwert liegt typischerweise oberhalb des Medians.
- „Ab welchem Wert ist eine Verteilung "zu schief" für einen t-Test?" → Faustregel: Bei |γ₁| < 0,5 ist die Schiefe meist unproblematisch. Bei |γ₁| zwischen 0,5 und 1,0 sollte zusätzlich die Stichprobengröße betrachtet werden — bei n > 30 ist der t-Test robust gegen moderate Schiefe (zentraler Grenzwertsatz). Bei |γ₁| > 1,0 sind nicht-parametrische Tests oder Datentransformation vorzuziehen.
- „Warum zeigt SPSS einen Standardfehler der Schiefe an?" → Der Standardfehler ermöglicht die Beurteilung, ob die Schiefe signifikant von 0 abweicht. Faustregel: Wenn der Schiefe-Wert betragsmäßig größer als das Doppelte seines Standardfehlers ist (|γ₁| > 2·SE), gilt die Abweichung von der Symmetrie als statistisch bedeutsam.
- „Welche biologischen Variablen sind typischerweise rechtsschief?" → Viele Laborwerte (CRP, Bilirubin, Triglyceride, Tumormarker), Konzentrationen, Krankheitsdauern, Wartezeiten, Hospitalisierungsdauer und Einkommen. Linksschiefe Verteilungen sind in der Medizin seltener, kommen aber bei Performance-Scores wie dem Karnofsky-Index oder bei Sättigungsparametern (SpO₂ bei Gesunden) vor.
- „Wie kann ich eine rechtsschiefe Verteilung normalisieren?" → Die häufigste Methode ist die Log-Transformation (
log(x)oderlog(x+1)bei Nullwerten). Alternativen sind Wurzeltransformation (√x) bei moderater Schiefe oder die Box-Cox-Transformation, die den optimalen Exponenten datengetrieben bestimmt. Nach der Transformation Schiefe erneut prüfen. - „Schiefe = 0 bedeutet immer Normalverteilung?" → Nein. Eine Schiefe von 0 bedeutet nur Symmetrie, nicht Normalität. Auch bimodale Verteilungen, Gleichverteilungen oder t-Verteilungen mit schweren Schwänzen können Schiefe ≈ 0 haben. Für die Beurteilung der Normalverteilung sind zusätzlich Kurtosis, Histogramm, Q-Q-Plot und Tests wie Shapiro-Wilk nötig.
- „Kann ich die Schiefe für ordinale Daten (z.B. Likert-Skalen) berechnen?" → Streng genommen ist die Schiefe nur für metrische Daten definiert. In der Praxis wird sie bei Likert-Skalen mit ≥ 5 Stufen häufig berichtet — als grober Anhaltspunkt für die Verteilungsform. Methodisch sauberer ist bei ordinalen Daten die Angabe von Median, Modus und Häufigkeitsverteilung.
- „Welcher Schiefe-Schätzer ist der "richtige" — g₁ oder G₁?" → Beide sind gebräuchlich. g₁ ist der einfache Momentenkoeffizient (in Python/scipy Standard), G₁ ist die bias-korrigierte Fisher-Pearson-Variante (in SPSS und R-Paket
momentsStandard). Bei n > 100 sind die Werte praktisch identisch. Bei kleinen Stichproben ist G₁ präziser. Wichtig ist, in der Methodik anzugeben, welche Variante verwendet wurde.