Likert-Skala: Auswertung, Skalierung & Beispiele für Doktorarbeiten
Likert-Skala richtig auswerten: Skalenniveau, parametrisch vs. nicht-parametrisch, Cronbachs Alpha & SPSS-Workflow für medizinische Doktorarbeiten.
Kaum ein Messinstrument wird in medizinischen Doktorarbeiten so häufig eingesetzt – und so häufig falsch ausgewertet – wie die Likert-Skala. Ob Patientenzufriedenheit nach einer Operation, subjektive Schmerzintensität im Verlauf einer Therapie oder Lebensqualität bei chronisch Kranken: Überall dort, wo subjektive Konstrukte quantifiziert werden sollen, taucht sie auf. Und überall dort entsteht dieselbe methodische Grundsatzfrage: Sind Likert-Daten ordinal oder metrisch? Darf man den Mittelwert berechnen? Welcher statistische Test ist zulässig? Dieser Artikel gibt Ihnen eine fundierte, praxistaugliche Antwort – mit konkreten Beispielen aus der Medizin.
Likert-Item vs. Likert-Skala: Ein Unterschied mit Konsequenzen
Bevor wir zur Auswertung kommen, ist eine Begriffsklärung notwendig, die in vielen Doktorarbeiten fehlt – und die Gutachter sofort auffällt.
Likert-Item bezeichnet eine einzelne Aussage mit abgestufter Antwortskala:
„Ich bin mit der postoperativen Betreuung zufrieden." 1 = stimme gar nicht zu · 2 = stimme eher nicht zu · 3 = weder noch · 4 = stimme eher zu · 5 = stimme voll zu
Likert-Skala (im eigentlichen Sinne nach Rensis Likert, 1932) bezeichnet den Summenscore aus mehreren thematisch zusammengehörigen Items. Erst dieser Summenwert repräsentiert das zu messende Konstrukt – z.B. „Therapiezufriedenheit" oder „Lebensqualität" – mit ausreichender Reliabilität.
Diese Unterscheidung ist methodisch entscheidend: Ein einzelnes Likert-Item liefert ordinale Daten. Der Summenscore aus mehreren Items wird in der wissenschaftlichen Praxis als quasi-metrisch behandelt – mit wichtigen Einschränkungen, die im Methodenteil klar kommuniziert werden müssen.
Merke: Wer „Likert-Skala" und „Likert-Item" verwechselt und Mittelwerte über einzelne Items berichtet, macht einen methodischen Fehler. Mittelwerte sind erst auf Ebene des Summenscores aus mindestens fünf Items vertretbar – und auch dann nur mit entsprechender Begründung.
Likert-Skala Skalenniveau: Das Kernproblem der Auswertung
Die methodische Debatte um das Skalenniveau von Likert-Daten ist in der Literatur seit Jahrzehnten ungelöst – und das ist keine Schwäche, die Sie verbergen müssen, sondern eine Komplexität, die Sie als Doktorand im Methodenteil reflektieren sollten.
Die strenge Sichtweise: Ordinal
Jedes einzelne Likert-Item liefert streng genommen ordinale Daten. Die Abstände zwischen den Kategorien sind nicht objektiv gleich: Der Schritt von „stimme gar nicht zu" zu „stimme eher nicht zu" muss psychologisch nicht denselben Abstand repräsentieren wie der Schritt von „weder noch" zu „stimme eher zu". Deshalb sind parametrische Verfahren (t-Test, ANOVA), die Intervallskalierung voraussetzen, formal nicht zulässig.
Die pragmatische Sichtweise: Quasi-metrisch
In der medizinischen Forschungspraxis werden Likert-Daten – insbesondere Summenscores aus mehreren Items – häufig als quasi-metrisch behandelt. Voraussetzungen für diese Behandlung:
- Die Skala ist symmetrisch formuliert (gleich viele positive und negative Abstufungen)
- Die Befragten interpretieren die Skalenpunkte als gleichabständig
- Der Summenscore basiert auf mindestens 5 Items
- Die Stichprobe ist ausreichend groß (n > 30): Der zentrale Grenzwertsatz macht parametrische Tests bei großen Stichproben robust gegen Verletzungen der Normalverteilungsannahme
Studiensimulationen (u.a. De Winter & Dodou, 2010) zeigen, dass t-Test und Mann-Whitney-U-Test bei 5-Punkt-Likert-Daten unter realistischen Bedingungen vergleichbare Ergebnisse liefern – der t-Test hat dabei leicht mehr statistische Power.
Empfehlung für die Doktorarbeit
Berichten Sie beide Maße – Median mit IQR für den ordinalen Charakter, Mittelwert mit SD für die quasi-metrische Behandlung – und begründen Sie Ihre Wahl des Inferenztests im Methodenteil explizit. Das signalisiert methodisches Problembewusstsein und entwaffnet kritische Gutachter.
Likert-Skala Auswertung: Schritt für Schritt
Schritt 1: Datenerhebung und Dateneingabe
Jedes Likert-Item wird als eigene Variable kodiert, typischerweise numerisch (1 bis 5 oder 1 bis 7). Negativ formulierte Items müssen umgepolt werden, bevor der Summenscore gebildet wird. In SPSS: Transform → Recode into Different Variables.
Beispiel: In einem Fragebogen zur Behandlungszufriedenheit ist Item 3 negativ formuliert: „Die Wartezeiten waren unzumutbar lang." Hier bedeutet eine hohe Zustimmung (5) geringe Zufriedenheit – das Item muss vor der Summation umgepolt werden: neuer Wert = (maximaler Wert + 1) − alter Wert, also bei einer 5-Punkt-Skala: 6 − alter Wert.
Schritt 2: Reliabilitätsanalyse (Cronbachs Alpha)
Bevor Sie inhaltlich auswerten, prüfen Sie die interne Konsistenz Ihrer Skala. Cronbachs Alpha gibt an, wie stark die Items eines Konstrukts miteinander korrelieren:
| Alpha-Wert | Interpretation |
|---|---|
| ≥ 0,90 | Exzellent (ggf. Items redundant) |
| 0,80–0,89 | Gut – Standard für medizinische Skalen |
| 0,70–0,79 | Akzeptabel |
| 0,60–0,69 | Fraglich – kritisch diskutieren |
| < 0,60 | Inakzeptabel – Skala neu überdenken |
In SPSS: Analyze → Scale → Reliability Analysis. Als Faustregel gilt α ≥ 0,70 als Mindeststandard für wissenschaftliche Publikationen. Der Output zeigt auch „Alpha if item deleted" – damit identifizieren Sie Items, die die Gesamtkonsistenz senken.
Schritt 3: Deskriptive Statistik
Für einzelne Likert-Items (ordinal):
- Median und Interquartilsabstand (IQR)
- Häufigkeitsverteilung in Prozent (Balkendiagramm)
- Modus (häufigste Antwort)
Für den Summenscore (quasi-metrisch):
- Mittelwert (M) und Standardabweichung (SD)
- Minimum, Maximum, 95%-Konfidenzintervall
- Histogramm zur Visualisierung der Verteilung
Schritt 4: Normalverteilung prüfen
Auch beim Summenscore sollte die Verteilung geprüft werden – mit dem Shapiro-Wilk-Test bei n < 50 oder visuell über Q-Q-Plot. Ergebnis dokumentieren und im Methodenteil angeben: „Der Summenscore zeigte im Shapiro-Wilk-Test keine signifikante Abweichung von der Normalverteilung (W = 0,98, p = 0,21)."
Schritt 5: Inferenzstatistik – den richtigen Test wählen
Die Wahl des Tests hängt von Studiendesign und Skalenniveau-Entscheidung ab:
| Fragestellung | Parametrisch (Summenscore, n > 30) | Nicht-parametrisch (Items oder kleine n) |
|---|---|---|
| 2 unabhängige Gruppen | t-Test (Welch) | Mann-Whitney-U-Test |
| 2 verbundene Messungen (Prä/Post) | Gepaarter t-Test | Wilcoxon-Vorzeichen-Rang-Test |
| ≥ 3 unabhängige Gruppen | Einfaktorielle ANOVA | Kruskal-Wallis-Test |
| ≥ 3 verbundene Messungen | Messwiederholungs-ANOVA | Friedman-Test |
| Zusammenhang mit metrischer Variable | Pearson-Korrelation | Spearman-Korrelation |
Merke: Wer sich unsicher ist, ob der parametrische oder nicht-parametrische Weg zu wählen ist, kann beide Tests berichten und auf die Übereinstimmung der Ergebnisse hinweisen. Das ist methodisch transparent und in peer-reviewten Journalen akzeptiert.
Likert-Skala Beispiele aus der Medizin
Beispiel 1: Patientenzufriedenheit nach elektiver Operation
Ein chirurgisches Doktorarbeitsprojekt erhebt die Patientenzufriedenheit 30 Tage postoperativ mit einem selbst entwickelten 10-Item-Fragebogen (5-Punkt-Skala, Summenscore 10–50). Cronbachs Alpha: 0,83 → gute interne Konsistenz.
Vergleich zwischen laparoskopischer (n = 45) und offener Cholezystektomie (n = 38): Der Summenscore ist annähernd normalverteilt (Shapiro-Wilk, p = 0,14), daher t-Test zulässig.
Ergebnis: „Patienten der laparoskopischen Gruppe zeigten signifikant höhere Zufriedenheitswerte (M = 42,3, SD = 4,1) als die offene Gruppe (M = 38,7, SD = 5,2; t(81) = 3,56, p = 0,001, d = 0,78)."
Beispiel 2: Schmerzintensität im Therapieverlauf
Eine neurologische Doktorarbeit erfasst Schmerzintensität an drei Messzeitpunkten (Baseline, 4 Wochen, 12 Wochen) mit einer 11-stufigen Numerischen Ratingskala (NRS 0–10). Einzelne NRS-Werte: ordinal behandeln. Friedman-Test für Verlaufsanalyse, bei signifikantem Ergebnis Post-hoc-Tests mit Wilcoxon und Bonferroni-Korrektur.
Wichtige Abgrenzung: Die Visuelle Analogskala (VAS) – eine 100-mm-Linie ohne feste Kategorien – liefert metrische Daten und darf ohne Einschränkung mit parametrischen Tests analysiert werden. Verwechseln Sie VAS und NRS nicht im Methodenteil.
Beispiel 3: Lebensqualität mit standardisierten Instrumenten
Der SF-36 (Short Form Health Survey) und der EQ-5D sind validierte Lebensqualitätsinstrumente mit Summenscores, die in medizinischen Doktorarbeiten häufig eingesetzt werden. Diese Instrumente sind bereits auf Intervallskalierung normiert – hier sind parametrische Tests ohne Diskussion zulässig. Berichten Sie immer die verwendete Normierungsversion und die Referenzpopulation.
Gerade oder ungerade Likert-Skala: Was ist besser?
Diese Designentscheidung gehört in die Planungsphase – nicht erst bei der Auswertung.
Ungerade Skala (z.B. 5 oder 7 Punkte) enthält eine neutrale Mittelkategorie. Vorteil: Ehrliche „weder noch"-Antworten sind möglich. Nachteil: Tendenz zur Mitte (Central Tendency Bias) – Befragte weichen in die Neutralzone aus.
Gerade Skala (z.B. 4 oder 6 Punkte) erzwingt eine Entscheidungsrichtung. Vorteil: Vermeidet ausweichende Antworten. Nachteil: Kann Befragte bei echten Unsicherheiten unter Druck setzen.
In der medizinischen Forschung dominiert die 5-Punkt-Skala für klinische Outcomemaße, die 7-Punkt-Skala für psychometrische Konstrukte mit feinerer Differenzierung. Bei Fragebogenentwicklung für eine Doktorarbeit: Orientieren Sie sich an validierten Instrumenten Ihres Fachgebiets statt an eigenen Präferenzen.
Likert-Skala in SPSS auswerten: Workflow-Übersicht
1. Dateneingabe: Jedes Item als eigene numerische Variable (z.B. item_01 bis item_10)
2. Umpolen: Transform → Recode into Different Variables (negativ formulierte Items)
3. Summenscore: Transform → Compute Variable → SUM(item_01 to item_10)
4. Reliabilität: Analyze → Scale → Reliability Analysis → Alpha
5. Deskriptiv: Analyze → Descriptive Statistics → Explore (Items: Median/IQR; Score: M/SD)
6. Normalverteilung: Im Explore-Dialog → Shapiro-Wilk aktivieren + Q-Q-Plot
7. Inferenztest: Je nach Ergebnis t-Test oder Mann-Whitney-U-Test / Wilcoxon etc.
8. Visualisierung: Graphs → Chart Builder → Boxplot für Items, Histogram für Summenscore
Für komplexere Analysen – etwa konfirmatorische Faktorenanalyse (CFA) zur Validierung eigener Fragebogeninstrumente oder Strukturgleichungsmodelle – ist R mit dem Paket lavaan die empfohlene Software. SPSS stößt hier an seine Grenzen.
Häufige Fehler bei der Likert-Skala Auswertung in Doktorarbeiten
Fehler 1: Mittelwert über ein einzelnes Item berichten Falsch: „Das mittlere Item-3-Rating betrug 3,7 (SD = 1,2)." — Ein einzelnes ordinales Item hat keinen sinnvollen Mittelwert.
Fehler 2: Fehlende Reliabilitätsprüfung Wer Cronbachs Alpha nicht berichtet, lässt die Validität seines Messinstruments offen. Gutachter werden nachfragen.
Fehler 3: Vergessen der Umpolung negativer Items Ein vergessenes Umpolen macht den Summenscore inhaltlich sinnlos und alle nachfolgenden Analysen unbrauchbar.
Fehler 4: NRS und VAS gleichsetzen Die Numerische Ratingskala (0–10) ist ordinal, die Visuelle Analogskala (VAS) ist metrisch. Unterschiedliche Analysemethoden erforderlich.
Fehler 5: Kein Methodenvergleich bei strittiger Skalenniveau-Entscheidung Führen Sie bei Unsicherheit beide Tests durch und berichten Sie, ob die Schlussfolgerungen übereinstimmen. Das stärkt die Robustheit Ihrer Ergebnisse.
Professionelle Unterstützung bei der Auswertung
Wenn Ihr Doktorarbeitsprojekt mehrere Messzeitpunkte, eigens entwickelte Fragebögen oder validierte Instrumente mit komplexen Normierungen umfasst, ist eine methodische Begleitung sinnvoll. Der Biostatistik-Service von SCIORA unterstützt Sie bei der Auswertung Ihrer Likert-Daten – von der Reliabilitätsanalyse über die korrekte Testwahl bis zur publikationsreifen Darstellung in SPSS oder R.
Weiterführende Methodenartikel finden Sie in unserem Statistik-Cluster: Promotion Statistik auswerten gibt einen Überblick über alle gängigen Verfahren in der medizinischen Doktorarbeit.
Häufige Fragen
- „Darf ich bei Likert-Skalen den Mittelwert berechnen?" → Für einzelne Items ist das methodisch nicht korrekt; für Summenscores aus ≥ 5 Items ist es bei annähernder Symmetrie und ausreichend großer Stichprobe vertretbar – mit expliziter Begründung im Methodenteil.
- „Welcher statistische Test ist für Likert-Daten der richtige?" → Bei kleinen Stichproben oder einzelnen Items: nicht-parametrische Tests (Mann-Whitney-U, Wilcoxon, Kruskal-Wallis); bei Summenscores mit n > 30 und annähernder Normalverteilung sind t-Test und ANOVA vertretbar.
- „Was ist Cronbachs Alpha und welcher Wert ist gut?" → Cronbachs Alpha misst die interne Konsistenz einer Skala; Werte ≥ 0,70 gelten als akzeptabel, ≥ 0,80 als gut für medizinische Messinstrumente.
- „Was ist der Unterschied zwischen Likert-Skala und visueller Analogskala (VAS)?" → Die VAS ist eine kontinuierliche Linie ohne feste Kategorien und liefert metrische Daten; die Likert-Skala hat diskrete Antwortoptionen und liefert ordinale Daten.
- „Wie viele Items braucht eine valide Likert-Skala?" → Mindestens 4–5 Items pro Konstrukt gelten als Untergrenze; unter 3 Items ist eine Reliabilitätsprüfung kaum sinnvoll und die Validität fraglich.
🔬 Teste dein Wissen zu diesem Thema
MC-Fragen nach IMPP-Katalog mit Erklärungen zu jeder Antwortoption. Von Fachärzten geprüft.
14 Tage kostenlos testen Keine Kreditkarte erforderlich