Likert-Skala: Auswertung, Skalierung & Beispiele für Doktorarbeiten

Likert-Skala richtig auswerten: Skalenniveau, parametrisch vs. nicht-parametrisch, Cronbachs Alpha & SPSS-Workflow für medizinische Doktorarbeiten.

Statistik · Dr. mult. Dr. h.c. Babak Saravi · 31. März 2026 · 12 Min. Lesezeit

Kaum ein Messinstrument wird in medizinischen Doktorarbeiten so häufig eingesetzt – und so häufig falsch ausgewertet – wie die Likert-Skala. Ob Patientenzufriedenheit nach einer Operation, subjektive Schmerzintensität im Verlauf einer Therapie oder Lebensqualität bei chronisch Kranken: Überall dort, wo subjektive Konstrukte quantifiziert werden sollen, taucht sie auf. Und überall dort entsteht dieselbe methodische Grundsatzfrage: Sind Likert-Daten ordinal oder metrisch? Darf man den Mittelwert berechnen? Welcher statistische Test ist zulässig? Dieser Artikel gibt Ihnen eine fundierte, praxistaugliche Antwort – mit konkreten Beispielen aus der Medizin.


Likert-Item vs. Likert-Skala: Ein Unterschied mit Konsequenzen

Bevor wir zur Auswertung kommen, ist eine Begriffsklärung notwendig, die in vielen Doktorarbeiten fehlt – und die Gutachter sofort auffällt.

Likert-Item bezeichnet eine einzelne Aussage mit abgestufter Antwortskala:

„Ich bin mit der postoperativen Betreuung zufrieden." 1 = stimme gar nicht zu · 2 = stimme eher nicht zu · 3 = weder noch · 4 = stimme eher zu · 5 = stimme voll zu

Likert-Skala (im eigentlichen Sinne nach Rensis Likert, 1932) bezeichnet den Summenscore aus mehreren thematisch zusammengehörigen Items. Erst dieser Summenwert repräsentiert das zu messende Konstrukt – z.B. „Therapiezufriedenheit" oder „Lebensqualität" – mit ausreichender Reliabilität.

Diese Unterscheidung ist methodisch entscheidend: Ein einzelnes Likert-Item liefert ordinale Daten. Der Summenscore aus mehreren Items wird in der wissenschaftlichen Praxis als quasi-metrisch behandelt – mit wichtigen Einschränkungen, die im Methodenteil klar kommuniziert werden müssen.

Merke: Wer „Likert-Skala" und „Likert-Item" verwechselt und Mittelwerte über einzelne Items berichtet, macht einen methodischen Fehler. Mittelwerte sind erst auf Ebene des Summenscores aus mindestens fünf Items vertretbar – und auch dann nur mit entsprechender Begründung.


Likert-Skala Skalenniveau: Das Kernproblem der Auswertung

Die methodische Debatte um das Skalenniveau von Likert-Daten ist in der Literatur seit Jahrzehnten ungelöst – und das ist keine Schwäche, die Sie verbergen müssen, sondern eine Komplexität, die Sie als Doktorand im Methodenteil reflektieren sollten.

Die strenge Sichtweise: Ordinal

Jedes einzelne Likert-Item liefert streng genommen ordinale Daten. Die Abstände zwischen den Kategorien sind nicht objektiv gleich: Der Schritt von „stimme gar nicht zu" zu „stimme eher nicht zu" muss psychologisch nicht denselben Abstand repräsentieren wie der Schritt von „weder noch" zu „stimme eher zu". Deshalb sind parametrische Verfahren (t-Test, ANOVA), die Intervallskalierung voraussetzen, formal nicht zulässig.

Die pragmatische Sichtweise: Quasi-metrisch

In der medizinischen Forschungspraxis werden Likert-Daten – insbesondere Summenscores aus mehreren Items – häufig als quasi-metrisch behandelt. Voraussetzungen für diese Behandlung:

Studiensimulationen (u.a. De Winter & Dodou, 2010) zeigen, dass t-Test und Mann-Whitney-U-Test bei 5-Punkt-Likert-Daten unter realistischen Bedingungen vergleichbare Ergebnisse liefern – der t-Test hat dabei leicht mehr statistische Power.

Empfehlung für die Doktorarbeit

Berichten Sie beide Maße – Median mit IQR für den ordinalen Charakter, Mittelwert mit SD für die quasi-metrische Behandlung – und begründen Sie Ihre Wahl des Inferenztests im Methodenteil explizit. Das signalisiert methodisches Problembewusstsein und entwaffnet kritische Gutachter.


Likert-Skala Auswertung: Schritt für Schritt

Schritt 1: Datenerhebung und Dateneingabe

Jedes Likert-Item wird als eigene Variable kodiert, typischerweise numerisch (1 bis 5 oder 1 bis 7). Negativ formulierte Items müssen umgepolt werden, bevor der Summenscore gebildet wird. In SPSS: Transform → Recode into Different Variables.

Beispiel: In einem Fragebogen zur Behandlungszufriedenheit ist Item 3 negativ formuliert: „Die Wartezeiten waren unzumutbar lang." Hier bedeutet eine hohe Zustimmung (5) geringe Zufriedenheit – das Item muss vor der Summation umgepolt werden: neuer Wert = (maximaler Wert + 1) − alter Wert, also bei einer 5-Punkt-Skala: 6 − alter Wert.

Schritt 2: Reliabilitätsanalyse (Cronbachs Alpha)

Bevor Sie inhaltlich auswerten, prüfen Sie die interne Konsistenz Ihrer Skala. Cronbachs Alpha gibt an, wie stark die Items eines Konstrukts miteinander korrelieren:

Alpha-Wert Interpretation
≥ 0,90 Exzellent (ggf. Items redundant)
0,80–0,89 Gut – Standard für medizinische Skalen
0,70–0,79 Akzeptabel
0,60–0,69 Fraglich – kritisch diskutieren
< 0,60 Inakzeptabel – Skala neu überdenken

In SPSS: Analyze → Scale → Reliability Analysis. Als Faustregel gilt α ≥ 0,70 als Mindeststandard für wissenschaftliche Publikationen. Der Output zeigt auch „Alpha if item deleted" – damit identifizieren Sie Items, die die Gesamtkonsistenz senken.

Schritt 3: Deskriptive Statistik

Für einzelne Likert-Items (ordinal):

Für den Summenscore (quasi-metrisch):

Schritt 4: Normalverteilung prüfen

Auch beim Summenscore sollte die Verteilung geprüft werden – mit dem Shapiro-Wilk-Test bei n < 50 oder visuell über Q-Q-Plot. Ergebnis dokumentieren und im Methodenteil angeben: „Der Summenscore zeigte im Shapiro-Wilk-Test keine signifikante Abweichung von der Normalverteilung (W = 0,98, p = 0,21)."

Schritt 5: Inferenzstatistik – den richtigen Test wählen

Die Wahl des Tests hängt von Studiendesign und Skalenniveau-Entscheidung ab:

Fragestellung Parametrisch (Summenscore, n > 30) Nicht-parametrisch (Items oder kleine n)
2 unabhängige Gruppen t-Test (Welch) Mann-Whitney-U-Test
2 verbundene Messungen (Prä/Post) Gepaarter t-Test Wilcoxon-Vorzeichen-Rang-Test
≥ 3 unabhängige Gruppen Einfaktorielle ANOVA Kruskal-Wallis-Test
≥ 3 verbundene Messungen Messwiederholungs-ANOVA Friedman-Test
Zusammenhang mit metrischer Variable Pearson-Korrelation Spearman-Korrelation

Merke: Wer sich unsicher ist, ob der parametrische oder nicht-parametrische Weg zu wählen ist, kann beide Tests berichten und auf die Übereinstimmung der Ergebnisse hinweisen. Das ist methodisch transparent und in peer-reviewten Journalen akzeptiert.


Likert-Skala Beispiele aus der Medizin

Beispiel 1: Patientenzufriedenheit nach elektiver Operation

Ein chirurgisches Doktorarbeitsprojekt erhebt die Patientenzufriedenheit 30 Tage postoperativ mit einem selbst entwickelten 10-Item-Fragebogen (5-Punkt-Skala, Summenscore 10–50). Cronbachs Alpha: 0,83 → gute interne Konsistenz.

Vergleich zwischen laparoskopischer (n = 45) und offener Cholezystektomie (n = 38): Der Summenscore ist annähernd normalverteilt (Shapiro-Wilk, p = 0,14), daher t-Test zulässig.

Ergebnis: „Patienten der laparoskopischen Gruppe zeigten signifikant höhere Zufriedenheitswerte (M = 42,3, SD = 4,1) als die offene Gruppe (M = 38,7, SD = 5,2; t(81) = 3,56, p = 0,001, d = 0,78)."

Beispiel 2: Schmerzintensität im Therapieverlauf

Eine neurologische Doktorarbeit erfasst Schmerzintensität an drei Messzeitpunkten (Baseline, 4 Wochen, 12 Wochen) mit einer 11-stufigen Numerischen Ratingskala (NRS 0–10). Einzelne NRS-Werte: ordinal behandeln. Friedman-Test für Verlaufsanalyse, bei signifikantem Ergebnis Post-hoc-Tests mit Wilcoxon und Bonferroni-Korrektur.

Wichtige Abgrenzung: Die Visuelle Analogskala (VAS) – eine 100-mm-Linie ohne feste Kategorien – liefert metrische Daten und darf ohne Einschränkung mit parametrischen Tests analysiert werden. Verwechseln Sie VAS und NRS nicht im Methodenteil.

Beispiel 3: Lebensqualität mit standardisierten Instrumenten

Der SF-36 (Short Form Health Survey) und der EQ-5D sind validierte Lebensqualitätsinstrumente mit Summenscores, die in medizinischen Doktorarbeiten häufig eingesetzt werden. Diese Instrumente sind bereits auf Intervallskalierung normiert – hier sind parametrische Tests ohne Diskussion zulässig. Berichten Sie immer die verwendete Normierungsversion und die Referenzpopulation.


Gerade oder ungerade Likert-Skala: Was ist besser?

Diese Designentscheidung gehört in die Planungsphase – nicht erst bei der Auswertung.

Ungerade Skala (z.B. 5 oder 7 Punkte) enthält eine neutrale Mittelkategorie. Vorteil: Ehrliche „weder noch"-Antworten sind möglich. Nachteil: Tendenz zur Mitte (Central Tendency Bias) – Befragte weichen in die Neutralzone aus.

Gerade Skala (z.B. 4 oder 6 Punkte) erzwingt eine Entscheidungsrichtung. Vorteil: Vermeidet ausweichende Antworten. Nachteil: Kann Befragte bei echten Unsicherheiten unter Druck setzen.

In der medizinischen Forschung dominiert die 5-Punkt-Skala für klinische Outcomemaße, die 7-Punkt-Skala für psychometrische Konstrukte mit feinerer Differenzierung. Bei Fragebogenentwicklung für eine Doktorarbeit: Orientieren Sie sich an validierten Instrumenten Ihres Fachgebiets statt an eigenen Präferenzen.


Likert-Skala in SPSS auswerten: Workflow-Übersicht

1. Dateneingabe: Jedes Item als eigene numerische Variable (z.B. item_01 bis item_10)
2. Umpolen: Transform → Recode into Different Variables (negativ formulierte Items)
3. Summenscore: Transform → Compute Variable → SUM(item_01 to item_10)
4. Reliabilität: Analyze → Scale → Reliability Analysis → Alpha
5. Deskriptiv: Analyze → Descriptive Statistics → Explore (Items: Median/IQR; Score: M/SD)
6. Normalverteilung: Im Explore-Dialog → Shapiro-Wilk aktivieren + Q-Q-Plot
7. Inferenztest: Je nach Ergebnis t-Test oder Mann-Whitney-U-Test / Wilcoxon etc.
8. Visualisierung: Graphs → Chart Builder → Boxplot für Items, Histogram für Summenscore

Für komplexere Analysen – etwa konfirmatorische Faktorenanalyse (CFA) zur Validierung eigener Fragebogeninstrumente oder Strukturgleichungsmodelle – ist R mit dem Paket lavaan die empfohlene Software. SPSS stößt hier an seine Grenzen.


Häufige Fehler bei der Likert-Skala Auswertung in Doktorarbeiten

Fehler 1: Mittelwert über ein einzelnes Item berichten Falsch: „Das mittlere Item-3-Rating betrug 3,7 (SD = 1,2)." — Ein einzelnes ordinales Item hat keinen sinnvollen Mittelwert.

Fehler 2: Fehlende Reliabilitätsprüfung Wer Cronbachs Alpha nicht berichtet, lässt die Validität seines Messinstruments offen. Gutachter werden nachfragen.

Fehler 3: Vergessen der Umpolung negativer Items Ein vergessenes Umpolen macht den Summenscore inhaltlich sinnlos und alle nachfolgenden Analysen unbrauchbar.

Fehler 4: NRS und VAS gleichsetzen Die Numerische Ratingskala (0–10) ist ordinal, die Visuelle Analogskala (VAS) ist metrisch. Unterschiedliche Analysemethoden erforderlich.

Fehler 5: Kein Methodenvergleich bei strittiger Skalenniveau-Entscheidung Führen Sie bei Unsicherheit beide Tests durch und berichten Sie, ob die Schlussfolgerungen übereinstimmen. Das stärkt die Robustheit Ihrer Ergebnisse.


Professionelle Unterstützung bei der Auswertung

Wenn Ihr Doktorarbeitsprojekt mehrere Messzeitpunkte, eigens entwickelte Fragebögen oder validierte Instrumente mit komplexen Normierungen umfasst, ist eine methodische Begleitung sinnvoll. Der Biostatistik-Service von SCIORA unterstützt Sie bei der Auswertung Ihrer Likert-Daten – von der Reliabilitätsanalyse über die korrekte Testwahl bis zur publikationsreifen Darstellung in SPSS oder R.

Weiterführende Methodenartikel finden Sie in unserem Statistik-Cluster: Promotion Statistik auswerten gibt einen Überblick über alle gängigen Verfahren in der medizinischen Doktorarbeit.


Häufige Fragen

🔬 Teste dein Wissen zu diesem Thema

MC-Fragen nach IMPP-Katalog mit Erklärungen zu jeder Antwortoption. Von Fachärzten geprüft.

14 Tage kostenlos testen Keine Kreditkarte erforderlich