Stimmung vs. Verhalten: Warum CSAT und NPS keine Steuerungsinstrumente sind

In der CCV/SQUT Trendstudie Contact Center 2025/26 geben 74 Prozent der befragten Unternehmen an, Kennzahlen zur Kundenzufriedenheit zu erheben - überwiegend über NPS oder CSAT. Gleichzeitig sank der Anteil der Unternehmen, die geschäftsrelevante Effizienz-Kennzahlen messen, um knapp 12 Prozentpunkte gegenüber dem Vorjahr.

Das ergibt ein paradoxes Bild: Die Branche misst Zufriedenheit immer häufiger, aber die Metriken, die zeigen würden, ob die Zufriedenheitswerte mit dem tatsächlichen Kundenverhalten zusammenhängen, werden seltener erhoben.

Dieser Artikel fragt, warum das ein Problem ist, wo die Grenzen von Survey-Metriken liegen und welche Alternativen belastbarer sind.

Was NPS und CSAT messen - und was nicht

NPS wurde 2003 von Frederic Reichheld als "the one number you need to grow" eingeführt. Eine Frage, eine Skala von 0 bis 10, eine einfache Formel: Anteil Promotoren minus Anteil Detraktoren. CSAT funktioniert ähnlich, fragt aber nach der Zufriedenheit mit einer konkreten Interaktion statt nach der Weiterempfehlungsbereitschaft. Beide Metriken haben gemeinsam, dass sie eine Selbstauskunft erfassen: Was die Kundin nach dem Kontakt empfindet.

Das kann nützlich sein. Es gibt Aufschluss über die emotionale Qualität einer Interaktion. Es ist einfach zu erheben. Es lässt sich über Zeiträume hinweg vergleichen.

Die Frage ist, ob es sich als Steuerungsinstrument eignet. Und hier wird es schwierig.

Das Rücklaufproblem

Die erste strukturelle Schwäche liegt in der Rücklaufquote. Bei Post-Interaction-Surveys liegt sie typischerweise zwischen 5 und 15 Prozent. Das heißt: Für 85 bis 95 Prozent der Kontakte gibt es keine Rückmeldung. Was bleibt, ist eine Stichprobe, und zwar keine zufällige.

Die Forschung zu Survey-Response-Bias zeigt konsistent, dass die Antwortenden nicht repräsentativ sind. Zwei Gruppen antworten überproportional: die sehr Zufriedenen und die sehr Unzufriedenen. Die große Mitte fehlt. Genau die Kund:innen, die zufrieden genug sind, um nicht aktiv zu reklamieren, aber unzufrieden genug, um beim nächsten Anlass den Anbieter zu wechseln, tauchen in den Ergebnissen kaum auf.

Eine Metrik, die auf 8 Prozent der Kontakte basiert und dabei systematisch verzerrt ist, kann Stimmungsbilder liefern. Steuern kann sie wenig.

Das Kontextproblem

Die zweite Schwäche ist die Kontextblindheit. NPS +38 - was sagt das? War die Kundin zufrieden, weil ihr Problem gelöst wurde? Oder weil die Servicemitarbeiterin besonders empathisch war, obwohl das Problem weiterhin besteht? Oder weil die Erwartung so niedrig war, dass alles, was über eine Warteschleife hinausging, positiv überraschte?

Die Studie von Keiningham et al. (2007) hat gezeigt, dass NPS als alleiniger Wachstumsindikator empirisch nicht haltbar ist. Die Metrik korreliert mit Zufriedenheit, aber die Verbindung zu tatsächlichem Kaufverhalten, Loyalität und Wachstum ist schwächer als ursprünglich behauptet. Frederick Reichheld selbst hat den Anspruch in späteren Veröffentlichungen relativiert, ohne ihn ganz aufzugeben.

Was in der Praxis besonders auffällt: NPS und CSAT können über Monate stabil bleiben, während sich die operative Realität massiv verschlechtert. Ich habe eine Situation erlebt, in der der NPS über zwei Quartale bei +42 lag, während die Repeat-Contact-Rate im gleichen Zeitraum von 18 auf 26 Prozent gestiegen ist. Die Kund:innen gaben gute Bewertungen ab, riefen aber immer öfter wieder an. Die Survey hat das nicht eingefangen, weil sie nur den Moment nach dem Kontakt misst, nicht das Verhalten danach.

Das Gaming-Problem

Die dritte Schwäche betrifft Organisationen, die CSAT oder NPS als Steuerungsgröße für individuelle Leistungsbewertung einsetzen. Sobald eine Metrik für Boni, Rankings oder Disziplinarmaßnahmen verwendet wird, beginnt das Gaming.

Ger Koole, dessen Forschung zu den Adverse Effects of Steering on Performance Indicators ich in diesem Zusammenhang für eine der klarsten Analysen halte, beschreibt das Muster so: Wird eine Metrik zur Steuerungsgröße, optimieren Mitarbeitende ihr Verhalten auf die Metrik, nicht auf das zugrunde liegende Ziel. Bei CSAT kann das bedeuten: Die Servicemitarbeiterin bittet die Kundin am Ende des Gesprächs freundlich um eine gute Bewertung. Die Bewertung verbessert sich, ohne dass sich an der Servicequalität etwas geändert hat.

Dieses Problem ist nicht auf Surveys beschränkt, aber bei Survey-Metriken besonders ausgeprägt, weil die Kundin im Moment der Bewertung noch unter dem Eindruck der persönlichen Interaktion steht und das systemische Problem (etwa ein weiterhin ungelöstes Abrechnungsproblem) erst später wieder sichtbar wird.

Was Verhaltensmetriken besser machen

Verhaltensmetriken messen, was Kund:innen tun. Sie basieren nicht auf Selbstauskünften, sondern auf beobachtbarem Verhalten in den Systemen der Organisation. Die wichtigsten vier:

Repeat-Contact-Rate misst den Anteil der Kund:innen, die innerhalb eines definierten Zeitfensters (typischerweise 7 Tage) zum gleichen Thema erneut Kontakt aufnehmen. Wenn die Kundin nochmal anruft, war das Problem beim ersten Mal offensichtlich nicht gelöst, unabhängig davon, was sie im CSAT-Survey angegeben hat. Die Metrik lässt sich nach Kontaktgrund aufschlüsseln und zeigt damit, welche Themen wirklich im Erstkontakt gelöst werden und welche nicht.

Kontaktrate pro Kundenkohorte (Contacts per Customer) misst, wie viele Kontakte ein Kunde im Durchschnitt pro Monat oder Quartal erzeugt. Die Aufschlüsselung nach Neukund:innen und Bestandskund:innen ist dabei wesentlich, weil Neukund:innen typischerweise 3- bis 5-mal mehr Kontakte erzeugen als Bestandskund:innen. Wer das nicht getrennt misst, verwechselt Wachstumseffekte mit Servicequalität. Ein steigendes Kontaktvolumen bei gleichzeitig wachsendem Kundenstamm kann durchaus gesund sein; ein steigendes Kontaktvolumen bei stagnierendem Kundenstamm ist ein Alarmsignal.

Failure-Demand-Anteil misst, welcher Prozentsatz des Kontaktvolumens durch vorgelagerte Fehler der Organisation entsteht: falsche Rechnungen, unverständliche Verträge, fehlerhafte Self-Service-Prozesse, schlecht trainierte Bots. Diese Metrik erfordert eine saubere Kontaktgrund-Architektur (in Kundensprache, MECE, mit Ownern außerhalb des Service), ist dafür aber die ehrlichste Aussage darüber, ob der Service Probleme löst, die es gar nicht geben dürfte.

First Contact Resolution in Kombination mit Repeat-Contact-Rate bildet ein Kontrollpaar. FCR allein ist anfällig für Markierungsfehler, weil die Definition von "gelöst" interpretierbar ist. Wenn FCR steigt und Repeat gleichzeitig sinkt, gibt es echten Fortschritt. Wenn FCR steigt und Repeat stabil bleibt, wird wahrscheinlich nur anders markiert.

Warum beides seinen Platz hat

Es wäre falsch, Surveys für nutzlos zu erklären. CSAT und NPS haben eine Berechtigung als Stimmungsindikator, als Frühwarnsystem für emotionale Ausreißer und als Vergleichsgröße über Zeiträume hinweg. Was sie nicht können: operative Entscheidungen begründen. Dafür braucht es Metriken, die zeigen, was in der Organisation passiert, nicht was Kund:innen empfinden.

Die reiferen Organisationen, die ich erlebt habe, kombinieren beides, gewichten aber unterschiedlich. Surveys laufen im Hintergrund mit und werden in quartalsweisen Reviews analysiert. Verhaltensmetriken steuern den Tages- und Wochenbetrieb: Repeat-Contact-Rate im Tagesreview, Kontaktrate im Wochenreview, Failure-Demand-Anteil im Monatsreview.

Diese Unterscheidung klingt banal, hat aber massive Konsequenzen. Wenn eine Servicemitarbeiterin morgens ins Teammeeting kommt und die erste Zahl, die sie sieht, ist der NPS von gestern, steuert sie nach Stimmung. Wenn die erste Zahl die Repeat-Contact-Rate ist, steuert sie nach Ergebnis.

Was das für den Metrik-Aufbau bedeutet

Für Organisationen, die ihren Metrik-Mix überprüfen wollen, ergeben sich daraus vier Schritte:

Erstens die Ehrlichkeitsfrage: Wissen wir, wie hoch unsere Rücklaufquote ist, und haben wir untersucht, ob die Antwortenden repräsentativ sind? Wenn nicht, ist der CSAT-Wert ein Stimmungsbild, mehr nicht.

Zweitens die Repeat-Contact-Rate aufsetzen. Das erfordert eine klare Definition (gleiches Thema, innerhalb von 7 Tagen, gleiche Kundin) und eine technische Implementierung, die in den meisten CRM-Systemen mit moderatem Aufwand möglich ist.

Drittens die Kontaktrate pro Kohorte aufschlüsseln. Neukund:innen und Bestandskund:innen getrennt tracken und in Relation zum Kundenstamm setzen, nicht zum absoluten Volumen.

Viertens KPIs verbinden. Jede Metrik isoliert gelesen erzählt Geschichten, die beruhigen, statt zu steuern. FCR zusammen mit Repeat, Kontaktrate zusammen mit Failure-Demand-Anteil, CSAT als Hintergrundmetrik parallel zu den Verhaltensmetriken. Das erzeugt ein Bild, dem man vertrauen kann, weil es sich selbst korrigiert.

Ein Blick auf den DACH-Markt

Die Deloitte CX Evolution Studie 2025 zeigt, dass 60 Prozent der befragten CX-Teams die quantitative Messung von Kundenzufriedenheit als eine ihrer Kernaufgaben betrachten. Gleichzeitig werden die Ergebnisse dieser Messung bei 57 Prozent der Unternehmen primär für internes Reporting verwendet, nicht für operative Steuerung.

Das bestätigt ein Muster, das ich in vielen Organisationen gesehen habe: Es wird gemessen, aber es wird nicht gesteuert. Die Zahl steht im Monatsbericht, wird zur Kenntnis genommen und archiviert. Niemand ändert deshalb etwas am Betrieb.

Verhaltensmetriken sind schwerer zu ignorieren, weil sie operativ greifbar sind. Wenn die Repeat-Contact-Rate für das Thema "Rechnung unverständlich" drei Monate hintereinander steigt, ist das ein Handlungsauslöser. Wenn der CSAT drei Monate bei 4,1 statt 4,2 liegt, ist das eine Fußnote.

Fazit

Survey-Metriken und Verhaltensmetriken messen verschiedene Dinge. Die eine Kategorie erfasst, was Kund:innen empfinden. Die andere erfasst, was Kund:innen tun. Beides hat seinen Platz, aber sie haben unterschiedliche Funktionen.

Wer seinen Service steuern will, braucht Metriken, die belastbar, vollständig und handlungsauslösend sind. Surveys erfüllen diese Kriterien nur eingeschränkt. Verhaltensmetriken sind aufwändiger zu erheben, aber sie zeigen, was in der Organisation tatsächlich passiert, und sie lassen sich schwerer ignorieren.

Die Frage für jede Organisation ist nicht, ob sie CSAT und NPS abschaffen soll. Die Frage ist, ob sie ihnen einen Platz zuweist, der ihren Grenzen entspricht - und ob sie bereit ist, die unbequemeren Metriken dazuzustellen.

Aleksander Grosz ist Interim Manager und Berater für CX, Contact Center und Telesales in Berlin. Mehr unter agrosz.de.

Quellen:

Keiningham, T. L. et al. (2007): A Longitudinal Examination of Net Promoter and Firm Revenue Growth. Journal of Marketing, 71(3).
CCV/SQUT Trendstudie Contact Center 2025/26.
Deloitte Digital: CX Evolution 2025.
Koole, G.: Adverse Effects of Steering on Performance Indicators (in: Call Center Optimization).

_{Sie erhalten diesen Newsletter, weil Sie sich über}_{newsletter.agrosz.de}_{angemeldet haben.}

_{Verantwortlich für Angebot und Inhalt: Aleksander Grosz, Edmonton-Platz 16, 14513 Teltow, Deutschland | E-Mail:}_{[email protected]}

_Impressum:_{https://agrosz.de/impressum}_{| Datenschutz:}_{https://agrosz.de/datenschutz}_{| Nutzungsbedingungen:}_{https://agrosz.de/nutzungsbedingungen}