Verbundene Ergebnislogik: Warum einzelne KPIs euch in die Irre führen

In den meisten Service-Dashboards steht jede Kennzahl für sich. FCR in einer Kachel, AHT in der nächsten, Containment Rate daneben, Kundenzufriedenheit unten rechts. Jede hat ihre eigene Ampel, ihren eigenen Zielwert, ihre eigene Farbe. Und genau diese Anordnung ist das Problem.

Denn eine einzelne Kennzahl, isoliert betrachtet, erzählt fast immer eine plausible Geschichte. Erst im Zusammenspiel mit einer zweiten Kennzahl zeigt sich, ob die Geschichte stimmt.

Was Scheinsteuerung ist

Scheinsteuerung entsteht, wenn eine Organisation eine Kennzahl verbessert, sich darüber freut und übersieht, dass die Verbesserung an anderer Stelle einen Schaden erzeugt hat, der nur in einer anderen Kennzahl sichtbar wäre. Die gesteuerte Zahl wird grün, die ungesehene Zahl wird rot, und weil niemand beide zusammen betrachtet, entsteht der Eindruck von Fortschritt, wo in Wirklichkeit nur eine Verschiebung stattgefunden hat.

Das Tückische an Scheinsteuerung ist, dass sie sich gut anfühlt. Die Quartalspräsentation zeigt grüne Zahlen. Die Ziele sind erreicht. Und trotzdem verschlechtert sich die tatsächliche Servicequalität, weil die Optimierung einer Einzelmetrik Anreize gesetzt hat, die dem eigentlichen Ziel zuwiderlaufen.

Die Antwort darauf ist ein Prinzip, das ich verbundene Ergebnislogik nenne: Jede Kennzahl wird zusammen mit mindestens einer Gegenmetrik gelesen, die sie validiert oder infrage stellt. Erst wenn beide in die gleiche Richtung zeigen, gibt es ein belastbares Signal.

Paar 1: FCR und Repeat-Contact-Rate

First Contact Resolution misst, ob das Anliegen beim ersten Kontakt gelöst wurde. Die Zahl kommt aus der Markierung der Servicemitarbeiterin: Fall gelöst, Häkchen gesetzt. Genau hier liegt die Schwäche. "Gelöst" ist interpretierbar, und sobald FCR als Zielwert dient, verschiebt sich die Interpretation tendenziell in die günstige Richtung.

Die Repeat-Contact-Rate misst dasselbe Phänomen aus der Gegenrichtung: Hat die Kundin innerhalb eines definierten Zeitfensters zum gleichen Thema erneut Kontakt aufgenommen? Diese Zahl kommt nicht aus einer Markierung, sondern aus dem tatsächlichen Verhalten. Sie lässt sich nicht durch ein Häkchen beeinflussen.

Zusammen ergeben die beiden ein klares Bild. Steigt FCR und sinkt gleichzeitig die Repeat-Rate, gibt es echten Fortschritt: Es werden mehr Fälle gelöst, und die Kund:innen müssen seltener wieder anrufen. Steigt FCR, während die Repeat-Rate stabil bleibt oder ebenfalls steigt, ist Vorsicht geboten. Dann werden wahrscheinlich nur mehr Fälle als gelöst markiert, ohne dass sich an der tatsächlichen Lösung etwas geändert hat.

Eine FCR ohne Repeat-Contact-Rate ist deshalb wie ein Blutdruckwert ohne Puls: eine Zahl, die für sich genommen zu wenig aussagt.

Paar 2: AHT und Qualität

Die durchschnittliche Bearbeitungszeit ist eine der ältesten Kennzahlen im Contact Center und eine der am häufigsten missbrauchten. Sinkt die AHT, sieht das nach Effizienz aus. Aber AHT lässt sich auf zwei sehr verschiedene Arten senken: durch bessere Prozesse und durch schlechtere Gespräche.

Wenn die AHT sinkt, weil ein hinderlicher Prozessschritt entfernt wurde oder die Wissensbasis besser ist, ist das ein Gewinn. Wenn sie sinkt, weil die Servicemitarbeiterin unter Zeitdruck Gespräche abkürzt, die Nachbearbeitung überspringt und die Nachfrage nach weiteren Anliegen unterlässt, ist es ein Verlust, der sich nur zeitversetzt zeigt.

Die Gegenmetrik ist die Qualitätsbewertung, idealerweise getrennt nach Compliance und Gesprächsqualität. Sinkt die AHT und bleibt die Qualität stabil oder steigt, war es eine echte Effizienzverbesserung. Sinkt die AHT und sinkt die Qualität, wurde an der falschen Stelle gespart, und die Kosten dafür tauchen in der Repeat-Rate, in Beschwerden und in der Kundenabwanderung wieder auf.

Paar 3: Containment Rate und Recovery-AHT

Mit der Verbreitung von Bots ist ein neues Kontrollpaar dazugekommen. Die Containment Rate misst, welcher Anteil der Anfragen vom Bot eigenständig abgeschlossen wird, ohne dass ein Mensch eingreift. Eine hohe Containment Rate sieht nach erfolgreicher Automatisierung aus.

Was sie nicht zeigt, ist die Qualität der Fälle, die der Bot nicht abschließt. Die Recovery-AHT misst genau das: Wie lange dauern die Kontakte, die nach einem gescheiterten Bot-Kontakt beim Menschen landen, im Vergleich zu Kontakten ohne Bot-Vorlauf?

Erfahrungsgemäß liegt diese Recovery-AHT beim Zwei- bis Dreifachen eines normalen Kontakts, weil die Servicemitarbeiterin erst den Bot-Fehler aufklären, dann das Vertrauen wiederherstellen und schließlich das eigentliche Problem lösen muss. Eine hohe Containment Rate bei gleichzeitig stark erhöhter Recovery-AHT bedeutet, dass der Bot Arbeit nicht reduziert, sondern verschiebt und dabei verteuert. Containment ohne Recovery-AHT ist deshalb eine Vanity Metric.

Paar 4: Kontaktvolumen und Kundenbasis

Ein sinkendes Kontaktvolumen wird oft als Erfolg gewertet: weniger Anrufe, weniger Last, bessere Erreichbarkeit. Ob das stimmt, hängt von einer zweiten Zahl ab, die selten danebensteht.

Sinkt das Volumen, während die Kundenbasis stabil bleibt oder wächst, ist es ein gutes Zeichen. Es deutet darauf hin, dass weniger Probleme entstehen, also weniger Failure Demand. Sinkt das Volumen, während die Kundenbasis ebenfalls schrumpft, ist es kein Erfolg, sondern ein Symptom: Die Kund:innen rufen nicht weniger an, weil der Service besser ist, sondern weil sie weggegangen sind.

Deshalb ist die aussagekräftige Größe nicht das absolute Volumen, sondern die Kontaktrate pro Kunde, getrennt nach Neukund:innen und Bestand. Neukund:innen erzeugen typischerweise ein Mehrfaches der Kontakte von Bestandskund:innen. Wer das nicht normalisiert, verwechselt Wachstumseffekte mit Servicequalität.

Wie sich Reviews dadurch verändern

Verbundene Ergebnislogik ist kein theoretisches Konzept. Sie verändert konkret, wie Monatsreviews ablaufen.

Im klassischen Modell geht das Review Kennzahl für Kennzahl durch. Jede wird einzeln betrachtet, einzeln grün oder rot markiert, einzeln kommentiert. Das dauert lange und führt zu Diskussionen über Zahlen, die isoliert betrachtet wenig bedeuten.

Im Modell der verbundenen Ergebnislogik liest das Review Paare. FCR mit Repeat. AHT mit Qualität. Containment mit Recovery. Volumen mit Kundenbasis. Das Review wird kürzer, weil viele Paare schnell als unauffällig erkannt werden, wenn beide Zahlen in die gleiche Richtung zeigen. Und es wird tiefer an den Stellen, an denen die beiden Zahlen eines Paars auseinanderlaufen, weil genau dort ein Problem versteckt ist, das eine Einzelbetrachtung übersehen hätte.

Der Effekt ist eine andere Gesprächsqualität im Review. Statt über die Frage zu streiten, ob 79 Prozent FCR gut oder schlecht sind, wird die Frage gestellt, warum FCR steigt, während die Repeat-Rate nicht sinkt. Das ist eine produktivere Frage, weil sie auf eine Ursache zielt statt auf eine Bewertung.

Die Rolle der Survey-Metriken

In dieses Bild gehören auch CSAT und NPS, allerdings an einem bestimmten Platz. Survey-Metriken erfassen die Stimmung der Kund:innen, basieren aber auf einer kleinen, oft verzerrten Stichprobe und lassen sich durch die Art der Befragung beeinflussen. Als alleinige Steuerungsgröße sind sie schwach.

Im Rahmen verbundener Ergebnislogik bekommen sie eine sinnvolle Funktion: als Hintergrundmetrik, die parallel zu den Verhaltensmetriken läuft. Wenn die Verhaltensmetriken gut aussehen, aber die Zufriedenheit sinkt, lohnt ein genauerer Blick. Wenn beide übereinstimmen, verstärken sie sich gegenseitig. Die Survey-Metrik validiert dann die Verhaltensmetrik, statt sie zu ersetzen.

Was das für den Dashboard-Aufbau bedeutet

Aus dem Prinzip folgt eine einfache Gestaltungsregel: Kennzahlen, die zusammengehören, gehören auch räumlich zusammen. Ein Dashboard, das FCR und Repeat-Rate in verschiedene Tabs legt, lädt zur isolierten Betrachtung ein. Ein Dashboard, das sie nebeneinanderstellt, erzwingt die verbundene Lesart.

Konkret heißt das, beim nächsten Dashboard-Review vier Fragen zu stellen. Welche Kennzahl steht ohne Gegenmetrik da und ist damit anfällig für Fehlinterpretation? Welche Paare gehören zusammen, sind aber getrennt dargestellt? Welche Kennzahl dient als individuelle Steuerungsgröße und erzeugt damit ein Gaming-Risiko? Und welche Zahl wird zwar gemessen, aber nie zusammen mit ihrer Gegenmetrik betrachtet?

Fazit

Die meisten Service-Organisationen haben kein Problem mit zu wenigen Kennzahlen. Sie haben ein Problem damit, dass die Kennzahlen isoliert gelesen werden. Jede für sich erzählt eine beruhigende Geschichte, und die Summe dieser beruhigenden Geschichten ergibt ein Bild, dem man nicht trauen kann.

Verbundene Ergebnislogik ist die Disziplin, jede Zahl mit ihrer Gegenzahl zu lesen. FCR mit Repeat. AHT mit Qualität. Containment mit Recovery. Volumen mit Kundenbasis. Das ist kein zusätzlicher Aufwand, sondern eine andere Anordnung derselben Daten. Aber es ist der Unterschied zwischen einem Dashboard, das beruhigt, und einem, das steuert.

Quellen:

CCV/SQUT Trendstudie Contact Center 2025/26 (zur Verbreitung von Zufriedenheitsmetriken).
Keiningham, T. L. et al. (2007): A Longitudinal Examination of Net Promoter and Firm Revenue Growth.

_{Sie erhalten diesen Newsletter, weil Sie sich über}_{newsletter.agrosz.de}_{angemeldet haben.}

_{Verantwortlich für Angebot und Inhalt: Aleksander Grosz, Edmonton-Platz 16, 14513 Teltow, Deutschland | E-Mail:}_{[email protected]}

_Impressum:_{https://agrosz.de/impressum}_{| Datenschutz:}_{https://agrosz.de/datenschutz}_{| Nutzungsbedingungen:}_{https://agrosz.de/nutzungsbedingungen}

Verbundene Ergebnislogik: Warum einzelne KPIs euch in die Irre führen