Anruftranskription und -bewertung, die ein QA-Team ersetzten – für ein 40-köpfiges B2B-SaaS-Vertriebsteam.
Zweistufige Spracherkennung (feinabgestimmtes Whisper Large-v3 asynchron + Deepgram Nova-2 in Echtzeit) sowie Playbook-als-Code-Bewertung. Mehr als 3.000 bewertete Anrufe pro Monat. 89 % Übereinstimmung mit erfahrenen Prüfern – genug, um den manuellen QA-Durchlauf abzulösen und die gewonnene Zeit in Einzelcoachings umzulenken.
Kunde
B2B-SaaS-Vertriebsorganisation. 40 Arbeitsplätze verteilt auf SDR / AE / AM. Anrufe über Zoom, Teams und Twilio-geroutete Mobilanschlüsse. Der Kunde betreibt sein eigenes AWS-Konto – Datenspeicherort und Aufbewahrungsfristen sind nicht verhandelbar.
Engagement
14-wöchiges Entwicklungsprojekt, per Terraform in die AWS-Umgebung des Kunden eingespielt. Laufender Retainer für Playbook-Pflege und Modell-Updates.
Der QA-Engpass fraß ein Drittel des Coaching-Budgets.
Ein einzelner manueller QA-Prüfer konnte rund 40 Anrufe pro Woche anhand des 30-Punkte-Bewertungsschemas des Unternehmens beurteilen. Das Team generierte jedoch mehr als 3.000 Anrufe pro Monat. Die Abdeckung lag unter 10 %, die Stichprobe war nicht repräsentativ (Prüfer wählten gezielt offensichtlich schlechte Anrufe aus), und Coaching-Gespräche stützten sich auf das, was der Vertriebsleiter zufällig von der letzten Begleitung noch wusste.
Handelsübliche Call-Intelligence-Tools lieferten Transkripte und Schlagwortzählungen – „Konkurrent dreimal erwähnt" – jedoch keine Bewertung anhand ihres eigenen Playbooks. Das Playbook umfasste 30 Kriterien über Discovery-, Demo- und Abschluss-Phasen, jedes mit einem spezifischen sprachlichen Muster, das ein Keyword-Matcher nicht erkennen konnte.
Das Ziel war klar: das eigene Bewertungsschema, konsistent angewendet, auf jeden Anruf, mit derselben Strenge wie ein erfahrener Prüfer. Das bedeutete, dass das Large Language Model dieselben Belege sehen musste wie der Prüfer – und dass es überprüfbar sein musste, nicht blindlings vertraut werden durfte.
Zweistufige Spracherkennung. Playbook als Pydantic-Code. Echtzeit-Coaching-Hinweise unter 300 ms.
Drei separate Pipelines, ein Datenmodell, ein Evaluierungs-Harness.
Zweistufige Spracherkennung. Deepgram Nova-2 läuft in Echtzeit gegen den laufenden Anruf für Beschriftungen und Coaching-Hinweise mit unter einer Sekunde Latenz. Whisper Large-v3 – feinabgestimmt auf rund 180 Stunden beschrifteter Kundenanrufe, um Produktnamen, Interessentenunternehmen und interne Abkürzungen zu erfassen – läuft asynchron auf der vollständigen Aufnahme und wird zur maßgeblichen Quelle für die Bewertung. Nova-2 für Geschwindigkeit, feinabgestimmtes Whisper für Genauigkeit. 96 % Genauigkeit auf Wortebene im Test-Set des Kunden, gegenüber 87 % mit dem Standard-Whisper-Modell.
Playbook als Pydantic-Code, nicht als Prompt. Das 30-Kriterien-Schema wird in ein Pydantic-Modell kompiliert: 14 Discovery-Kriterien, 9 Demo-Kriterien, 7 Abschluss-Kriterien. Jedes Kriterium verfügt über einen Bewertungs-Prompt für das Large Language Model, einen Beleg-Extraktor, einen Bewertungsbereich und einen Ablehnungspfad. Eine Kriterienänderung ist ein Pull Request, keine Prompt-Engineering-Sitzung. Das Bewertungsmodell (GPT-4o) liefert eine schema-validierte Antwort pro Kriterium – Belegnachweise, Punktzahl, Begründung.
Echtzeit-Coaching. Deepgram Nova-2 streamt in einen LangGraph-Coaching-KI-Agenten, der dem Vertriebsmitarbeiter Hinweise über ein Electron-Desktop-Overlay anzeigt: „Interessent erwähnte Budget – fragen Sie nach dem Entscheidungszeitplan", „Sie reden seit 90 Sekunden am Stück – stellen Sie eine Frage." End-to-end-Latenz unter 300 ms, sodass Hinweise ankommen, bevor der Gesprächsmoment verstrichen ist.
Evaluierungs-Harness auf 500 doppelt bewerteten Anrufen. Bevor das System in Betrieb ging, ließen wir erfahrene Prüfer 500 Anrufe unabhängig voneinander bewerten. Das ist die Grundwahrheit. Jede Änderung am Bewertungsmodell durchläuft diesen Harness. Wir wussten, dass das System 89 % Übereinstimmung mit erfahrenen Prüfern erreicht hatte, bevor es in Produktion ging – und wir bemerken sofort, wenn eine Änderung die Quote unter 85 % drückt.
Kunden-AWS, per Terraform eingespielt. Der gesamte Stack – Spracherkennung, Bewertungsdienst, Coaching-Dienst, Postgres, Objektspeicher – läuft im AWS-Konto des Kunden. Azure-OpenAI-Endpunkt mit konfiguriertem Datenspeicherort. Wir haben das Terraform geschrieben; der Kunde besitzt die Infrastruktur.
Architektur (drei Pipelines)
100 % Anrufabdeckung, 34 $ pro Arbeitsplatz und Monat, und Coaching auf Basis konkreter Belege.
Bewertete Anrufe pro Monat
100 % der Vertriebsanrufe über SDR / AE / AM. Zuvor <10 % Abdeckung, selektiv ausgewählt.
Spracherkennungsgenauigkeit auf Wortebene
Im Test-Set des Kunden. Gegenüber 87 % mit dem Standard-Whisper-Modell – die Feinabstimmung erfasste Produktnamen, Interessentenunternehmen und Abkürzungen.
Übereinstimmung mit erfahrenen Prüfern
Kriterienweise Übereinstimmung auf Basis von 500 doppelt bewerteten Anrufen. Über der 85-%-Schwelle, die der Vertriebsleiter für den Rückzug der manuellen Prüfung festgelegt hatte.
QA-Zeitersparnis
Die Prüferzeit wurde in Einzelcoachings mit den Vertriebsmitarbeitern umgelenkt – mit den Scorecards als Gesprächsgrundlage.
Pro Arbeitsplatz und Monat
Gesamtbetriebskosten: Spracherkennung (beide Stufen) + Bewertungsmodell + Coaching-Modell + Infrastruktur. Azure OpenAI + Deepgram + selbst gehostetes Whisper im AWS des Kunden.
Coaching-Hinweis-Latenz
Vom Echtzeit-Transkript bis zum Desktop-Overlay. Schnell genug, damit Hinweise ankommen, während der Gesprächsmoment noch offen ist.
Die Pipeline-Geschwindigkeit ist um rund ein Drittel gestiegen. Wir führen nicht mehr Gespräche – wir führen dieselben Gespräche mit Mitarbeitern, die beim letzten Mal tatsächlich gecoacht wurden. Die Scorecards haben uns eine gemeinsame Sprache gegeben.
Vier Entscheidungen, an denen generische Call-Intelligence-Tools scheitern.
1. Spracherkennung feinabstimmen, nicht damit abfinden. 87 % Genauigkeit mit dem Standard-Whisper klingt akzeptabel – bis man erkennt, dass jeder Produktname, jedes Interessentenunternehmen und jede interne Abkürzung in den 13 % steckt, die falsch transkribiert werden. Anrufe auf Basis fehlerhafter Transkripte zu bewerten ist schlimmer als gar nicht zu bewerten. Sechs Stunden GPU-Zeit für die Feinabstimmung haben sich innerhalb einer Woche amortisiert.
2. Das Playbook ist Code, kein Prompt. Dreißig Kriterien in einem Prompt sind nicht wartbar. Dreißig Kriterien als Pydantic-Modell mit einer Bewertungsfunktion pro Kriterium sind versioniert, testbar und mit Diff-Werkzeugen prüfbar. Als der Vertriebsleiter die Bewertung von „Discovery-Tiefe" änderte, war das ein Pull Request mit einem Evaluierungslauf – keine panische nächtliche Prompt-Überarbeitung.
3. Coaching-KI-Agent und Bewertungsmodell sind getrennt. Das Coaching läuft auf GPT-4o-mini, weil es schnell sein muss. Die Bewertung läuft auf GPT-4o, weil sie präzise sein muss. Selbes Unternehmen, unterschiedliche Budgets, unterschiedliche Latenzanforderungen – ein Modell für beides zu zwingen, ist der falsche Ansatz.
4. Doppelt bewertetes Evaluierungs-Set vor dem Launch. 500 Anrufe, jeweils von zwei erfahrenen Prüfern bewertet. Das ist die Grundwahrheit, die das Large Language Model erreichen muss. Ohne sie hat man keine Ahnung, ob man bei 70 % oder 90 % Übereinstimmung liegt – und der Vertriebsleiter, dem man das System verkauft, auch nicht.
Vierzehn Wochen, per Terraform in die AWS-Umgebung des Kunden eingespielt.
- Wochen 1–2
Playbook-Erfassung + Evaluierungs-Set
Erarbeitung des 30-Kriterien-Schemas gemeinsam mit Vertriebsleiter und erfahrenem Prüfer. Doppelte Bewertung von 500 historischen Anrufen – das ist die Grundwahrheit.
- Wochen 3–4
Whisper-Feinabstimmung
180 Stunden Kunden-Audio beschriftet. Whisper Large-v3 auf dem Kundenvokabular feinabgestimmt. 87 % → 96 % Genauigkeit auf Wortebene im Test-Set.
- Wochen 5–6
Bewertungs-Pipeline + Pydantic-Schema
Schema in Code kompiliert. Pro-Kriterium-Bewertungsdienst mit schema-validierter Ausgabe. Erster Evaluierungslauf gegen den 500-Anruf-Harness.
- Wochen 7–8
Iteration auf 89 % Übereinstimmung
Prompts und Beleg-Extraktoren kriterienweise optimiert. Jede Änderung durchlief den Evaluierungsharness. 89 % kriterienweise Übereinstimmung erreicht.
- Wochen 9–10
Echtzeit-Coaching-KI-Agent
Deepgram-Nova-2-Stream in einen LangGraph-Coaching-KI-Agenten. Electron-Desktop-Overlay. <300 ms Hinweis-Latenz.
- Wochen 11–14
Terraform-Deployment + Rollout
Gesamter Stack per Terraform in die AWS-Umgebung des Kunden eingespielt. Azure-OpenAI-Endpunkt mit BYOK. Rollout auf alle 40 Arbeitsplätze. Manuelle QA abgelöst.
Gleicher Ansatz, anderes Problem.
Wir bewerten jeden Anruf anhand Ihres Schemas – in 10 bis 14 Wochen.
Bringen Sie Ihr Playbook, rund 100 Stunden beschriftetes Audio und einen erfahrenen Prüfer für das Evaluierungs-Set mit. Wir liefern in Ihre AWS-Umgebung oder unsere.