KI-Agenten · SaaS-Vertrieb40-köpfiges VertriebsteamKunde AWS · Terraform

Anruftranskription und -bewertung, die ein QA-Team ersetzten – für ein 40-köpfiges B2B-SaaS-Vertriebsteam.

Zweistufige Spracherkennung (feinabgestimmtes Whisper Large-v3 asynchron + Deepgram Nova-2 in Echtzeit) sowie Playbook-als-Code-Bewertung. Mehr als 3.000 bewertete Anrufe pro Monat. 89 % Übereinstimmung mit erfahrenen Prüfern – genug, um den manuellen QA-Durchlauf abzulösen und die gewonnene Zeit in Einzelcoachings umzulenken.

96 %Spracherkennungsgenauigkeit

70 %QA-Zeitersparnis

34 $Pro Arbeitsplatz / Monat

89 %Übereinstimmung mit Prüfern

Kunde

B2B-SaaS-Vertriebsorganisation. 40 Arbeitsplätze verteilt auf SDR / AE / AM. Anrufe über Zoom, Teams und Twilio-geroutete Mobilanschlüsse. Der Kunde betreibt sein eigenes AWS-Konto – Datenspeicherort und Aufbewahrungsfristen sind nicht verhandelbar.

Engagement

14-wöchiges Entwicklungsprojekt, per Terraform in die AWS-Umgebung des Kunden eingespielt. Laufender Retainer für Playbook-Pflege und Modell-Updates.

Die Herausforderung

Der QA-Engpass fraß ein Drittel des Coaching-Budgets.

Ein einzelner manueller QA-Prüfer konnte rund 40 Anrufe pro Woche anhand des 30-Punkte-Bewertungsschemas des Unternehmens beurteilen. Das Team generierte jedoch mehr als 3.000 Anrufe pro Monat. Die Abdeckung lag unter 10 %, die Stichprobe war nicht repräsentativ (Prüfer wählten gezielt offensichtlich schlechte Anrufe aus), und Coaching-Gespräche stützten sich auf das, was der Vertriebsleiter zufällig von der letzten Begleitung noch wusste.

Handelsübliche Call-Intelligence-Tools lieferten Transkripte und Schlagwortzählungen – „Konkurrent dreimal erwähnt" – jedoch keine Bewertung anhand ihres eigenen Playbooks. Das Playbook umfasste 30 Kriterien über Discovery-, Demo- und Abschluss-Phasen, jedes mit einem spezifischen sprachlichen Muster, das ein Keyword-Matcher nicht erkennen konnte.

Das Ziel war klar: das eigene Bewertungsschema, konsistent angewendet, auf jeden Anruf, mit derselben Strenge wie ein erfahrener Prüfer. Das bedeutete, dass das Large Language Model dieselben Belege sehen musste wie der Prüfer – und dass es überprüfbar sein musste, nicht blindlings vertraut werden durfte.

Die Lösung

Zweistufige Spracherkennung. Playbook als Pydantic-Code. Echtzeit-Coaching-Hinweise unter 300 ms.

Drei separate Pipelines, ein Datenmodell, ein Evaluierungs-Harness.

Zweistufige Spracherkennung. Deepgram Nova-2 läuft in Echtzeit gegen den laufenden Anruf für Beschriftungen und Coaching-Hinweise mit unter einer Sekunde Latenz. Whisper Large-v3 – feinabgestimmt auf rund 180 Stunden beschrifteter Kundenanrufe, um Produktnamen, Interessentenunternehmen und interne Abkürzungen zu erfassen – läuft asynchron auf der vollständigen Aufnahme und wird zur maßgeblichen Quelle für die Bewertung. Nova-2 für Geschwindigkeit, feinabgestimmtes Whisper für Genauigkeit. 96 % Genauigkeit auf Wortebene im Test-Set des Kunden, gegenüber 87 % mit dem Standard-Whisper-Modell.

Playbook als Pydantic-Code, nicht als Prompt. Das 30-Kriterien-Schema wird in ein Pydantic-Modell kompiliert: 14 Discovery-Kriterien, 9 Demo-Kriterien, 7 Abschluss-Kriterien. Jedes Kriterium verfügt über einen Bewertungs-Prompt für das Large Language Model, einen Beleg-Extraktor, einen Bewertungsbereich und einen Ablehnungspfad. Eine Kriterienänderung ist ein Pull Request, keine Prompt-Engineering-Sitzung. Das Bewertungsmodell (GPT-4o) liefert eine schema-validierte Antwort pro Kriterium – Belegnachweise, Punktzahl, Begründung.

Echtzeit-Coaching. Deepgram Nova-2 streamt in einen LangGraph-Coaching-KI-Agenten, der dem Vertriebsmitarbeiter Hinweise über ein Electron-Desktop-Overlay anzeigt: „Interessent erwähnte Budget – fragen Sie nach dem Entscheidungszeitplan", „Sie reden seit 90 Sekunden am Stück – stellen Sie eine Frage." End-to-end-Latenz unter 300 ms, sodass Hinweise ankommen, bevor der Gesprächsmoment verstrichen ist.

Evaluierungs-Harness auf 500 doppelt bewerteten Anrufen. Bevor das System in Betrieb ging, ließen wir erfahrene Prüfer 500 Anrufe unabhängig voneinander bewerten. Das ist die Grundwahrheit. Jede Änderung am Bewertungsmodell durchläuft diesen Harness. Wir wussten, dass das System 89 % Übereinstimmung mit erfahrenen Prüfern erreicht hatte, bevor es in Produktion ging – und wir bemerken sofort, wenn eine Änderung die Quote unter 85 % drückt.

Kunden-AWS, per Terraform eingespielt. Der gesamte Stack – Spracherkennung, Bewertungsdienst, Coaching-Dienst, Postgres, Objektspeicher – läuft im AWS-Konto des Kunden. Azure-OpenAI-Endpunkt mit konfiguriertem Datenspeicherort. Wir haben das Terraform geschrieben; der Kunde besitzt die Infrastruktur.

Architektur (drei Pipelines)

1.AnrufquelleZoom SDK · Teams SDK · Twilio SIP (Mobilfunk) → Audio zu S3 + Echtzeit-WebSocket-Fork

2.Echtzeit-STTDeepgram Nova-2 Streaming → Live-Transkript für Coaching-KI-Agent

3.Coaching-KI-AgentLangGraph · GPT-4o-mini · <300 ms Hinweis → Electron-Desktop-Overlay

4.Asynchrone STTWhisper Large-v3 feinabgestimmt (Kundenvokabular) → maßgebliches Transkript

5.Playbook-KompilierungPydantic-Schema: 14 Discovery + 9 Demo + 7 Abschluss-Kriterien

6.BewertungGPT-4o pro Kriterium · Belegnachweise · schema-validierte Antwort

7.AggregationScorecard → Postgres → Manager-Dashboard + Slack-Digest

8.BeobachtbarkeitLangSmith-Traces · Evaluierungs-Harness CI-gesteuert auf 500 doppelt bewerteten Anrufen

Whisper Large-v3 feinabgestimmt Deepgram Nova-2 Azure OpenAI GPT-4o GPT-4o-mini LangGraph LangSmith Pydantic FastAPI Electron Twilio Zoom SDK Teams SDK Terraform PostgreSQL

Ergebnisse

100 % Anrufabdeckung, 34 $ pro Arbeitsplatz und Monat, und Coaching auf Basis konkreter Belege.

3.000+

Bewertete Anrufe pro Monat

100 % der Vertriebsanrufe über SDR / AE / AM. Zuvor <10 % Abdeckung, selektiv ausgewählt.

96 %

Spracherkennungsgenauigkeit auf Wortebene

Im Test-Set des Kunden. Gegenüber 87 % mit dem Standard-Whisper-Modell – die Feinabstimmung erfasste Produktnamen, Interessentenunternehmen und Abkürzungen.

89 %

Übereinstimmung mit erfahrenen Prüfern

Kriterienweise Übereinstimmung auf Basis von 500 doppelt bewerteten Anrufen. Über der 85-%-Schwelle, die der Vertriebsleiter für den Rückzug der manuellen Prüfung festgelegt hatte.

70 %

QA-Zeitersparnis

Die Prüferzeit wurde in Einzelcoachings mit den Vertriebsmitarbeitern umgelenkt – mit den Scorecards als Gesprächsgrundlage.

34 $

Pro Arbeitsplatz und Monat

Gesamtbetriebskosten: Spracherkennung (beide Stufen) + Bewertungsmodell + Coaching-Modell + Infrastruktur. Azure OpenAI + Deepgram + selbst gehostetes Whisper im AWS des Kunden.

<300 ms

Coaching-Hinweis-Latenz

Vom Echtzeit-Transkript bis zum Desktop-Overlay. Schnell genug, damit Hinweise ankommen, während der Gesprächsmoment noch offen ist.

Die Pipeline-Geschwindigkeit ist um rund ein Drittel gestiegen. Wir führen nicht mehr Gespräche – wir führen dieselben Gespräche mit Mitarbeitern, die beim letzten Mal tatsächlich gecoacht wurden. Die Scorecards haben uns eine gemeinsame Sprache gegeben.

— VP Sales Operations, ConvoTune

Was den Unterschied machte

Vier Entscheidungen, an denen generische Call-Intelligence-Tools scheitern.

1. Spracherkennung feinabstimmen, nicht damit abfinden. 87 % Genauigkeit mit dem Standard-Whisper klingt akzeptabel – bis man erkennt, dass jeder Produktname, jedes Interessentenunternehmen und jede interne Abkürzung in den 13 % steckt, die falsch transkribiert werden. Anrufe auf Basis fehlerhafter Transkripte zu bewerten ist schlimmer als gar nicht zu bewerten. Sechs Stunden GPU-Zeit für die Feinabstimmung haben sich innerhalb einer Woche amortisiert.

2. Das Playbook ist Code, kein Prompt. Dreißig Kriterien in einem Prompt sind nicht wartbar. Dreißig Kriterien als Pydantic-Modell mit einer Bewertungsfunktion pro Kriterium sind versioniert, testbar und mit Diff-Werkzeugen prüfbar. Als der Vertriebsleiter die Bewertung von „Discovery-Tiefe" änderte, war das ein Pull Request mit einem Evaluierungslauf – keine panische nächtliche Prompt-Überarbeitung.

3. Coaching-KI-Agent und Bewertungsmodell sind getrennt. Das Coaching läuft auf GPT-4o-mini, weil es schnell sein muss. Die Bewertung läuft auf GPT-4o, weil sie präzise sein muss. Selbes Unternehmen, unterschiedliche Budgets, unterschiedliche Latenzanforderungen – ein Modell für beides zu zwingen, ist der falsche Ansatz.

4. Doppelt bewertetes Evaluierungs-Set vor dem Launch. 500 Anrufe, jeweils von zwei erfahrenen Prüfern bewertet. Das ist die Grundwahrheit, die das Large Language Model erreichen muss. Ohne sie hat man keine Ahnung, ob man bei 70 % oder 90 % Übereinstimmung liegt – und der Vertriebsleiter, dem man das System verkauft, auch nicht.

Zeitplan

Vierzehn Wochen, per Terraform in die AWS-Umgebung des Kunden eingespielt.

Wochen 1–2
Playbook-Erfassung + Evaluierungs-Set
Erarbeitung des 30-Kriterien-Schemas gemeinsam mit Vertriebsleiter und erfahrenem Prüfer. Doppelte Bewertung von 500 historischen Anrufen – das ist die Grundwahrheit.
Wochen 3–4
Whisper-Feinabstimmung
180 Stunden Kunden-Audio beschriftet. Whisper Large-v3 auf dem Kundenvokabular feinabgestimmt. 87 % → 96 % Genauigkeit auf Wortebene im Test-Set.
Wochen 5–6
Bewertungs-Pipeline + Pydantic-Schema
Schema in Code kompiliert. Pro-Kriterium-Bewertungsdienst mit schema-validierter Ausgabe. Erster Evaluierungslauf gegen den 500-Anruf-Harness.
Wochen 7–8
Iteration auf 89 % Übereinstimmung
Prompts und Beleg-Extraktoren kriterienweise optimiert. Jede Änderung durchlief den Evaluierungsharness. 89 % kriterienweise Übereinstimmung erreicht.
Wochen 9–10
Echtzeit-Coaching-KI-Agent
Deepgram-Nova-2-Stream in einen LangGraph-Coaching-KI-Agenten. Electron-Desktop-Overlay. <300 ms Hinweis-Latenz.
Wochen 11–14
Terraform-Deployment + Rollout
Gesamter Stack per Terraform in die AWS-Umgebung des Kunden eingespielt. Azure-OpenAI-Endpunkt mit BYOK. Rollout auf alle 40 Arbeitsplätze. Manuelle QA abgelöst.

Verwandte Fallstudien

Gleicher Ansatz, anderes Problem.

Führen Sie Anruf-QA noch manuell durch?

Wir bewerten jeden Anruf anhand Ihres Schemas – in 10 bis 14 Wochen.

Bringen Sie Ihr Playbook, rund 100 Stunden beschriftetes Audio und einen erfahrenen Prüfer für das Evaluierungs-Set mit. Wir liefern in Ihre AWS-Umgebung oder unsere.

Erstgespräch buchen → KI-Agenten-Leistungen ansehen

Anruftranskription und -bewertung, die ein QA-Team ersetzten – für ein 40-köpfiges B2B-SaaS-Vertriebsteam.

Kunde

Engagement

Der QA-Engpass fraß ein Drittel des Coaching-Budgets.

Zweistufige Spracherkennung. Playbook als Pydantic-Code. Echtzeit-Coaching-Hinweise unter 300 ms.

Architektur (drei Pipelines)

100 % Anrufabdeckung, 34 $ pro Arbeitsplatz und Monat, und Coaching auf Basis konkreter Belege.

Bewertete Anrufe pro Monat

Spracherkennungsgenauigkeit auf Wortebene

Übereinstimmung mit erfahrenen Prüfern

QA-Zeitersparnis

Pro Arbeitsplatz und Monat

Coaching-Hinweis-Latenz

Vier Entscheidungen, an denen generische Call-Intelligence-Tools scheitern.

Vierzehn Wochen, per Terraform in die AWS-Umgebung des Kunden eingespielt.

Playbook-Erfassung + Evaluierungs-Set

Whisper-Feinabstimmung

Bewertungs-Pipeline + Pydantic-Schema

Iteration auf 89 % Übereinstimmung

Echtzeit-Coaching-KI-Agent

Terraform-Deployment + Rollout

Gleicher Ansatz, anderes Problem.

iGaming-QA — 66 % → 91 %

Deutsche technische RAG — Multi-Tenant SaaS

Milina — NYC Voice Agent für 0,09 $/Anruf

Wir bewerten jeden Anruf anhand Ihres Schemas – in 10 bis 14 Wochen.