Branche · iGaming10 Mio.+ SpielerProduktiv seit 2023

iGaming-QA-Bewertung — von 66 % auf 91 % Genauigkeit durch schema-gestütztes Denken

Ein Tier-1-Online-Casino-Betreiber prüfte 2 % seiner Support-Interaktionen bei einer Genauigkeit von 66 %. Wir haben das Bewertungssystem auf eine dreistufige schema-gestützte Pipeline mit einem Evaluierungs-Harness und einem Zwei-Modell-Ensemble für regulatorische Risikokriterien neu aufgebaut – und die Abdeckung auf 25 % skaliert.

66→91 %Genauigkeit

2→25 %Abdeckung

10 Mio.+Spieler

0,04 $Pro Prüfung

Kunde

Tier-1-Online-Casino-Betreiber. 10 Mio.+ registrierte Spieler, mehrere europäische und lateinamerikanische Lizenzen, reguliert in 12 Jurisdiktionen. NDA.

Engagement

14-wöchiger Neuaufbau eines bestehenden v1-QA-Systems mit direktem Prompting. Übergabe an das QA-Ops-Team des Kunden mit CI-gesteuertem Evaluierungs-Harness und Beobachtbarkeit.

Die Herausforderung

Das v1-System erreichte 66 % Übereinstimmung mit menschlichen Prüfern. Für regulatorische Berichte nicht ausreichend.

Das QA-Team des Betreibers prüfte manuell rund 2 % von ~150.000 monatlichen Agenten-Spieler-Interaktionen (Chat- und Anruftranskripte). Eine 2-%-Stichprobe war nicht repräsentativ – sie war auf einfache Eskalationen ausgerichtet und übersah das regulatorische Langrisiko, auf das es dem Lizenzprüfer eigentlich ankam.

Der erste Versuch nutzte direktes LLM-Prompting: „Lies dieses Gespräch, bewerte 1–5 auf jedem der 8 Kriterien, zitiere Belege." Die Übereinstimmung mit dem menschlichen QA-Team lag bei 66 %. Für ein System, das Belege für einen Lizenzprüfer liefern muss, war das nicht überzeugend genug.

Der Auftrag war konkret: Genauigkeit >85 % gegenüber menschlichen Prüfern, Abdeckung >20 % aller Interaktionen, Kosten pro Prüfung unter 0,05 $, eine Prüfer-Benutzeroberfläche, die QA-Manager tatsächlich nutzen, und ein prüfungssicheres Belegspaket pro Fall.

Die Lösung

Schema-gestütztes Denken. Bewertungsschema als Code. Evaluierungs-Harness vor der Modelloptimierung.

Die 91 % kamen nicht von einem besseren Prompt. Sie kamen davon, die freie Bewertung durch eine dreistufige validierte Pipeline zu ersetzen.

Schema-gestütztes Denken statt One-Shot-Bewertung. Direktes Prompting fordert das Modell auf, in einem Durchgang zu bewerten und zu erklären – die Genauigkeit ist bei ~65–70 % gedeckelt, weil das Modell Belege erfindet, um die gewünschte Punktzahl zu rechtfertigen. Wir haben auf drei Stufen umgestellt: (1) strukturierte Belegnachweise für jedes Kriterium extrahieren, (2) jedes Kriterium nur anhand seiner Belege validieren, (3) zu einer Gesamtpunktzahl aggregieren. Die Genauigkeit auf demselben zurückgehaltenen Evaluierungsset sprang auf 91 %.

Bewertungsschema als Code, nicht als Prompt. 8 QA-Kriterien mit regulatorischen Unterkriterien (KYC-Ablauf, Sprache zur verantwortungsvollen Glücksspielnutzung, Lizenzoffenlegung, DSGVO-Konformität). Jedes Kriterium ist ein eigenes Pydantic-Schema, ein eigener Beleg-Extraktionsschritt, ein eigener Validator. Änderungen werden per GitHub-PR mit dem angehängten Evaluierungs-Delta eingespielt – QA-Ops sieht, was sich ändert, bevor es wirksam wird.

Zwei-Modell-Ensemble für hochriskante Kriterien. Regulatorische Risikokriterien (Sprache zur verantwortungsvollen Glücksspielnutzung, Lizenzoffenlegung, Beschwerdebearbeitung) werden von GPT-4o und Claude Sonnet 3.5 bewertet. Abweichungen werden zur menschlichen Überprüfung markiert. Modell-zu-Modell-Übereinstimmungsrate: 94 %. Bei allen anderen Kriterien reicht ein Modell – wir zahlen nicht doppelt, wenn das Signal es nicht rechtfertigt.

Prüfer-Dashboard für QA-Manager, nicht für Entwickler konzipiert. Jede Bewertung zeigt den Beleg-Nachweis, der sie ausgelöst hat. Prüfer können mit einem Klick widersprechen. Widersprüche fließen in den Evaluierungs-Harness als neue Testfälle ein – nicht als Trainingsdaten in das Modell, sondern in das Testset, damit wir wissen, wann das System zu driften beginnt.

Evaluierungs-Harness zuerst, Modelloptimierung danach. 1.200 Gold-Standard-Fälle vor jeglicher Prompt-Arbeit. CI-gesteuert: keine Bewertungsschema- oder Prompt-Änderung wird eingespielt, bevor der Evaluierungs-Harness sowohl bei Genauigkeit als auch bei Prüferübereinstimmung besteht. LangSmith-Integration für Trace-Level-Debugging bei Fehlfunktionen.

Architektur (Datenfluss)

1.EinlesenGespräch → strukturiertes Parsen (Sprecher, Zeitstempel, Kanal)

2.Beleg-ExtraktionGPT-4o extrahiert relevante Textstellen für jedes Kriterium

3.Schema-ValidierungJede Textstelle → kriterienspezifischer Pydantic-Validator

4.BewertungLLM-Aufruf pro Kriterium mit Belegen, schema-typisierte Ausgabe

5.EnsembleGPT-4o + Claude Sonnet 3.5 für regulatorische Risikokriterien

6.AggregationGewichtetes Schema → Gesamtpunktzahl + Belegspaket

7.Prüfer-UIfallweise ÜberprüfungEin-Klick-WiderspruchPrüfpfad

8.Evaluierungs-Harness1.200 Gold-Fälle, CI-gesteuert, LangSmith-Traces

GPT-4o Claude Sonnet 3.5 LangGraph LangSmith Pydantic FastAPI PostgreSQL Redis Next.js Python 3.12 Docker Kubernetes Helicone pytest

Ergebnisse

Seit einem Jahr im Produktivbetrieb. 12+ Monate ohne einen regulatorischen Befund.

Die 91 % sind wichtig. Dass der Lizenzprüfer jetzt weniger Fragen stellt, ist noch wichtiger.

91 %

Genauigkeit

Gegenüber 66 % beim Ausgangswert. Gemessen als Übereinstimmung mit einem blinden menschlichen QA-Gremium auf 600 zurückgehaltenen Fällen.

25 %

Abdeckung

Gegenüber 2 %. Das QA-Team prüft mit demselben Personalstand 12-mal mehr Interaktionen – weil die KI die Erkennung übernimmt und Menschen die Überprüfung.

0,04 $

Pro Prüfung

Kosten pro bewerteter Interaktion einschließlich Ensemble-Durchläufe. Deutlich unter dem 0,05-$-Ziel.

94 %

Modell-zu-Modell-Übereinstimmung

GPT-4o vs. Claude Sonnet 3.5 bei regulatorischen Risikokriterien. Die 6 % Abweichung werden zur menschlichen Überprüfung markiert.

1.200

Gold-Standard-Evaluierungsfälle

Vom QA-Team zusammengestellt, monatlich überprüft. Keine Bewertungsschema-Änderung wird ohne das Evaluierungs-Delta eingespielt.

Regulatorische Befunde

In 12+ Monaten Prüfungen hat der Lizenzprüfer kein einziges übersehenes Kriterium beanstandet. Das ist die Kennzahl, die zählt.

Wir sind von der Prüfung von 2 % der Gespräche mit einem 8-köpfigen QA-Team zu 25 % mit demselben Team übergegangen – weil die KI die Erkennung übernimmt und sie die Überprüfung. Die 91 % sind mir weniger wichtig als die Tatsache, dass unser Lizenzprüfer jetzt weniger Fragen stellt.

— Leiter QA-Operations, Tier-1-iGaming-Betreiber

Was den Unterschied machte

Vier Entscheidungen, die die meisten LLM-QA-Neuaufbauten überspringen.

1. Schema-gestütztes Denken als Kerntechnik, nicht als Ergänzung. Die meisten Teams versuchen „bessere Prompts" bei der direkten Bewertung und kommen nicht über 70 % hinaus. Die 3-stufige Pipeline (Belege → Validieren → Aggregieren) ist der Ursprung der 91 %. Genauigkeit steckt in der Architektur, nicht in der Formulierung.

2. Bewertungsschema als Code, überprüfbar in Git. QA-Manager können jede Schemaänderung in einem PR einsehen. Prüfer haben Vertrauen in das System aufgebaut, weil sie sehen konnten, was sich ändert, bevor es wirksam wird. Keine versteckten Prompt-Änderungen.

3. Evaluierungs-Harness zuerst, Modelloptimierung danach. 1.200 Gold-Fälle vor jeglicher Prompt-Arbeit. Jeder PR führt das Evaluierungs-Delta vor dem Merge aus. Optimierung ohne Evaluierungs-Harness ist ein Glücksspiel.

4. Ensemble nur dort, wo es sich lohnt. Ein Zwei-Modell-Ensemble verdoppelt die Kosten. Wir setzen es bei regulatorischen Risikokriterien ein, wo Abweichungen ein Signal sind – nicht bei einfachen Kriterien, bei denen ein Modell ausreicht. Kostendisziplin ist wichtig, wenn man monatlich 37.000 Interaktionen bewertet.

Zeitplan

Von der Prüfung bis zur Produktion in 14 Wochen.

Wochen 1–2
v1-Prüfung + Ausgangswert
Fehlermodusanalyse des bestehenden Systems mit direktem Prompting. Ausgangswert bei 66 % bestätigt. Spezifikation des Gold-Standard-Testsets definiert.
Wochen 3–4
Neuaufbau: Bewertungsschema als Code
Pydantic-Schemas pro Kriterium. Erstellt 200-Fall-Gold-Set, zusammengestellt vom QA-Team des Kunden.
Wochen 5–7
Schema-gestützte Pipeline auf LangGraph
Dreistufig: Belege → Validieren → Bewerten. Gold-Set auf 800 skaliert. Erster 85-%-Lauf auf zurückgehaltenem Evaluierungsset.
Wochen 8–10
Ensemble + Prüfer-Dashboard
Zwei-Modell-Ensemble für regulatorische Kriterien. Prüfer-UI v1. Abdeckung auf 10 % des monatlichen Traffics skaliert.
Wochen 11–14
CI-Evaluierungs-Harness + Übergabe
Gold-Set auf 1.200. Abdeckung auf 25 % skaliert. CI-gesteuerte Deployments. Übergabe an QA-Ops des Kunden mit Betriebshandbuch.
Laufend
Retainer
Neue regulatorische Kriterien bei Änderungen der Lizenzprofile. Wartung des Evaluierungs-Harness. Vierteljährliche Drift-Überprüfung.

Verwandte Fallstudien

Gleiche Methodik, andere Domänen.

Ähnliche Ergebnisse angestrebt?

Wenn Sie bei 70 % Genauigkeit feststecken, bringen wir Sie auf 90 %+.

Bringen Sie Ihr bestehendes LLM-Evaluierungssystem, Ihr Testset und Ihre aktuelle Genauigkeitszahl mit. Wir sagen Ihnen in einem 20-minütigen Gespräch, ob schema-gestütztes Denken die Lücke schließt.

Erstgespräch buchen → KI-Agenten-Leistungen ansehen

iGaming-QA-Bewertung — von 66 % auf 91 % Genauigkeit durch schema-gestütztes Denken

Kunde

Engagement

Das v1-System erreichte 66 % Übereinstimmung mit menschlichen Prüfern. Für regulatorische Berichte nicht ausreichend.

Schema-gestütztes Denken. Bewertungsschema als Code. Evaluierungs-Harness vor der Modelloptimierung.

Architektur (Datenfluss)

Seit einem Jahr im Produktivbetrieb. 12+ Monate ohne einen regulatorischen Befund.

Genauigkeit

Abdeckung

Pro Prüfung

Modell-zu-Modell-Übereinstimmung

Gold-Standard-Evaluierungsfälle

Regulatorische Befunde

Vier Entscheidungen, die die meisten LLM-QA-Neuaufbauten überspringen.

Von der Prüfung bis zur Produktion in 14 Wochen.

v1-Prüfung + Ausgangswert

Neuaufbau: Bewertungsschema als Code

Schema-gestützte Pipeline auf LangGraph

Ensemble + Prüfer-Dashboard

CI-Evaluierungs-Harness + Übergabe

Retainer

Gleiche Methodik, andere Domänen.

Milina — NYC Voice Agent für 0,09 $/Anruf

CleverAnswerAI — HIPAA-konformer Zahnarzt-Rezeptionist

ConvoTune — KI-Anrufbewertung für den Vertrieb

Wenn Sie bei 70 % Genauigkeit feststecken, bringen wir Sie auf 90 %+.