iGaming-QA-Bewertung — von 66 % auf 91 % Genauigkeit durch schema-gestütztes Denken
Ein Tier-1-Online-Casino-Betreiber prüfte 2 % seiner Support-Interaktionen bei einer Genauigkeit von 66 %. Wir haben das Bewertungssystem auf eine dreistufige schema-gestützte Pipeline mit einem Evaluierungs-Harness und einem Zwei-Modell-Ensemble für regulatorische Risikokriterien neu aufgebaut – und die Abdeckung auf 25 % skaliert.
Kunde
Tier-1-Online-Casino-Betreiber. 10 Mio.+ registrierte Spieler, mehrere europäische und lateinamerikanische Lizenzen, reguliert in 12 Jurisdiktionen. NDA.
Engagement
14-wöchiger Neuaufbau eines bestehenden v1-QA-Systems mit direktem Prompting. Übergabe an das QA-Ops-Team des Kunden mit CI-gesteuertem Evaluierungs-Harness und Beobachtbarkeit.
Das v1-System erreichte 66 % Übereinstimmung mit menschlichen Prüfern. Für regulatorische Berichte nicht ausreichend.
Das QA-Team des Betreibers prüfte manuell rund 2 % von ~150.000 monatlichen Agenten-Spieler-Interaktionen (Chat- und Anruftranskripte). Eine 2-%-Stichprobe war nicht repräsentativ – sie war auf einfache Eskalationen ausgerichtet und übersah das regulatorische Langrisiko, auf das es dem Lizenzprüfer eigentlich ankam.
Der erste Versuch nutzte direktes LLM-Prompting: „Lies dieses Gespräch, bewerte 1–5 auf jedem der 8 Kriterien, zitiere Belege." Die Übereinstimmung mit dem menschlichen QA-Team lag bei 66 %. Für ein System, das Belege für einen Lizenzprüfer liefern muss, war das nicht überzeugend genug.
Der Auftrag war konkret: Genauigkeit >85 % gegenüber menschlichen Prüfern, Abdeckung >20 % aller Interaktionen, Kosten pro Prüfung unter 0,05 $, eine Prüfer-Benutzeroberfläche, die QA-Manager tatsächlich nutzen, und ein prüfungssicheres Belegspaket pro Fall.
Schema-gestütztes Denken. Bewertungsschema als Code. Evaluierungs-Harness vor der Modelloptimierung.
Die 91 % kamen nicht von einem besseren Prompt. Sie kamen davon, die freie Bewertung durch eine dreistufige validierte Pipeline zu ersetzen.
Schema-gestütztes Denken statt One-Shot-Bewertung. Direktes Prompting fordert das Modell auf, in einem Durchgang zu bewerten und zu erklären – die Genauigkeit ist bei ~65–70 % gedeckelt, weil das Modell Belege erfindet, um die gewünschte Punktzahl zu rechtfertigen. Wir haben auf drei Stufen umgestellt: (1) strukturierte Belegnachweise für jedes Kriterium extrahieren, (2) jedes Kriterium nur anhand seiner Belege validieren, (3) zu einer Gesamtpunktzahl aggregieren. Die Genauigkeit auf demselben zurückgehaltenen Evaluierungsset sprang auf 91 %.
Bewertungsschema als Code, nicht als Prompt. 8 QA-Kriterien mit regulatorischen Unterkriterien (KYC-Ablauf, Sprache zur verantwortungsvollen Glücksspielnutzung, Lizenzoffenlegung, DSGVO-Konformität). Jedes Kriterium ist ein eigenes Pydantic-Schema, ein eigener Beleg-Extraktionsschritt, ein eigener Validator. Änderungen werden per GitHub-PR mit dem angehängten Evaluierungs-Delta eingespielt – QA-Ops sieht, was sich ändert, bevor es wirksam wird.
Zwei-Modell-Ensemble für hochriskante Kriterien. Regulatorische Risikokriterien (Sprache zur verantwortungsvollen Glücksspielnutzung, Lizenzoffenlegung, Beschwerdebearbeitung) werden von GPT-4o und Claude Sonnet 3.5 bewertet. Abweichungen werden zur menschlichen Überprüfung markiert. Modell-zu-Modell-Übereinstimmungsrate: 94 %. Bei allen anderen Kriterien reicht ein Modell – wir zahlen nicht doppelt, wenn das Signal es nicht rechtfertigt.
Prüfer-Dashboard für QA-Manager, nicht für Entwickler konzipiert. Jede Bewertung zeigt den Beleg-Nachweis, der sie ausgelöst hat. Prüfer können mit einem Klick widersprechen. Widersprüche fließen in den Evaluierungs-Harness als neue Testfälle ein – nicht als Trainingsdaten in das Modell, sondern in das Testset, damit wir wissen, wann das System zu driften beginnt.
Evaluierungs-Harness zuerst, Modelloptimierung danach. 1.200 Gold-Standard-Fälle vor jeglicher Prompt-Arbeit. CI-gesteuert: keine Bewertungsschema- oder Prompt-Änderung wird eingespielt, bevor der Evaluierungs-Harness sowohl bei Genauigkeit als auch bei Prüferübereinstimmung besteht. LangSmith-Integration für Trace-Level-Debugging bei Fehlfunktionen.
Architektur (Datenfluss)
Seit einem Jahr im Produktivbetrieb. 12+ Monate ohne einen regulatorischen Befund.
Die 91 % sind wichtig. Dass der Lizenzprüfer jetzt weniger Fragen stellt, ist noch wichtiger.
Genauigkeit
Gegenüber 66 % beim Ausgangswert. Gemessen als Übereinstimmung mit einem blinden menschlichen QA-Gremium auf 600 zurückgehaltenen Fällen.
Abdeckung
Gegenüber 2 %. Das QA-Team prüft mit demselben Personalstand 12-mal mehr Interaktionen – weil die KI die Erkennung übernimmt und Menschen die Überprüfung.
Pro Prüfung
Kosten pro bewerteter Interaktion einschließlich Ensemble-Durchläufe. Deutlich unter dem 0,05-$-Ziel.
Modell-zu-Modell-Übereinstimmung
GPT-4o vs. Claude Sonnet 3.5 bei regulatorischen Risikokriterien. Die 6 % Abweichung werden zur menschlichen Überprüfung markiert.
Gold-Standard-Evaluierungsfälle
Vom QA-Team zusammengestellt, monatlich überprüft. Keine Bewertungsschema-Änderung wird ohne das Evaluierungs-Delta eingespielt.
Regulatorische Befunde
In 12+ Monaten Prüfungen hat der Lizenzprüfer kein einziges übersehenes Kriterium beanstandet. Das ist die Kennzahl, die zählt.
Wir sind von der Prüfung von 2 % der Gespräche mit einem 8-köpfigen QA-Team zu 25 % mit demselben Team übergegangen – weil die KI die Erkennung übernimmt und sie die Überprüfung. Die 91 % sind mir weniger wichtig als die Tatsache, dass unser Lizenzprüfer jetzt weniger Fragen stellt.
Vier Entscheidungen, die die meisten LLM-QA-Neuaufbauten überspringen.
1. Schema-gestütztes Denken als Kerntechnik, nicht als Ergänzung. Die meisten Teams versuchen „bessere Prompts" bei der direkten Bewertung und kommen nicht über 70 % hinaus. Die 3-stufige Pipeline (Belege → Validieren → Aggregieren) ist der Ursprung der 91 %. Genauigkeit steckt in der Architektur, nicht in der Formulierung.
2. Bewertungsschema als Code, überprüfbar in Git. QA-Manager können jede Schemaänderung in einem PR einsehen. Prüfer haben Vertrauen in das System aufgebaut, weil sie sehen konnten, was sich ändert, bevor es wirksam wird. Keine versteckten Prompt-Änderungen.
3. Evaluierungs-Harness zuerst, Modelloptimierung danach. 1.200 Gold-Fälle vor jeglicher Prompt-Arbeit. Jeder PR führt das Evaluierungs-Delta vor dem Merge aus. Optimierung ohne Evaluierungs-Harness ist ein Glücksspiel.
4. Ensemble nur dort, wo es sich lohnt. Ein Zwei-Modell-Ensemble verdoppelt die Kosten. Wir setzen es bei regulatorischen Risikokriterien ein, wo Abweichungen ein Signal sind – nicht bei einfachen Kriterien, bei denen ein Modell ausreicht. Kostendisziplin ist wichtig, wenn man monatlich 37.000 Interaktionen bewertet.
Von der Prüfung bis zur Produktion in 14 Wochen.
- Wochen 1–2
v1-Prüfung + Ausgangswert
Fehlermodusanalyse des bestehenden Systems mit direktem Prompting. Ausgangswert bei 66 % bestätigt. Spezifikation des Gold-Standard-Testsets definiert.
- Wochen 3–4
Neuaufbau: Bewertungsschema als Code
Pydantic-Schemas pro Kriterium. Erstellt 200-Fall-Gold-Set, zusammengestellt vom QA-Team des Kunden.
- Wochen 5–7
Schema-gestützte Pipeline auf LangGraph
Dreistufig: Belege → Validieren → Bewerten. Gold-Set auf 800 skaliert. Erster 85-%-Lauf auf zurückgehaltenem Evaluierungsset.
- Wochen 8–10
Ensemble + Prüfer-Dashboard
Zwei-Modell-Ensemble für regulatorische Kriterien. Prüfer-UI v1. Abdeckung auf 10 % des monatlichen Traffics skaliert.
- Wochen 11–14
CI-Evaluierungs-Harness + Übergabe
Gold-Set auf 1.200. Abdeckung auf 25 % skaliert. CI-gesteuerte Deployments. Übergabe an QA-Ops des Kunden mit Betriebshandbuch.
- Laufend
Retainer
Neue regulatorische Kriterien bei Änderungen der Lizenzprofile. Wartung des Evaluierungs-Harness. Vierteljährliche Drift-Überprüfung.
Gleiche Methodik, andere Domänen.
Wenn Sie bei 70 % Genauigkeit feststecken, bringen wir Sie auf 90 %+.
Bringen Sie Ihr bestehendes LLM-Evaluierungssystem, Ihr Testset und Ihre aktuelle Genauigkeitszahl mit. Wir sagen Ihnen in einem 20-minütigen Gespräch, ob schema-gestütztes Denken die Lücke schließt.