Branche · Gastronomie Region · New York City, USA Deployed · Produktionsbetrieb seit 2024

Milina — ein KI-Telefonassistent, der 50+ Reservierungen pro Nacht zu 0,09 $ pro Anruf abwickelt

Ein New Yorker Restaurant verlor Gäste durch unbeantwortete Anrufe. Wir haben einen auf LiveKit basierenden Voice Agent mit Deepgram, GPT-4o-mini und Cartesia entwickelt, der Reservierungen, Anfragen und die Warteliste auf Englisch und Spanisch bearbeitet – und Anrufende bemerken routinemäßig nicht, dass sie mit einem KI-System sprechen.

91 %Aufgabenabschlussquote

0,09 $Durchschnittliche Kosten pro Anruf

50+Anrufe pro Wochenendnacht

<700msAntwortlatenz p50

Kunde

Unabhängiges Full-Service-Restaurant in Manhattan. Ein Standort, ca. 90 Sitzplätze, wochenendschweres Reservierungsmuster mit langer Warteliste freitags und samstags. Team von 25 Personen im Service.

Projektrahmen

6 Wochen Entwicklung, 2 Wochen Shadow-Modus, live seit 2024. Monatlicher Retainer für Script-Anpassungen, Menü-Updates und neue Sprachunterstützung.

Die Herausforderung

Das Telefon war der Engpass – nicht die Küche.

An einem belebten Freitagabend laufen am Empfang zwei Telefone. Eines davon ist fast immer mit einer Reservierungsanfrage, einer Änderung oder einer Wegfrage belegt. Das zweite Telefon landet in der Rushhour zwischen 18 und 21 Uhr zu etwa 30 % auf der Mailbox – und rund 60 % dieser Nachrichten führen nie zu einer Buchung, da die meisten Anrufenden einfach beim nächsten Restaurant anrufen.

Der Inhaber hatte OpenTables Widget, ein externes Reservierungs-Callcenter und einen menschlichen Anrufservice ausprobiert. OpenTable erfasst die 40 % der Reservierungen nicht, die telefonisch eingehen; das Callcenter berechnete 1,80 $ pro Anruf und die Scripts wirkten hölzern; der menschliche Service hatte keinen direkten Zugang zum Reservierungssystem und erzeugte ständig Doppelbuchungen. Keiner der Dienste konnte auf Spanisch antworten, was das Kiez-Demografikum jedoch benötigte.

Das Briefing war konkret: jeden Anruf innerhalb von drei Klingeltönen annehmen, direkt in den Resy-Stack buchen, natürliches Englisch und Spanisch sprechen und die Kosten pro Anruf unter 0,25 $ halten – günstiger als das zu ersetzende Callcenter.

Die Lösung

Ein produktionsreifer LiveKit Voice Agent mit Zwei-Modell-Gesprächssteuerung und nativer Reservierungssystem-Integration.

Jede Komponente wurde nach Latenz, zweisprachiger Qualität und minutengenauer Wirtschaftlichkeit ausgewählt. Keine Plattformbindung – nur der Stack, der funktioniert.

Voice-Infrastruktur: LiveKit Cloud. Wir starteten mit Vapi für das MVP und migrierten in Woche 3 zu LiveKit, als wir deterministische Kontrolle über das Gesprächssteuerungs-Verhalten und geringere Latenz auf Media-Ebene benötigten. LiveKit's Agents-Framework ermöglicht es, das Turn-Taking-Modell, STT, LLM und TTS im gleichen Prozess mit direktem Audio-Routing zu betreiben – daher stammt die p50-Antwortzeit unter 700 ms.

STT: Deepgram Nova-2. Wir evaluierten Whisper Large-v3, Deepgram Nova-2 und AssemblyAI Universal-2 anhand eines Testsets aus 200 echten Anrufen der tatsächlichen Telefonleitung des Kunden (New Yorker Akzente, spanischsprachiges Englisch, Restaurantgeräusche). Nova-2 gewann bei der Wortfehlerrate für unser spezifisches Audioprofil und erreichte dabei etwa ein Drittel der Latenz von Whisper.

LLM: GPT-4o-mini mit strukturierten Tool-Calls. Der Agent arbeitet nicht frei formulierend – er führt eine Zustandsmaschine mit sechs Absichten (Reservierung, Änderung, Stornierung, Warteliste, Öffnungszeiten/Information, Übergabe) und 14 Unterabsichten aus. GPT-4o-mini ist für diesen Umfang mehr als ausreichend und kostet ein Zwanzigstel von GPT-4o; das strukturierte Ausgabeschema hält den Agenten auf Kurs. Claude Haiku dient als Fallback für komplexe Umbuchungslogik, bei der der Denkschritt entscheidend ist.

TTS: Cartesia Sonic Englisch + Spanisch. Wir haben ElevenLabs Flash, Cartesia Sonic und Azure Neural in einem Blindtest mit 40 echten Kunden verglichen. Cartesia Sonic überzeugte durch zweisprachige Konsistenz – dieselbe Stimme auf Englisch und Spanisch, ohne den störenden Stimmwechsel, den die meisten TTS-Engines vollziehen. Latenzbudget: 120 ms bis zum ersten Audio-Chunk.

Reservierungssystem-Integration: Resy API + SevenRooms-Fallback. Direkte API-Aufrufe für Tischverfügbarkeit, Buchung, Änderung und Stornierung. Eine strukturierte Notiz wird ins POS (Toast) geschrieben, sodass das Empfangspersonal beim Eintreffen der Gäste den Kontext sieht. Das vollständige Gesprächstranskript wird gespeichert und mit Tags versehen – vom Inhaber durchsuchbar, wenn er verstehen möchte, warum eine bestimmte Buchung zustande kam.

Architektur (Datenfluss)

1.Anruf eingehendTwilio SIP-Trunk → LiveKit Agent-Room

2.GesprächssteuerungLiveKit VAD + Äußerungsende-Modell → <120ms Entscheidung

3.STTDeepgram Nova-2 Streaming → Teil- und Endtranskripte

4.Absicht + AntwortGPT-4o-mini mit Function Calling → Resy/SevenRooms-Tools

5.Tool-Callscheck_availabilitycreate_bookingmodify_bookingadd_to_waitlisthandoff_to_host

6.TTSCartesia Sonic Streaming → erster Audio-Chunk nach 120 ms

7.Nach dem AnrufTranskript + Absichts-Tags → Toast-POS-Notiz + Inhaber-Dashboard

8.ObservabilityLangSmith Traces + Helicone LLM-Logs + Matomo Anruf-Analytics

LiveKit Cloud Deepgram Nova-2 GPT-4o-mini Cartesia Sonic Claude Haiku (Fallback) Twilio SIP Resy API SevenRooms Toast POS LangSmith Helicone Python 3.12 FastAPI PostgreSQL

Ergebnisse

Vier Monate im Produktionsbetrieb. Zahlen aus dem Live-Traffic, keine Piloten.

Alle nachfolgenden Kennzahlen sind Live-Traffic-Aggregate aus der Anruf-Analytics des Kunden. Keine Rosinenpickerei aus Testläufen.

91 %

Aufgabenabschlussquote

Anrufe, bei denen das Ziel der anrufenden Person – buchen, ändern, stornieren oder eine Antwort erhalten – ohne menschliche Übergabe erreicht wurde.

0,09 $

Durchschnittliche Kosten pro Anruf

Gesamtkosten: STT + LLM + TTS + Telefonie. 20-mal günstiger als das ersetzte Callcenter.

+22 %

Reservierungen im Monatsvergleich

Gewonnen aus dem zuvor verlorenen Mailbox-Traffic sowie dem zurückgeholten Anrufvolumen außerhalb der Öffnungszeiten.

<700ms

p50-Antwortlatenz

Median vom Äußerungsende bis zum ersten TTS-Audio-Chunk. Das Gespräch fühlt sich wie ein echtes Gespräch an – kein Script.

100 %

Eingehende Anrufe beantwortet

In den letzten 60 Tagen kein einziger Anruf auf der Mailbox. Zweisprachig (Englisch + Spanisch) vom ersten Anruf an.

Doppelbuchungen in 4 Monaten

Die Resy-API-Prüfung vor dem Buchen ist atomar. Der Agent bestätigt keine Reservierung, die er nicht halten kann.

Im ersten Monat bekam ich ständig Nachrichten von Stammgästen: „Wer ist die neue Dame am Empfang? Sie ist wirklich gut." Niemand hat gemerkt, dass es eine KI war, bis wir es ihnen gesagt haben.

— Restaurantinhaber, Manhattan

Was den Unterschied gemacht hat

Vier Entscheidungen, an denen die meisten Voice-KI-Projekte scheitern.

1. Zwei Wochen Shadow-Modus vor dem Go-live. Der Agent nahm jeden Anruf parallel zum Empfangsmitarbeiter entgegen und generierte eine Antwort – aber der Mitarbeiter sprach. Wir verglichen, was der Agent gesagt hätte, mit dem, was der Mitarbeiter sagte, anhand von über 400 echten Anrufen und behobenen jeden Sonderfall, bevor ein Gast die Stimme des Agenten hörte.

2. Zweisprachige TTS ohne Stimmwechsel. 35 % der Anrufenden wechseln mitten im Satz zwischen Englisch und Spanisch. Die meisten TTS-Engines reagieren auf den Sprachwechsel mit einem vollständigen Stimmwechsel – das wirkt störend und signalisiert der anrufenden Person sofort, dass sie mit einem Bot spricht. Cartesia Sonic behält dieselbe Stimmenidentität über beide Sprachen hinweg.

3. Atomares Buchen mit optimistischer Bestätigung. Der Agent sagt „Ich prüfe das kurz für Sie" und hält den Platz über Resys Hold-Endpoint, bevor er bestätigt. Schlägt der API-Aufruf mitten im Satz fehl, sagt der Agent „Moment, ich prüfe noch einmal kurz" und wiederholt den Vorgang. Die anrufende Person hört nie „Es ist ein Fehler aufgetreten."

4. Kosten pro Anruf als erstklassige Nebenbedingung. Wir haben ab Tag eins ein Kosten-Dashboard betrieben und die Kosten jeder Absicht beobachtet. Als GPT-4o-mini bei einer Tool-Call-intensiven Absicht nach oben driftete, bemerkten wir es innerhalb von Stunden – nicht Wochen. Ohne Kosten-Tracking pro Anruf wird ein Voice Agent still zu einem Posten, der den ROI-Business-Case zunichte macht.

Zeitplan

Von der Analyse bis zum Produktionsbetrieb in 6 Wochen.

Woche 1
Analyse + Audioprofil
200 echte Anrufe über Werktage und Wochenenden aufgezeichnet. Absichtstaxonomie erstellt. Deepgram Nova-2 nach WER-Tests ausgewählt.
Woche 2–3
MVP auf Vapi → Migration zu LiveKit
Funktionsfähiges MVP auf Vapi in 3 Tagen für die Stakeholder-Freigabe entwickelt, dann auf LiveKit für produktionsreife Latenz und Gesprächssteuerung neu aufgebaut.
Woche 4
Resy-Integration + Toast-POS-Notiz-Pipeline
Atomares Buchen mit Hold-then-Confirm. Transkript-markierte Notizen an Toast, damit das Empfangspersonal den Kontext jeder eingehenden Buchung sieht.
Woche 5
Zweisprachige TTS + Stimmfeinabstimmung
Cartesia Sonic im Vergleich zu ElevenLabs Flash in einem Blindtest mit 40 Kunden. Endgültige Stimme vom Inhaber ausgewählt.
Woche 6
Shadow-Modus Go-live
Agent beantwortete jeden Anruf parallel zum Empfangsmitarbeiter. Tägliches Diff-Review mit dem Kunden. Kein Kundenkontakt mit dem Agenten.
Woche 7–8
Produktions-Cutover + Übergabe
Agent übernahm eingehende Anrufe als primäre Instanz. Dashboard-Übergabe an den Inhaber. Monatlicher Retainer für Menü-Updates und Script-Anpassungen gestartet.

Verwandte Fallstudien

Weitere produktionsreife Voice- und Chatbot-Projekte.

Ähnliche Ergebnisse gewünscht?

In einem 20-minütigen Gespräch sagen wir Ihnen, ob ein Voice Agent für Sie umsetzbar ist.

Bringen Sie Ihr Anrufvolumen, Ihr Reservierungs- bzw. Buchungssystem und Ihre aktuelle Konversionsrate mit – wir antworten mit Ja, Nein oder „Noch nicht" und begründen das mit Zahlen. Kein Pitch-Deck.

Gespräch buchen → Voice-Agent-Leistungen ansehen

Milina — ein KI-Telefonassistent, der 50+ Reservierungen pro Nacht zu 0,09 $ pro Anruf abwickelt

Kunde

Projektrahmen

Das Telefon war der Engpass – nicht die Küche.

Ein produktionsreifer LiveKit Voice Agent mit Zwei-Modell-Gesprächssteuerung und nativer Reservierungssystem-Integration.

Architektur (Datenfluss)

Vier Monate im Produktionsbetrieb. Zahlen aus dem Live-Traffic, keine Piloten.

Aufgabenabschlussquote

Durchschnittliche Kosten pro Anruf

Reservierungen im Monatsvergleich

p50-Antwortlatenz

Eingehende Anrufe beantwortet

Doppelbuchungen in 4 Monaten

Vier Entscheidungen, an denen die meisten Voice-KI-Projekte scheitern.

Von der Analyse bis zum Produktionsbetrieb in 6 Wochen.

Analyse + Audioprofil

MVP auf Vapi → Migration zu LiveKit

Resy-Integration + Toast-POS-Notiz-Pipeline

Zweisprachige TTS + Stimmfeinabstimmung

Shadow-Modus Go-live

Produktions-Cutover + Übergabe

Weitere produktionsreife Voice- und Chatbot-Projekte.

CleverAnswerAI — HIPAA-konformer KI-Telefonassistent für Zahnarztpraxen

iGaming QA-Bewertung — 66 % → 91 %

Unternehmens-RAG — ~500 interne Nutzer, berechtigungsgesteuert

In einem 20-minütigen Gespräch sagen wir Ihnen, ob ein Voice Agent für Sie umsetzbar ist.