Branche · Gastronomie Region · New York City, USA Deployed · Produktionsbetrieb seit 2024

Milina — ein KI-Telefonassistent, der 50+ Reservierungen pro Nacht zu 0,09 $ pro Anruf abwickelt

Ein New Yorker Restaurant verlor Gäste durch unbeantwortete Anrufe. Wir haben einen auf LiveKit basierenden Voice Agent mit Deepgram, GPT-4o-mini und Cartesia entwickelt, der Reservierungen, Anfragen und die Warteliste auf Englisch und Spanisch bearbeitet – und Anrufende bemerken routinemäßig nicht, dass sie mit einem KI-System sprechen.

91 %Aufgabenabschlussquote
0,09 $Durchschnittliche Kosten pro Anruf
50+Anrufe pro Wochenendnacht
<700msAntwortlatenz p50

Kunde

Unabhängiges Full-Service-Restaurant in Manhattan. Ein Standort, ca. 90 Sitzplätze, wochenendschweres Reservierungsmuster mit langer Warteliste freitags und samstags. Team von 25 Personen im Service.

Projektrahmen

6 Wochen Entwicklung, 2 Wochen Shadow-Modus, live seit 2024. Monatlicher Retainer für Script-Anpassungen, Menü-Updates und neue Sprachunterstützung.

Das Telefon war der Engpass – nicht die Küche.

An einem belebten Freitagabend laufen am Empfang zwei Telefone. Eines davon ist fast immer mit einer Reservierungsanfrage, einer Änderung oder einer Wegfrage belegt. Das zweite Telefon landet in der Rushhour zwischen 18 und 21 Uhr zu etwa 30 % auf der Mailbox – und rund 60 % dieser Nachrichten führen nie zu einer Buchung, da die meisten Anrufenden einfach beim nächsten Restaurant anrufen.

Der Inhaber hatte OpenTables Widget, ein externes Reservierungs-Callcenter und einen menschlichen Anrufservice ausprobiert. OpenTable erfasst die 40 % der Reservierungen nicht, die telefonisch eingehen; das Callcenter berechnete 1,80 $ pro Anruf und die Scripts wirkten hölzern; der menschliche Service hatte keinen direkten Zugang zum Reservierungssystem und erzeugte ständig Doppelbuchungen. Keiner der Dienste konnte auf Spanisch antworten, was das Kiez-Demografikum jedoch benötigte.

Das Briefing war konkret: jeden Anruf innerhalb von drei Klingeltönen annehmen, direkt in den Resy-Stack buchen, natürliches Englisch und Spanisch sprechen und die Kosten pro Anruf unter 0,25 $ halten – günstiger als das zu ersetzende Callcenter.

Ein produktionsreifer LiveKit Voice Agent mit Zwei-Modell-Gesprächssteuerung und nativer Reservierungssystem-Integration.

Jede Komponente wurde nach Latenz, zweisprachiger Qualität und minutengenauer Wirtschaftlichkeit ausgewählt. Keine Plattformbindung – nur der Stack, der funktioniert.

Voice-Infrastruktur: LiveKit Cloud. Wir starteten mit Vapi für das MVP und migrierten in Woche 3 zu LiveKit, als wir deterministische Kontrolle über das Gesprächssteuerungs-Verhalten und geringere Latenz auf Media-Ebene benötigten. LiveKit's Agents-Framework ermöglicht es, das Turn-Taking-Modell, STT, LLM und TTS im gleichen Prozess mit direktem Audio-Routing zu betreiben – daher stammt die p50-Antwortzeit unter 700 ms.

STT: Deepgram Nova-2. Wir evaluierten Whisper Large-v3, Deepgram Nova-2 und AssemblyAI Universal-2 anhand eines Testsets aus 200 echten Anrufen der tatsächlichen Telefonleitung des Kunden (New Yorker Akzente, spanischsprachiges Englisch, Restaurantgeräusche). Nova-2 gewann bei der Wortfehlerrate für unser spezifisches Audioprofil und erreichte dabei etwa ein Drittel der Latenz von Whisper.

LLM: GPT-4o-mini mit strukturierten Tool-Calls. Der Agent arbeitet nicht frei formulierend – er führt eine Zustandsmaschine mit sechs Absichten (Reservierung, Änderung, Stornierung, Warteliste, Öffnungszeiten/Information, Übergabe) und 14 Unterabsichten aus. GPT-4o-mini ist für diesen Umfang mehr als ausreichend und kostet ein Zwanzigstel von GPT-4o; das strukturierte Ausgabeschema hält den Agenten auf Kurs. Claude Haiku dient als Fallback für komplexe Umbuchungslogik, bei der der Denkschritt entscheidend ist.

TTS: Cartesia Sonic Englisch + Spanisch. Wir haben ElevenLabs Flash, Cartesia Sonic und Azure Neural in einem Blindtest mit 40 echten Kunden verglichen. Cartesia Sonic überzeugte durch zweisprachige Konsistenz – dieselbe Stimme auf Englisch und Spanisch, ohne den störenden Stimmwechsel, den die meisten TTS-Engines vollziehen. Latenzbudget: 120 ms bis zum ersten Audio-Chunk.

Reservierungssystem-Integration: Resy API + SevenRooms-Fallback. Direkte API-Aufrufe für Tischverfügbarkeit, Buchung, Änderung und Stornierung. Eine strukturierte Notiz wird ins POS (Toast) geschrieben, sodass das Empfangspersonal beim Eintreffen der Gäste den Kontext sieht. Das vollständige Gesprächstranskript wird gespeichert und mit Tags versehen – vom Inhaber durchsuchbar, wenn er verstehen möchte, warum eine bestimmte Buchung zustande kam.

Architektur (Datenfluss)

1.Anruf eingehendTwilio SIP-Trunk → LiveKit Agent-Room
2.GesprächssteuerungLiveKit VAD + Äußerungsende-Modell → <120ms Entscheidung
3.STTDeepgram Nova-2 Streaming → Teil- und Endtranskripte
4.Absicht + AntwortGPT-4o-mini mit Function Calling → Resy/SevenRooms-Tools
5.Tool-Callscheck_availabilitycreate_bookingmodify_bookingadd_to_waitlisthandoff_to_host
6.TTSCartesia Sonic Streaming → erster Audio-Chunk nach 120 ms
7.Nach dem AnrufTranskript + Absichts-Tags → Toast-POS-Notiz + Inhaber-Dashboard
8.ObservabilityLangSmith Traces + Helicone LLM-Logs + Matomo Anruf-Analytics
LiveKit Cloud Deepgram Nova-2 GPT-4o-mini Cartesia Sonic Claude Haiku (Fallback) Twilio SIP Resy API SevenRooms Toast POS LangSmith Helicone Python 3.12 FastAPI PostgreSQL

Vier Monate im Produktionsbetrieb. Zahlen aus dem Live-Traffic, keine Piloten.

Alle nachfolgenden Kennzahlen sind Live-Traffic-Aggregate aus der Anruf-Analytics des Kunden. Keine Rosinenpickerei aus Testläufen.

91 %

Aufgabenabschlussquote

Anrufe, bei denen das Ziel der anrufenden Person – buchen, ändern, stornieren oder eine Antwort erhalten – ohne menschliche Übergabe erreicht wurde.

0,09 $

Durchschnittliche Kosten pro Anruf

Gesamtkosten: STT + LLM + TTS + Telefonie. 20-mal günstiger als das ersetzte Callcenter.

+22 %

Reservierungen im Monatsvergleich

Gewonnen aus dem zuvor verlorenen Mailbox-Traffic sowie dem zurückgeholten Anrufvolumen außerhalb der Öffnungszeiten.

<700ms

p50-Antwortlatenz

Median vom Äußerungsende bis zum ersten TTS-Audio-Chunk. Das Gespräch fühlt sich wie ein echtes Gespräch an – kein Script.

100 %

Eingehende Anrufe beantwortet

In den letzten 60 Tagen kein einziger Anruf auf der Mailbox. Zweisprachig (Englisch + Spanisch) vom ersten Anruf an.

0

Doppelbuchungen in 4 Monaten

Die Resy-API-Prüfung vor dem Buchen ist atomar. Der Agent bestätigt keine Reservierung, die er nicht halten kann.

Im ersten Monat bekam ich ständig Nachrichten von Stammgästen: „Wer ist die neue Dame am Empfang? Sie ist wirklich gut." Niemand hat gemerkt, dass es eine KI war, bis wir es ihnen gesagt haben.

— Restaurantinhaber, Manhattan

Vier Entscheidungen, an denen die meisten Voice-KI-Projekte scheitern.

1. Zwei Wochen Shadow-Modus vor dem Go-live. Der Agent nahm jeden Anruf parallel zum Empfangsmitarbeiter entgegen und generierte eine Antwort – aber der Mitarbeiter sprach. Wir verglichen, was der Agent gesagt hätte, mit dem, was der Mitarbeiter sagte, anhand von über 400 echten Anrufen und behobenen jeden Sonderfall, bevor ein Gast die Stimme des Agenten hörte.

2. Zweisprachige TTS ohne Stimmwechsel. 35 % der Anrufenden wechseln mitten im Satz zwischen Englisch und Spanisch. Die meisten TTS-Engines reagieren auf den Sprachwechsel mit einem vollständigen Stimmwechsel – das wirkt störend und signalisiert der anrufenden Person sofort, dass sie mit einem Bot spricht. Cartesia Sonic behält dieselbe Stimmenidentität über beide Sprachen hinweg.

3. Atomares Buchen mit optimistischer Bestätigung. Der Agent sagt „Ich prüfe das kurz für Sie" und hält den Platz über Resys Hold-Endpoint, bevor er bestätigt. Schlägt der API-Aufruf mitten im Satz fehl, sagt der Agent „Moment, ich prüfe noch einmal kurz" und wiederholt den Vorgang. Die anrufende Person hört nie „Es ist ein Fehler aufgetreten."

4. Kosten pro Anruf als erstklassige Nebenbedingung. Wir haben ab Tag eins ein Kosten-Dashboard betrieben und die Kosten jeder Absicht beobachtet. Als GPT-4o-mini bei einer Tool-Call-intensiven Absicht nach oben driftete, bemerkten wir es innerhalb von Stunden – nicht Wochen. Ohne Kosten-Tracking pro Anruf wird ein Voice Agent still zu einem Posten, der den ROI-Business-Case zunichte macht.

Von der Analyse bis zum Produktionsbetrieb in 6 Wochen.

In einem 20-minütigen Gespräch sagen wir Ihnen, ob ein Voice Agent für Sie umsetzbar ist.

Bringen Sie Ihr Anrufvolumen, Ihr Reservierungs- bzw. Buchungssystem und Ihre aktuelle Konversionsrate mit – wir antworten mit Ja, Nein oder „Noch nicht" und begründen das mit Zahlen. Kein Pitch-Deck.