KI-Telefonassistenten für Restaurants die jede Reservierung, jede Nacht entgegennehmen

Ihre Gastgeberin begleitet gerade einen Gast. Das Telefon klingelt weiter. Ein KI-Telefonassistent nimmt jeden Anruf entgegen — bucht Reservierungen, nennt Wartezeiten, nimmt Außer-Haus-Bestellungen auf und beantwortet Fragen zur Speisekarte in der Sprache des Anrufers.

Vapi · LiveKit · Retell OpenTable · Resy · SevenRooms · Toast Deutsch · Englisch · Spanisch · Französisch · Italienisch 0,09 $/Anruf Stückkosten

Eine Gastgeberin, drei Telefone, sechs Personen an der Tür.

Restaurants verlieren Buchungen durch ein einfaches betriebliches Problem: Die Gastgeberin ist damit beschäftigt, eine Gruppe zu platzieren, das Telefon klingelt, und der Anrufer überlegt bereits, ob er beim nächsten Restaurant auf der Liste anrufen soll. Stoßzeiten beim Anrufaufkommen fallen mit den Stoßzeiten beim Einlass zusammen. Anrufe außerhalb der Öffnungszeiten werden nicht zurückgerufen. Voicemail funktioniert bei Reservierungen nicht — die meisten Anrufer hinterlassen keine Nachricht, und wer eine hinterlässt, wird erst am Morgen zurückgerufen, wenn der Platz längst vergeben ist.

Die üblichen Alternativen sind nicht besser. Ein herkömmlicher IVR-Baum, der den Anrufer bittet, „Taste 1 für Reservierungen zu drücken", ist schlechter als ein Mensch. Mehrsprachigen Service durch Personal abzudecken, ist ein Personalplanungsproblem, das die meisten Einzelstandort-Restaurants nicht lösen können. Anrufservices fehlt der betriebliche Kontext — das Degustationsmenü am Dienstag, die Richtlinie für Privatveranstaltungen, die Allergeninformation — und sie machen bei jedem zweiten Detail Fehler.

Ein KI-Telefonassistent nimmt jeden Anruf entgegen, in jeder Sprache, zu 0,09 $ pro bearbeitetem Anruf. Er bucht direkt in OpenTable, Resy, SevenRooms oder Toast Tables. Er nimmt Außer-Haus-Bestellungen in Ihr POS-System auf. Er beantwortet Fragen zu Öffnungszeiten, Parkmöglichkeiten und Ernährungsbesonderheiten, die sonst das Service-Personal beschäftigen würden. Und wenn er nicht weiterhelfen kann, übergibt er den Anruf mit vollem Kontext an einen namentlich bekannten Mitarbeiter.

Drei KI-Deployments, die zum Restaurantbetrieb passen.

Die folgenden Kennzahlen stammen aus produktiven Restaurant-Deployments, nicht aus Pilotprojekten.

Reservierungen

Reservierungs- & Buchungsassistent

Eingehender KI-Agent auf Vapi/LiveKit, der Reservierungen in OpenTable, Resy, SevenRooms oder Toast in unter 90 Sekunden bucht. Nennt die aktuelle Wartezeit, bietet Alternativen bei ausgebuchten Zeiten und hält den Platz frei, während die Verfügbarkeit geprüft wird.

0,09 $pro bearbeitetem Anruf (Milina NYC, LiveKit + Deepgram + GPT-4o-mini + Cartesia)
Außer Haus

Außer-Haus- & Bestellassistent

Voice Agent, der Außer-Haus-Bestellungen über Telefon und Drive-thru entgegennimmt, in Ihr POS-System (Toast, Square, Revel) schreibt und die Bestellung vor dem Abschicken mit dem Kunden bestätigt. Verarbeitet Modifikationen, Allergenhinweise und Upselling-Vorschläge ohne aufdringlich zu sein.

50+Anrufe pro Nacht ohne menschliches Eingreifen bearbeitet
FAQ & Öffnungszeiten

FAQ-, Öffnungszeiten- und Standortassistent

Beantwortet Anrufe, die die Gastgeberin nicht beanspruchen sollten — Öffnungszeiten, Standort, Parkmöglichkeiten, Fragen zur Speisekarte und Ernährungsbesonderheiten, Gutscheinkäufe, Anfragen zu Privatveranstaltungen weitergeleitet an den zuständigen Manager. So bleibt das Service-Personal fürs Hosting frei.

~70 %eingehende Anrufabwendung in einem typischen Einzelstandort-Restaurant

Milina — KI-Telefonassistent für Reservierungen auf LiveKit.

Restaurant · Einzelstandort · New York City · Ikonisches japanisches Konzept

Milina — KI-Telefonassistent für Reservierungen auf LiveKit.

Milina, ein reservierungsbasiertes Restaurant in New York City, benötigte einen Voice Agent, der das Reservierungsaufkommen zu Stoßzeiten bewältigen kann, ohne roboterhaft zu klingen. Wir haben eine LiveKit-Voice-Infrastruktur mit Deepgram STT, GPT-4o-mini für den Dialog und Cartesia für latenzarme TTS eingesetzt. Der Agent bearbeitet 50+ Anrufe pro Nacht, bucht direkt ins Reservierungssystem, und die Stückkosten liegen bei 0,09 $ pro bearbeitetem Anruf. Kunden erkennen nicht, dass sie mit einer KI sprechen.

0,09 $pro Anruf
50+Anrufe pro Nacht
LiveKit+ Deepgram + GPT-4o-mini + Cartesia
0Mitarbeiter nach 21 Uhr erforderlich
Vollständige Fallstudie Milina lesen →

Der Stack, den wir einsetzen, wenn das Telefon beantwortet werden muss.

Niedrige Stückkosten pro Anruf, geringe Latenz und direkte Rückschreibung in die Reservierungsplattform und das POS-System, das das Restaurant bereits nutzt.

Voice-Infrastruktur

LiveKit · Vapi · Retell

Für einen Einzelstandort mit hohem Reservierungsaufkommen setzen wir in der Regel LiveKit für die niedrigsten Stückkosten pro Anruf ein; Vapi für die schnellste Zeit bis zum MVP; Retell für gehostete Einfachheit.

Sprachverarbeitung

Deepgram · Cartesia · ElevenLabs

Deepgram für STT, optimiert auf laute Restauranthintergründe; Cartesia für die schnellste TTS bei latenzempfindlichen Einsätzen; ElevenLabs, wenn Stimmqualität höchste Priorität hat.

Modelle

GPT-4o-mini · Claude Haiku

Kleine Modelle sind die richtige Wahl für Restaurantreservierungen. Schneller, günstiger und präzise genug für ein klar abgegrenztes Gespräch.

Reservierungen

OpenTable · Resy · SevenRooms · Tock

Direkte API-Integration, wo verfügbar; Browser-Automatisierungs-Fallback, wo nicht (ja, wir bauen beides).

POS

Toast · Square · Revel · Clover

Für Außer-Haus- und Drive-thru-Deployments: direkte POS-Rückschreibung, damit die Bestellung bereits bestätigt in der Küche ankommt.

Observability

LangSmith · Helicone · CloudWatch

Jeder Anruf vollständig nachverfolgbar. Anrufaufzeichnungen gemäß Ihrer Richtlinien gespeichert; Kosten und Latenz pro Anruf erfasst.

Der Anrufer sollte nicht fragen, ob er mit einer KI spricht.

Vier Fragen, die jeder Gastronom vor der Unterzeichnung stellt. Hier sind unsere ehrlichen Antworten.

Welche Sprachen werden unterstützt?

Englisch, Spanisch, Französisch, Italienisch, Mandarin, Kantonesisch, Japanisch und Portugiesisch sind Standard. Gemischtsprachige Anrufe (Kunde beginnt auf Spanisch, wechselt zu Englisch) werden nativ verarbeitet — ohne Reset. Wir verwenden sprachspezifische Stimmen, nicht eine Stimme mit aufgesetztem Akzent.

Klingt es roboterhaft?

Die Messlatte ist: „Der Anrufer fragt nicht, ob er mit einer KI spricht." Wir erreichen das mit Cartesia- oder ElevenLabs-Stimmen, die auf den Ton des Restaurants abgestimmt sind, einer Antwortlatenz unter 600 ms und Unterbrechungsverarbeitung. Wir spielen Ihnen ein Muster vor, bevor Sie unterschreiben.

Was ist mit Ernährungs- & Allergenfragen?

Der Agent kennt Ihre Speisekarte, Ihre Allergeninformation und Ihre „Beim Koch nachfragen"-Kennzeichnungen. Wenn er es nicht weiß, sagt er es und bietet einen Rückruf durch einen Mitarbeiter an — er rät nie bei einer Erdnussallergie.

Kann er upsellen, ohne aufdringlich zu sein?

Ja, innerhalb der von Ihnen festgelegten Regeln — der Cabernet am Dienstag, das neue Dessert für Erstbesucher, das Degustationsmenü in ruhigen Nächten. Themenfremdes Upselling wird auf Prompt-Ebene blockiert. Sie genehmigen das Playbook, bevor es live geht.

Vom Einzelstandort zur Restaurantgruppe.

Feste Projektpreise. Die Stückkosten pro Anruf werden im Entdeckungs-Workshop kalkuliert, damit Sie die monatlichen Betriebskosten kennen, bevor Sie unterschreiben.

DeploymentUmfangPreis
Einzelstandort Voice Agent Eingehende Reservierungen + Außer Haus, 1 POS, 1 Reservierungsplattform, Shadow-Modus 6.000–12.000 $
Mehrstandort-Rollout Gemeinsame Vorlagen über Standorte hinweg, standortspezifische Konfiguration, konsolidierte Analysen 15.000–28.000 $
Enterprise-Restaurantgruppe Gruppen-HQ + Franchisenehmer-Konfiguration, Freigabeprozesse, mehrsprachig, individuelle Stimme 25.000–45.000 $
Outbound-Reservierungsrückgewinnungsassistent Rückrufassistent für die Umwandlung von No-shows und Warteliste, Bewertungsanfrage-Prozess 7.000–14.000 $
Monatlicher Retainer Betrieb, Speisekarten-Updates, Saisonanpassungen, neue Sprache, Analysen 1.500–6.000 $/Monat

Die Kosten pro Anruf liegen je nach Sprache und Gesprächsdauer zwischen 0,08 $ und 0,18 $. Ein Einzelstandort-Restaurant mit 1.500–3.000 bearbeiteten Anrufen pro Monat gibt 150–500 $ für den KI-Telefonassistenten-Betrieb aus.

Fragen aus der Gastronomie, die wir in jedem Erstgespräch beantworten.

Was kostet ein KI-Telefonassistent für ein Restaurant?
Die Kosten pro Anruf liegen typischerweise bei 0,08–0,18 $. Fixe Aufbaukosten: Einzelstandort-Deployment 6.000–12.000 $. Ein Restaurant mit 1.500–3.000 Anrufen pro Monat gibt 150–500 $ für den laufenden Betrieb aus.
Mit welchen Reservierungsplattformen integrieren Sie?
OpenTable, Resy, SevenRooms, Tock, Yelp Reservations, Toast Tables, Google Reserve. Auch Direktintegration mit individuellen internen Systemen über REST oder Webhook.
Kann der KI-Agent mehrere Sprachen verarbeiten?
Ja. Englisch, Spanisch, Französisch, Italienisch, Mandarin, Kantonesisch, Japanisch und Portugiesisch sind Standard. Der Agent verarbeitet Sprachwechsel mitten im Gespräch nativ.
Werden Kunden merken, dass sie mit einer KI sprechen?
Im Blindtest bei Milina bemerkten die meisten Anrufer es nicht. Wir verwenden Cartesia/ElevenLabs-Stimmen, eine Latenz unter 600 ms, Unterbrechungsverarbeitung und natürliche Prosodie.
Was passiert, wenn der KI-Agent eine Frage nicht beantworten kann?
Er leitet an einen Menschen weiter — während der Servicezeiten ans Mobiltelefon des Managers, außerhalb der Servicezeiten an die Voicemail mit einem strukturierten Transkript.
Wie schnell können wir live gehen?
Einzelstandort-Restaurant: 3–4 Wochen einschließlich Reservierungsintegration, Stimmtuning, Shadow-Modus und Mitarbeiterübergabe. Mehrstandortgruppen benötigen 1–2 zusätzliche Wochen pro POS-/Reservierungsplattformvariante.

Bereit, jeden Anruf, jede Nacht entgegenzunehmen?

Ein 20-minütiges Gespräch für Gastronomen. Wir hören uns einen Beispielanruf an, schauen uns Ihre Reservierungsplattform und Ihr POS-System an und sagen Ihnen, was realistisch ist — und wie die Stückkosten aussehen werden. Wenn es für Ihr Volumen keinen Sinn ergibt, sagen wir das auch.