Entwicklung von KI-Telefonassistenten

Was ist ein KI Voice Agent?

Ein echtes Telefongespräch. Kein Web-Widget, kein Chatbot mit Sprachausgabe.

Ein KI Voice Agent ist Software, die Telefongespräche für Sie annimmt oder tätigt. Der Anrufende wählt eine Nummer. Der Agent nimmt ab. Er hört zu, verarbeitet die Eingabe und antwortet in Echtzeit mit einer Latenz unter einer Sekunde. Er bucht Termine, qualifiziert Interessenten, bestätigt Bestellungen, beantwortet häufige Fragen und übergibt an einen Menschen, wenn das Gespräch den vorgesehenen Rahmen verlässt.

Unter der Haube ist ein Voice Agent eine Pipeline. Das Audio des Anrufenden wird an ein Spracherkennungsmodell wie Deepgram oder Whisper übertragen. Das Transkript geht an ein Sprachmodell (GPT-4o, Claude) mit Ihrem Unternehmenskontext und einem System-Prompt. Die Antwort durchläuft ein Text-zu-Sprache-Modell wie ElevenLabs oder Cartesia, das in natürlicher Stimme antwortet. Die Orchestrierung erfolgt auf einer Plattform — Vapi, Retell oder LiveKit.

Der Unterschied zwischen einem Voice Agent, der roboterhaft klingt, und einem, der menschlich wirkt, liegt nicht am Sprachmodell. Er liegt am Turn-Taking-Modell, der Wahl der Sprachsynthese und dem Latenz-Budget. Genau hier scheitern die meisten Implementierungen.

Wir entwickeln produktionsreife Voice Agents seit 2023, beginnend mit internen Deployments bei einem iGaming-Betreiber mit über 10 Millionen Spielern. Wir wissen, wo sie versagen.

Voice Agent Leistungen

Sechs Typen von Voice Agents, die wir entwickeln.

Ausgewählt nach Ihrem Anrufvolumen, Ihrem Gesprächsmuster und Ihrem Compliance-Profil. Nicht danach, was für uns am einfachsten ist.

Inbound

Inbound-Support Voice Agents

24/7-Telefonabdeckung für häufige Fragen, Bestellstatus, Terminänderungen und grundlegende Fehlersuche. Übergabe an einen Menschen, wenn die Absicht des Anrufenden außerhalb des trainierten Bereichs liegt.

Typische Deflection: 70–85 % der Inbound-Anrufe ohne Übergabe gelöst

Outbound

Outbound Lead-Qualifizierungsagenten

Ruft Inbound-Web-Leads innerhalb von 60 Sekunden an, qualifiziert sie in unter drei Minuten und bucht ein Verkaufsgespräch in Ihrem Kalender.

Typische Steigerung: 3–5x Kontaktrate vs. manuellem Anwählen, zu einem Bruchteil der Kosten pro qualifiziertem Lead

HIPAA

KI-Empfangsdamen für Kliniken & Dienstleistungsunternehmen

Empfangsvertretung für medizinische, zahnärztliche, tierärztliche und juristische Büros. Bucht Termine, erfasst Versicherungsdaten, bestätigt Absagen und leitet Notfälle weiter. HIPAA-konform auf selbst gehostetem oder konformem Cloud-System.

Referenz-Deployment: 100 % Annahmequote, +28 % Buchungen in 90 Tagen

Reservation

Reservierungs- & Buchungsagenten

Restaurants, Hotels, Salons, Fitnessstudios. Der Agent übernimmt neue Buchungen, Änderungen, Wartelisten und Nachverfolgung bei Nichterscheinen — 24 Stunden am Tag, in über 10 Sprachen.

Milina-Deployment: 50+ Anrufe/Wochenendnacht zu 0,09 $/Anruf

Outbound

Erinnerungs- & Verlängerungsagenten

Versicherungsverlängerungen, Zahlungserinnerungen, Abonnement-Rückgewinnung. Telefongespräche erzielen in unseren Produktionsdaten eine 3–4-fach höhere Konversionsrate als SMS, bei vergleichbaren Kosten pro Kontakt.

3–4x höhere Konversion als SMS bei ähnlichen Kosten pro Kontakt

Internal

Voice-gestützte interne Assistenten

Ein Voice Agent, den Ihr Vertriebs- oder Operations-Team tagsüber anruft: „Zeig mir die Pipeline des letzten Monats nach Stufen. Buche eine Demo mit dem Miller-Kunden." Sprachoberfläche auf HubSpot, Salesforce oder GoHighLevel.

Eingesetzt auf: HubSpot · Salesforce · GHL · Zoho

Plattformauswahl

Welche Voice-Plattform sollten Sie verwenden?

Drei Plattformen dominieren produktionsreifes Voice AI im Jahr 2026: Vapi, Retell und LiveKit. Sie sind nicht austauschbar.

Vapi

Schnellster Einstieg

Verwaltete Infrastruktur, Drag-and-drop-Flows, vorintegrierte Telefonie. Ein funktionierender Prototyp ist innerhalb eines Tages möglich. Wir empfehlen Vapi für einfache Single-Intent-Agents (FAQ, einfache Buchung) und für Teams, die in zwei Wochen ohne Infrastrukturaufwand liefern müssen.

Pro Minute

0,10–0,33 $

Time to ship

1–2 Wochen

Retell AI

Optimum für mittlere Komplexität

Das proprietäre Turn-Taking-Modell liefert eine Antwortlatenz von ca. 600 ms — der aktuelle Produktionsmaßstab. SOC 2 Type II macht es zur Standardwahl für US-amerikanische Kunden im Gesundheits- und Finanzbereich, die Zertifizierungen benötigen, aber kein Self-Hosting betreiben können.

Pro Minute

~0,07 $

Latenz

~600 ms

LiveKit

Maximale Kontrolle, beste Stückkosten

Open-Source, selbst hostbarer Stack. Unser Milina-Deployment läuft bei 0,09 $ pro 3-minütigem Anruf. Die einzige sinnvolle Option für großvolumige Deployments, bei denen Minutengebühren erheblich ins Gewicht fallen. Kompromiss: Entwicklungsaufwand — Sie wählen und verbinden Ihre eigenen STT-, LLM- und TTS-Anbieter.

Pro Anruf

~0,09 $

Skalierung

50K+/mo

Wir sind plattformagnostisch. Im Discovery Workshop prüfen wir Ihren Anwendungsfall, Ihr Compliance-Profil und Ihre Anrufökonomie — und empfehlen den passenden Stack, nicht denjenigen mit dem besten Partnerprogramm.

Produktionsergebnisse

Wie Produktion tatsächlich aussieht.

Drei Deployments. Echte Kennzahlen. Keine dieser Angaben existiert nur auf einer Demo-Folie.

Milina · NYC restaurant

Reservierungs- und Anfragebearbeitung. 0,09 $ pro Anruf, 91 % Abschlussrate.

LiveKit + Deepgram STT + GPT-4o-mini + Cartesia TTS. Bearbeitet 50+ Anrufe pro Wochenendnacht. 91 % Abschlussrate — das Ziel des Anrufenden wurde ohne menschliche Übergabe erreicht. Während des Shadow-Modes merkten Anrufende in der Regel nicht, dass sie mit einer KI sprachen, bis wir es ihnen mitteilten.

LiveKit Deepgram GPT-4o-mini Cartesia

CleverAnswerAI · Dental clinic

HIPAA KI-Empfangsdame. 100 % Annahmequote, 28 % mehr Buchungen.

HIPAA-konformes Deployment auf selbst gehostetem LiveKit im VPC des Kunden. 100 % Annahmequote bei Inbound-Anrufen, zuvor 62 %. Der Rest ging zur Voicemail und ging verloren. 28 % mehr gebuchte Termine in den ersten 90 Tagen.

LiveKit VPC HIPAA BAA Twilio ElevenLabs

iGaming operator · 10M+ players

QA-Bewertungssystem. 66 % → 91 % Genauigkeit, 2 % → 25 % Abdeckung.

Kein Voice Agent, aber erwähnenswert, weil die Methodik zählt. Wir haben ein Live-QA-Auditsystem von 66 % auf 91 % Genauigkeit gebracht, indem wir von direktem Prompting auf schemageleitetes Schlussfolgern umgestellt haben. Das ist das Niveau an Sorgfalt, das wir bei jedem Voice-Deployment anlegen.

Schema-guided GPT-4o LangSmith pytest

Schweizer Lebensmittelgroßhändler · Schwyzerdütsch-Voicemail

Voicemail → strukturierte Bestellungen. 99 von 100 zuvor unbrauchbaren Dateien gerettet.

Ein Drei-Modell-Ensemble (Whisper Turbo + Gemini 2.5 Pro + FHNW Schweizerdeutsch) mit Claude 4.7 Opus als Arbiter. Beendet Whispers Looping-Halluzinations-Fehlermodus bei Schwyzerdütsch-Telefon-Audio. ~15 $ Gesamtkosten für 796 Dateien. Fallstudie lesen →

Whisper Turbo Gemini 2.5 Pro Claude 4.7 Opus FastAPI

Alle Fallstudien lesen →

Preise

Voice-KI-Projekte haben drei Formen.

Keine Stundenabrechnung für die Entwicklung. Keine überraschenden Rechnungen. Wenn wir auf einen unerwarteten technischen Blocker stoßen, der mehr Aufwand erfordert, ist das unser Risiko — dafür gibt es den Discovery Workshop.

Leistung	Umfang	Preis	Zeitrahmen
Discovery Workshop	Anwendungsfall-Audit, Architekturdokument, Festpreisangebot	1.500–3.000 $	1 Woche
Voice Agent MVP	Einzelner Anwendungsfall, ein Kanal, Kern-CRM-Integration	6.000–12.000 $	3–4 Wochen
Produktionsreifer Voice Agent	Mehrsprachig, Multi-Intent, vollständige CRM- + Analytik-Integration	15.000–30.000 $	6–10 Wochen
Monatliches Retainer	Betrieb, Prompt-Optimierung, neue Intents, Observability	2.000–8.000 $/Monat	Nach Launch

Die Produktionskosten pro Anruf liegen je nach Anrufdauer, LLM-Tier und Voice-Plattform zwischen 0,05 und 0,15 $. Wir modellieren dies für Sie im Discovery Workshop, damit Sie Ihre Stückkosten kennen, bevor Sie sich zur Entwicklung verpflichten.

Unser Prozess

Von der Entdeckung bis zur Produktion in 4–8 Wochen.

Keine wochenlangen „Wir arbeiten daran"-Funkstillen. Wöchentliche Demos mit echten Daten ab Woche eins.

Woche 0

Discovery Workshop

Ein einwöchiges kostenpflichtiges Audit. Sie erhalten ein Architekturdokument, eine Stack-Empfehlung, ein Stückkostenmodell und ein Festpreisangebot. Falls Sie nicht mit uns fortfahren, behalten Sie das Dokument.

Wochen 1–3

Entwicklung

Täglicher Slack-Zugang und wöchentliche Demos mit echten Daten aus Ihren Systemen. Keine wochenlangen Funkstillen. Fester Umfang, fester Preis.

Woche 4

Shadow-Mode

Der Voice Agent läuft parallel zu Ihrem menschlichen Team. Wir messen Abschlussrate, Übergaberate, Anruferzufriedenheit und Kosten pro Anruf gegenüber der realen Ausgangslage.

Woche 5+

Produktion

Live-Traffic mit vollständigen Observability-Dashboards (LangSmith oder Helicone), die an Ihr Team übergeben werden. Ein 30-tägiges Fenster nach dem Launch für Prompt- und Flow-Anpassungen ist inbegriffen.

Optionales Retainer. Etwa 70 % unserer Voice-Kunden setzen auf ein monatliches Retainer für Betrieb, neue Intents und Prompt-Optimierung. Optional — wenn Ihr internes Team bereit ist zu übernehmen, übergeben wir sauber.

Branchen, für die wir Voice Agents entwickeln

Vertikales Know-how, kein Template.

Jede Branche hat ihr eigenes Gesprächsmuster, Compliance-Profil und ihre eigenen Schwachstellen. Wir passen uns Ihren an.

Gesundheitswesen & Zahnarztpraxen HIPAA-fähige Empfangsdamen, Terminbuchung, Versicherungsaufnahme Restaurants Reservierungen, Wartelisten, Lieferanfragen Immobilien Inbound Lead-Qualifizierung, Besichtigungsplanung Versicherungen Verlängerungsanrufe, Schadensaufnahme, Produkt-FAQ SaaS & B2B Support-Deflection, Onboarding-Sprachassistenten für Testphasen Finanzdienstleistungen Zahlungserinnerungen, Produkt-FAQ, standardmäßig DSGVO-konform

FAQ

Fragen zu Voice Agents, die wir in jedem Discovery-Call beantworten.

Wie lange dauert die Entwicklung eines produktionsreifen KI Voice Agents?

Vier bis acht Wochen für einen einzelnen Anwendungsfall, zehn bis vierzehn Wochen für einen mehrsprachigen Multi-Intent-Agent mit tiefer CRM-Integration. Wir liefern einen MVP in den Shadow-Mode bis Woche drei oder vier — Sie warten nicht zwei Monate, um funktionierende Software zu sehen.

Was sind die realistischen Kosten pro Anruf?

Zwischen 0,05 und 0,15 $, je nach Anrufdauer, Sprachmodell-Tier und Voice-Plattform. Ein 3-minütiger Anruf auf LiveKit + GPT-4o-mini + Cartesia kostet ca. 0,09 $. Derselbe Anruf auf dem verwalteten Vapi-Stack liegt bei ca. 0,30 $. Wir modellieren Ihre spezifische Ökonomie im Discovery Workshop.

Können Ihre Voice Agents als menschlich durchgehen?

In unseren Produktions-Deployments merken die meisten Anrufenden nicht, dass sie mit einer KI sprechen, bis sie es erfahren. Ob ein Agent menschlich wirkt, hängt von der Turn-Taking-Latenz (unter 700 ms), der Qualität der Sprachsynthese (Cartesia und ElevenLabs führen heute) und dem Gesprächsfluss-Design ab. Dennoch empfehlen wir, dass Agents sich als KI zu erkennen geben, wenn direkt danach gefragt wird — in einigen Rechtssystemen ist dies gesetzlich vorgeschrieben und stärkt das Vertrauen überall.

Übernehmen Sie HIPAA-, GDPR- und andere Compliance-Anforderungen?

HIPAA, ja — über selbst gehostetes LiveKit in einem kundeneigenen VPC mit unterzeichnetem BAA. GDPR, ja — unsere EU-Deployments sind standardmäßig DSGVO-konform, da wir ein EU-ansässiges Team sind. PCI-DSS für Zahlungen per Telefon, ja, obwohl dies zusätzlichen Scope-Aufwand erfordert und typischerweise eine Twilio Flex-Integration für den Zahlungsschritt. Wir arbeiten nicht mit Verteidigungs-, Waffen- oder Erwachsenenunterhaltungs-Deployments.

Kann der Voice Agent in unser bestehendes CRM integriert werden?

Ja. Wir haben produktionsreife Integrationen mit HubSpot, Salesforce, Zoho, GoHighLevel, Pipedrive und mehreren individuellen CRM-Systemen entwickelt. Der Voice Agent liest zu Anrufbeginn Kontext aus Ihrem CRM — Anrufer-ID abgeglichen mit dem Kundendatensatz — und schreibt nach dem Anruf Zusammenfassungen, Absichten und Maßnahmen zurück.

Was passiert, wenn die KI eine Anfrage nicht versteht?

Drei Fallback-Ebenen: Der Agent stellt eine Klärungsfrage in anderer Formulierung, bietet eine Übergabe an einen Menschen an oder nimmt eine Rückrufanfrage auf. Die Übergabebedingungen werden im Discovery Workshop festgelegt. Wir lassen den Agent nicht fünf Minuten lang in Verwirrung kreisen — das wäre die denkbar schlechteste Kundenerfahrung.

Gehören Code und Infrastruktur uns?

Ja. Vollständiges geistiges Eigentum ist in unseren Verträgen Standard. Der Code liegt in Ihrem Repository. Falls wir verwaltete Plattformen wie Vapi oder Retell einsetzen, gehören Ihnen das Konto und die API-Schlüssel von Anfang an.

Können Sie neben unserem internen Entwicklungsteam arbeiten?

Ja. Bei etwa 40 % unserer Voice-Agent-Projekte entwickeln wir gemeinsam mit einem internen Entwicklungsteam. Wir dokumentieren die Architektur gründlich, verwenden Standardwerkzeuge (LangSmith für Observability, pytest für Tests, GitHub Actions für CI) und übergeben sauber.

KI-Telefonassistent Entwicklung