Der KI-Stack, den wir tatsächlich in der Produktion betreiben
Die Tools, Frameworks und Plattformen, die aktuell in den Systemen unserer Kunden laufen. Gegliedert nach Ebene, mit ehrlichen Hinweisen zum Thema „Wann was einsetzen". Nicht die glänzende Liste — sondern die funktionierende.
Warum eine Technologie-Stack-Seite — und warum genau diese.
Agenturen listen Stacks auf, um glaubwürdig zu wirken. Wir listen unseren, um zu filtern — wenn Sie darüber nachdenken, einen Sprachagenten auf einer Plattform aufzubauen, mit der wir nicht arbeiten können, sagen wir das lieber vorab als 40 Minuten in einem Erstgespräch.
Alles Folgende läuft gerade in der Produktion. Nicht „wir sind begeistert davon" oder „wir evaluieren das gerade". Wenn wir es gelistet haben, haben wir es ausgeliefert. Wenn wir etwas von der Liste entfernt haben, sind wir an eine Grenze gestoßen und weitergezogen.
Für jedes Tool beschreiben wir, wann es einzusetzen ist — den tatsächlichen Entscheidungsrahmen. Die meisten dieser Kategorien haben mehrere gute Optionen; die richtige hängt vom Anwendungsfall, der Skalierung und den Rahmenbedingungen ab.
Plattformen für Sprachagenten.
Drei starke Optionen mit unterschiedlichen Stärken.
Vapi
Gehostete Sprach-KI. Schnellste Zeit bis zum MVP — ein funktionierender eingehender Agent ist an einem Nachmittag einsatzbereit. Geeignet für: Unternehmen in der Frühphase, die Sprach-KI vor der Skalierung validieren; Einzelstandort-Deployments, bei denen Betriebseffizienz wichtiger ist als die Kosten pro Anruf.
Retell AI
Gehostete Sprach-KI mit starken Enterprise-Funktionen — Anrufweiterleitung, mehrstufige Gesprächsführung und Analyse-Dashboards ohne Aufwand. Geeignet für: mittelständische Deployments, bei denen der Kunde ein ausgefeiltes Produkt erwartet, kein Framework.
LiveKit
Open-Source-Sprach-Infrastruktur. Selbst gehostet oder über deren Cloud. Geringste Kosten pro Anruf bei Skalierung, vollständige Kontrolle über die Audio-Pipeline. Geeignet für: HIPAA-konforme Stacks, hochvolumige Deployments, benutzerdefiniertes Sprach-Routing. Unser Standard für Gastronomie- und Zahnarzt-Kunden.
Twilio
Die Rufnummern- und Anrufsteuerungsebene unter den meisten Sprachagenten. Wir verwenden Twilio Programmable Voice für PSTN-Zugang und Twilio Flex bei der Integration in eine bestehende Contact-Center-Infrastruktur.
Daily.co · Agora
Alternative Echtzeit-Audio-Infrastruktur für spezialisierte Anwendungsfälle — insbesondere Mehrparteien-Gespräche und internationale Telefonie, bei denen die Preisgestaltung oder Latenz von Twilio nicht passt.
Unser Entscheidungsrahmen
Schnelles MVP, ein Standort → Vapi. Mittelstand, ausgefeilte UX, mehrere Standorte → Retell. HIPAA, hohes Volumen oder kostensensible Wirtschaftlichkeit → LiveKit. Den tatsächlichen Kompromiss besprechen wir im Erstgespräch.
Speech-to-Text und Text-to-Speech.
Die Sprachqualität, die Ihre Kunden tatsächlich hören.
Deepgram
Unser Standard-STT. Echtzeit-Transkription mit geringer Latenz und starker Anpassung an Fachvokabular. Besonders gut bei störenden Hintergrundgeräuschen — Gastronomie, Praxen, Anrufe vom Mobiltelefon.
Whisper
OpenAIs STT. Beste Genauigkeit bei langen Aufnahmen und stark akzentierter Sprache. Wir verwenden Whisper für asynchrone Pipelines (Anrufanalyse, QA-Bewertung) und Deepgram für Echtzeit.
ElevenLabs
Die Stimme, die die meisten meinen, wenn sie sagen „KI, die nicht roboterhaft klingt". Die Enterprise-Stufe ist durch BAA für HIPAA-Stacks abgedeckt. Unser Standard, wenn Sprachqualität das entscheidende Differenzierungsmerkmal ist.
Cartesia
TTS mit der geringsten Latenz in der Produktion heute. Erste-Audio-Zeit unter 100 ms. Unser Standard, wenn Latenz das Anruf-Erlebnis entscheidend beeinflusst — was bei den meisten Sprachagenten der Fall ist.
PlayHT · OpenAI TTS
Starke Alternativen für bestimmte Stimmen oder Kostenstufen. PlayHT, wenn wir einen mehrsprachigen Katalog über ElevenLabs hinaus benötigen; OpenAI TTS, wenn das Konto bereits über OpenAI-Verträge verfügt.
Unser Entscheidungsrahmen
Latenz ist entscheidend → Cartesia. Sprachqualität ist entscheidend → ElevenLabs. HIPAA → ElevenLabs Enterprise unter BAA oder selbst gehostetes Open-Weight-TTS. Stark akzentierte Sprache → Whisper auf der Eingabeseite.
LLMs — API, privat oder selbst gehostet.
Auswahl gesteuert durch Latenz, Kosten, Compliance und Datenresidenz.
GPT-4o · GPT-4o-mini
OpenAIs Arbeitspferde. GPT-4o für logisch anspruchsvolle Agenten-Workflows und Tool-Nutzung. GPT-4o-mini für hochvolumige Sprach- und Chat-Deflection, bei der die Kosten pro Token relevant sind.
Claude 3.5 Sonnet · Haiku
Anthropics Modelle. Sonnet für Langkontext-Reasoning und sorgfältiges Handeln. Haiku für kostensensible Konversations-Workloads. Besonders stark bei Aufgaben, bei denen Halluzinationen zu vermeiden sind.
Azure OpenAI · AWS Bedrock
Dieselben Modelle, gehostet innerhalb Ihrer Cloud-Umgebung mit Enterprise-Verträgen. Unser Standard für Kunden aus dem Finanzdienstleistungs- und Gesundheitsbereich, deren Beschaffungsprozess keinen direkten OpenAI-Vertrag erlaubt.
Llama 3.3 · Mistral · Qwen
Open-Weight-Modelle, die wir aus Gründen der Datenresidenz und Kostenoptimierung selbst betreiben. Llama 3.3 für allgemeines Reasoning, Mistral für kleinere/schnellere Anwendungen, Qwen für mehrsprachige Workloads.
OpenAI Embeddings · Cohere · bge
OpenAI text-embedding-3 als Standard für Qualität; Cohere für mehrsprachige Anwendungen; bge für selbst gehostete RAG-Stacks, bei denen keine externen Aufrufe möglich sind.
Unser Entscheidungsrahmen
Höchste Reasoning-Qualität → Claude Sonnet. Geringste Latenz/Kosten bei hohem Volumen → GPT-4o-mini oder Haiku. Datenresidenz- oder Compliance-Anforderungen → Azure OpenAI / Bedrock / selbst gehostet. Wird im Erstgespräch explizit besprochen — keine Glaubensfrage.
Chatbot-Plattformen und Agenten-Frameworks.
Wann kaufen, wann bauen, wann wrappen.
Botpress · Voiceflow
Visuelle Chatbot-Builder mit solider Bedienoberfläche für Betreiber. Wir setzen diese ein, wenn das Nicht-Technik-Team des Kunden nach dem Launch eigenständig Gesprächsabläufe verwalten soll.
ManyChat
Das Standardwerkzeug für WhatsApp-, Instagram- und Messenger-Marketing-Automatisierungen. Wir verbinden individuelle Backends mit ManyChat für Kunden, die bereits darauf standardisiert sind.
LangGraph
Unser Standard für zustandsbehaftete mehrstufige Agenten-Workflows. Dauerhafter Zustand, inspizierbarer Graph, menschliche Kontrollpunkte.
LangChain
Bausteine für einfachere Pipelines, bei denen ein DAG überdimensioniert wäre. Wir wählen und kombinieren gezielt, statt alles zu übernehmen.
OpenAI Assistants API · CrewAI
Assistants API für abgegrenzte Einzelzweck-Assistenten. CrewAI, wenn rollenbasierte Multi-Agenten-Komposition zum Workflow passt (Recherche/Schreiben/Prüfen-Muster).
n8n · Make · Zapier
Visuelle Automatisierungsebene zur Verbindung von Agenten mit Drittanbieter-Diensten. n8n für selbst gehostete Anwendungsfälle mit Datenresidenz-Anforderungen; Make oder Zapier, wenn der Kunde bereits eine der Plattformen nutzt.
Vector Stores und RAG-Infrastruktur.
Wo Ihre Dokumente tatsächlich gespeichert sind.
Pinecone
Verwaltete Vector DB, schnellste Inbetriebnahme, leistungsfähig bei Skalierung. Unser Standard, wenn betrieblicher Aufwand der begrenzende Faktor ist.
Qdrant
Open-Source-Vector-DB, Rust-basiert, läuft in Ihrer Cloud. Unser Standard, wenn Datenresidenz oder Kosten bei Skalierung der begrenzende Faktor sind.
pgvector
Vektorsuche innerhalb von Postgres. Unser Standard, wenn das RAG-Volumen moderat ist und der Kunde bereits Postgres betreibt — spart den Betrieb eines zweiten Datenspeichers.
Unstructured.io · Textract · Custom OCR
Dokument-zu-Text-Pipelines für PDFs, Scans und strukturierte Formulare. Unstructured für allgemeine Zwecke; Textract bei AWS-nativen Umgebungen; individuelle OCR für stark formatierte Fachddokumente.
FastAPI · Node · Postgres · Redis
Die Basis unter jedem Agenten — API-Endpunkte, dauerhafter Workflow-Zustand, Job-Queues, Rate-Limiter. Bewusst unspektakulär.
Docker · AWS · GCP · Railway
Containerisierte Deployments. AWS und GCP für Enterprise- und Compliance-intensive Kunden; Railway und Fly.io für Startup-Deployments, bei denen Betriebseinfachheit den Ausschlag gibt.
CRM-Integrationen und Beobachtbarkeit.
HubSpot · Salesforce · Zoho · GHL
Standardintegrationen mit abgegrenzten API-Schlüsseln, Berechtigungsgrenzen und Rückschreiben von Gesprächsdaten in Datensätze. Außerdem Pipedrive, Close, ActiveCampaign, Intercom und individuelle CRM-Systeme.
Intercom · Zendesk · Help Scout · Front
Kontexterhaltende Übergabe von KI an Mensch — nicht „Hallo, können Sie mir noch einmal sagen, was Sie dem Bot gerade erklärt haben".
LangSmith
Unser Standard für Agenten-Beobachtbarkeit. Jeder Tool-Aufruf, Modell-Aufruf und jede Entscheidung ist mit Ein- und Ausgabe nachvollziehbar. Wir setzen dies bei jedem Produktions-Agenten-Deployment voraus.
Helicone
LLM-spezifisches Monitoring — Kosten, Latenz, Cache-Trefferquote, Analysen pro Modell. Ergänzt LangSmith auf der Infrastrukturseite.
S3 WORM · Smarsh · Global Relay
Compliance-gerechte Speicherung für Anrufaufzeichnungen, Transkripte und Aufsichtsartefakte. Eingesetzt in Deployments im Gesundheitswesen und bei Finanzdienstleistern.
Segment · Amplitude · PostHog · Klaviyo
Event- und Kundendaten-Stacks, in die wir Agenten integrieren — für Onboarding-Trigger, Abwanderungssignale und Retention-Kampagnen-Orchestrierung.
Wie wir auswählen — die Kurzversion.
Drei Variablen bestimmen 80 % unserer Stack-Entscheidungen für ein gegebenes Projekt: Latenz-Budget, Datenresidenz-Anforderungen und das Volumen im stabilen Betrieb.
Geringe Latenzanforderungen, keine Residenzpflicht, geringes Volumen → gehostete Plattformen (Vapi / Pinecone / OpenAI API) gewinnen. Hohes Volumen, strenge Residenzpflicht oder HIPAA → selbst gehostete Stacks (LiveKit / Qdrant / Llama) gewinnen bei Gesamtkosten und Compliance. Mittelweg → hybride Architektur (gehostete Sprache, selbst gehosteter Vektorspeicher, Enterprise-gehostete Modelle).
Im Erstgespräch modellieren wir die konkreten Zahlen — Kosten pro Anruf, Kosten pro Gespräch, p95-Latenz-Ziele, Residenzpflichten — und die Stack-Wahl ergibt sich aus den Zahlen. In den meisten Fällen gibt es für ein gegebenes Projekt eine klar richtige Antwort; gelegentlich gibt es keine, und wir erläutern den Kompromiss.
Möchten Sie eine Stack-Empfehlung für Ihr konkretes Projekt?
Ein technisches Gespräch von 20 Minuten. Wir hören Ihren Anwendungsfall, Ihre Skalierungsanforderungen und Ihre Datenresidenz-Rahmenbedingungen und erläutern, womit wir bauen würden und warum. Wenn wir der Meinung sind, dass Sie etwas einsetzen sollten, mit dem wir nicht arbeiten, sagen wir das ebenfalls.