KI-Agent & Workflow-Automatisierung Entwicklung
Individuelle KI-Agenten, die nicht nur Fragen beantworten — sie erledigen die Arbeit. LangGraph, CrewAI, OpenAI Assistants. CRM-integriert. Human-in-the-Loop dort, wo es zählt, autonom dort, wo es nicht nötig ist.
Ein Chatbot antwortet. Ein Agent handelt.
Ein Chatbot teilt Ihrem Kunden mit, dass die Bestellung versandt wurde. Ein Agent ruft die Sendungsnummer aus Ihrer Versand-API ab, aktualisiert die CRM-Notiz, sendet dem Kunden eine WhatsApp-Nachricht und protokolliert den Kontaktpunkt in Ihrer Auswertung — ohne dass ein Mensch die Tastatur berührt. Das ist der Unterschied. Einer spricht. Der andere erledigt Arbeit.
Produktive KI-Agenten verbinden ein Sprachmodell mit Tools (APIs, die sie aufrufen können), Speicher (Gesprächs- und Workflow-Status) und Entscheidungslogik (wann handeln, wann eskalieren, wann auf Freigabe warten). Der Agent überlegt, welcher nächste Schritt sinnvoll ist, wählt das richtige Tool, führt es aus, wertet das Ergebnis aus und entscheidet den nächsten Schritt.
Richtig umgesetzt ersetzt ein KI-Agent wiederkehrende manuelle Workflows — Lead-Qualifizierung, E-Mail-Routing, Berichtsgenerierung, Onboarding-Sequenzen, Recherche und Outreach. Falsch umgesetzt versendet er 400 fehlerhafte E-Mails an Ihre Kundenliste, bevor jemand es bemerkt. Der technische Unterschied liegt in Observability, Human-in-the-Loop-Kontrollpunkten und eingeschränkten Berechtigungen — nicht im Modell. Das bauen wir.
Die meisten Kunden glauben, Multi-Agent zu benötigen. Die meisten brauchen tatsächlich einen gut strukturierten einzelnen Agenten.
Die richtige Architektur hängt davon ab, ob der Workflow wirklich unterschiedliche Kompetenzen erfordert — nicht davon, welche Option beeindruckender klingt.
Multi-Agent als Standard
Wenn „Multi-Agent" ein Anti-Pattern ist
- Fünf „Spezialagenten" diskutieren miteinander über eine einzige einfache Entscheidung
- Koordinationsaufwand verbraucht 60 % der Tokens, bevor überhaupt Arbeit geleistet wird
- Nicht-deterministische Übergaben, die sich wie verteilte Systeme debuggen lassen — nur schwieriger
- Eine einzige Prompt-Änderung löst unvorhersehbares Verhalten an allen Stellen aus
- Latenzen, die das System für jeden annähernd echtzeitnahen Workflow unbrauchbar machen
Einzelagent richtig umgesetzt
Wann ein Agent die produktive Antwort ist
- Ein klares Ziel, ein typisiertes Tool-Set, deterministischer Übergang zum Menschen bei Unklarheit
- Messbarer Erfolg: der Workflow ist abgeschlossen oder nicht, mit vollständigem Trace
- Prompt-Änderungen haben einen begrenzten Wirkungsbereich — Sie können eine Sache testen
- Tool-Aufrufe, Status und Entscheidungen sind end-to-end in LangSmith nachvollziehbar
- Geht in Wochen in Produktion, nicht in Quartalen, und das Bereitschaftskonzept ist tatsächlich handhabbar
Multi-Agenten-Systeme sind die richtige Antwort, wenn ein Workflow wirklich unterschiedliche Kompetenzen erfordert, die jeweils von einem eigenen Prompt, eigenen Tools und eigenem Speicher profitieren — Researcher/Writer/Reviewer/Executor-Muster oder langfristige Dokumentenverarbeitung mit expliziten Rollen. Wir bauen diese auf LangGraph, weil der Graph inspizierbar und der Status dauerhaft ist. Wir nutzen CrewAI, wo rollenbasierte Komposition die richtige Abstraktion ist. Ehrlich gesagt ist die erste Frage im Discovery-Call meistens: „Brauchen Sie wirklich Multi-Agent, oder brauchen Sie einen gut entwickelten einzelnen Agenten?"
Sechs Workflows, die wir mit KI-Agenten automatisieren.
Klar abgegrenzte Anwendungsfälle, für die wir produktive Agenten entwickelt haben, die seit über einem Jahr im Einsatz sind.
Lead-Qualifizierungs- & Anreicherungsagent
Liest jeden eingehenden Lead, reichert ihn aus öffentlichen Quellen an, bewertet ihn anhand Ihres ICP, weist ihn dem richtigen Vertriebsmitarbeiter zu, entwirft die erste Kontakt-E-Mail und schreibt alles in Ihr CRM zurück. Hält Mitarbeiter bei hochwertigen Gesprächen statt bei Dateneingabe.
Typisches Ergebnis: 2–5x Mitarbeiter-Durchsatz bei InboundVertriebs- & Opportunity-Agent
Überwacht Ihr CRM auf stockende Deals, entwirft kontextbezogene Follow-ups auf Basis vergangener Gesprächshistorie, schlägt dem Mitarbeiter nächste Schritte vor und kann genehmigte Outreach-Nachrichten nach Zeitplan versenden. Lead-Scoring, das Ihre Pipeline-Realität tatsächlich abbildet.
Typischer Anstieg: 15–35 % Pipeline-Geschwindigkeit in reaktivierten SegmentenE-Mail-Triage- & Routing-Agent
Liest eingehende E-Mails (support@, sales@, hello@), klassifiziert nach Intent, leitet an das richtige Team oder den Slack-Kanal weiter, entwirft Antworten zur menschlichen Freigabe und protokolliert jeden Thread mit einer Zusammenfassung in Ihrem CRM. Zero-Touch für bekannte Kategorien; Human-in-the-Loop für alles andere.
Typisches Ergebnis: −50 % bis −70 % Triage-Zeit für eingehende E-MailsMeeting-Zusammenfassungs- & Aufgabenagent
Verbindet sich mit Zoom, Google Meet oder Teams. Erstellt teilnehmerbezogene Aufgaben, aktualisiert den Projekt-Tracker, postet die Zusammenfassung in den richtigen Slack-Kanal und erinnert automatisch, wenn ein Verantwortlicher eine Frist versäumt.
Typisches Ergebnis: −30 % Zeit von Meeting bis UmsetzungRecherche- & Outreach-Agent
Anhand einer Liste von Zielunternehmen recherchiert der Agent jedes einzelne, identifiziert die richtigen Ansprechpartner, entwirft personalisierte Outreach-Nachrichten basierend auf einem aktuellen öffentlichen Auslöser (Einstellung, Finanzierung, Launch) und bereitet Sequenzen zur Freigabe durch den Mitarbeiter vor. Kein Spray-and-Pray.
Typischer Anstieg: 3–6x Rücklaufquote vs. Template-OutreachDokument- & Rechnungsverarbeitungsagent
OCR- und Reasoning-Schicht, die Verträge, Rechnungen, Patientenakten oder Onboarding-Dokumente verarbeitet, strukturierte Felder in Ihr ERP oder CRM extrahiert, Anomalien markiert und Grenzfälle mit der angehängten Begründung zur Überprüfung eskaliert.
Typisches Ergebnis: 85–95 % Straight-Through-Processing-RateIhr CRM ist dort, wo der Agent seinen Wert beweist.
Agenten lesen Kontext, führen Aktionen aus und respektieren die von Ihrem Administrator festgelegten Berechtigungsgrenzen. Vier Plattformen sind Standard; weitere auf Anfrage.
Deal-Automatisierung, Lead-Scoring, Workflow-Trigger, benutzerdefinierte Eigenschaften, Sequenzen. Native OAuth, eingeschränkte API-Schlüssel je Agent.
Opportunity-Anreicherung, Einstein-ergänzendes Scoring, Apex-Callout-Integrationen, Flow-Trigger, Managed-Package-Option.
Lead-Routing, Deal-Stage-Automatisierung, Massenaktualisierungs-Workflows, Zoho Desk Ticket-Übergabe, Zoho Flow Orchestrierung.
Agency-Multi-Tenant-Setup, SMS/E-Mail/Voice-Kontaktpunkte, Pipeline-Automatisierung, White-Label-Portal-Anbindung für GHL-Reseller.
Ebenfalls Standard: Pipedrive, Close, ActiveCampaign, Intercom, Freshsales und individuelle CRMs über REST oder GraphQL. Die Berechtigungen des Agenten sind auf genau die Objekte beschränkt, die er benötigt — wir übergeben einem Agenten keinen Admin-Token und hoffen das Beste.
Die Frameworks und Tools, die wir tatsächlich in der Produktion einsetzen.
Nicht die glänzende Liste. Die, die gerade in den Accounts unserer Kunden läuft.
LangGraph
Unser Standard für alles Zustandsbehaftete oder Mehrstufige. Dauerhafter Status, inspektionierbarer Graph, Human-in-the-Loop-Kontrollpunkte und funktionierende Retry-Semantik.
LangChain
Für einfachere Pipelines, bei denen ein DAG überdimensioniert wäre. Gute Bausteine für Tool-Nutzung, Retriever und Speicher — wir wählen und kombinieren, statt alles pauschal zu übernehmen.
OpenAI Assistants API
Richtig für klar abgegrenzte Einzelzweck-Assistenten — Dateisuche, Code Interpreter, Function Calling — wo wir nicht die gesamte State Machine besitzen müssen.
CrewAI
Rollenbasierte Multi-Agenten-Komposition, wenn das Muster wirklich passt — Researcher, Writer, Reviewer, Executor. Nicht unser Standard, aber in manchen Fällen die richtige Antwort.
n8n
Visuelle Automatisierungsverbindung, wenn ein Agent viele Drittanbieter-Dienste anbindet. Self-Hosted-Option für datenschutzsensible Kunden.
GPT-4o · Claude · Llama
OpenAI für tool-intensive Workflows, Anthropic Claude für langes Kontextfenster-Reasoning und sorgfältiges Handeln, Self-Hosted Llama 3.3 / Mistral für Datenhaltung im eigenen Haus.
Pinecone · Qdrant · pgvector
Vektorspeicher für Agentenspeicher und RAG-Verankerung. Die Wahl hängt von Ihrer Hosting-Präferenz und Ihrem Volumen ab — nicht von Dogmatismus.
LangSmith · Helicone
Vollständiger Trace jeder Agenten-Entscheidung, jedes Tool-Aufrufs, jedes Token-Verbrauchs und jeder Latenz. Wenn wir Ihnen nicht zeigen können, was der Agent gestern um 3:47 Uhr getan hat, ist er nicht produktionsreif.
FastAPI · Postgres · Redis
Die darunterliegende Infrastruktur — API-Endpunkte, dauerhafter Workflow-Status, Job-Queues und Rate-Limiter. Bewusst unspektakulär, weil Agenten laut scheitern, wenn die Infrastruktur instabil ist.
Einem Agenten echte Tools zu geben ist eine echte Verantwortung.
Vier Kontrollmechanismen, die wir bei jedem produktiven Agenten liefern. Das ist der Unterschied zwischen einem Agenten, der funktioniert, und einem, der 400 falsche E-Mails versendet, bevor es jemand bemerkt.
Eingeschränkte Berechtigungen, Least Privilege
Jedes Tool, das der Agent aufrufen kann, erhält seinen eigenen eingeschränkten API-Schlüssel mit den minimal erforderlichen Berechtigungen. Das CRM-Schreib-Token kann keine Abrechnungsdaten lesen. Der E-Mail-Versand-Schlüssel ist ratenbegrenzt und domänenbeschränkt. Ein Admin-Token berührt den Agentenprozess niemals.
Human-in-the-Loop-Kontrollpunkte
Destruktive oder vertrauenskritische Aktionen — Kunden-E-Mails versenden, Geld bewegen, Datensätze löschen, extern veröffentlichen — erfordern standardmäßig einen Freigabeschritt. Ihr Team genehmigt in Slack oder einer einfachen Web-Oberfläche. Risikoarme Aktionen laufen autonom durch.
Trockenlauf-Modus & Shadow-Deployments
Bevor ein Agent reale Systeme berührt, läuft er im Trockenlauf-Modus auf Live-Daten und zeigt, was er tun würde. Wir überprüfen eine repräsentative Stichprobe. Der Shadow-Modus führt den Agenten parallel zum bestehenden manuellen Workflow aus; die Produktivschaltung erfolgt erst, wenn der Vergleich stimmt.
Audit-Logs & Prompt-Injection-Schutz
Jeder Tool-Aufruf, jeder Modellaufruf, jede Entscheidung wird in LangSmith mit vollständigem Input und Output protokolliert. Prompt-Injection-Schutz ist strukturell — Tool-Use-Schemata weisen fehlerhafte Befehle ab; Nutzerinhalt wird niemals als Anweisung an den Orchestrator interpretiert.
Agentenprojekte gibt es in drei Ausprägungen.
Fester Umfang, fester Preis. Laufende API-Kosten werden im Discovery-Workshop kalkuliert, damit Sie die Wirtschaftlichkeit kennen, bevor Sie sich entscheiden.
| Leistung | Umfang | Preis | Zeitraum |
|---|---|---|---|
| Discovery-Workshop | Workflow-Audit, Tool-Inventar, Architekturdokument, Festpreisangebot, Wirtschaftlichkeitsmodell | 1.500–3.000 USD | 1 Woche |
| Single-Agent-MVP | Ein klar abgegrenzter Agent, 2–3 Tools, CRM-Integration, Shadow-Modus, Observability | 8.000–15.000 USD | 3–5 Wochen |
| Individueller Workflow-Agent | CRM + E-Mail + Kalender + Dokumente, Human-in-the-Loop-Kontrollpunkte, LangGraph-Status, LangSmith-Tracing | 10.000–35.000 USD | 5–8 Wochen |
| Multi-Agenten-System | Koordinierte Agenten mit expliziten Rollen, dauerhafter Status, Freigabe-Flows, Multi-Tenant-Option | 20.000–50.000 USD | 6–10 Wochen |
| Monatliches Retainer | Betrieb, Prompt-Tuning, neue Tools, neue Workflows, Modell-Upgrades, Observability-Reviews | 2.500–9.000 USD/Monat | Nach Launch |
Die API-Kosten pro Workflow liegen typischerweise zwischen 0,05 und 0,50 USD pro ausgeführtem Workflow, abhängig von Modell-Tier, Anzahl der Tool-Aufrufe und Kontextlänge. Self-Hosted-Stacks verlagern die Kosten von API-Gebühren auf Infrastruktur — wir kalkulieren beide Szenarien im Discovery-Workshop, damit Sie die richtige Seite dieser Kurve für Ihr Volumen wählen.
Von der Discovery bis zur Produktion in 4–10 Wochen.
Wöchentliche Demos mit Ihren echten Daten ab der ersten Woche. Shadow-Modus, bevor ein Agent reale Systeme berührt.
Discovery-Workshop
Kostenpflichtiges Audit des Workflows, der benötigten Tools, der Freigabegrenzen und der Wirtschaftlichkeit. Sie erhalten ein Architekturdokument und ein Festpreisangebot. Wenn Sie nicht weitermachen, behalten Sie das Dokument.
Entwicklung
LangGraph-State-Machine, Tool-Anbindung, CRM- und Messaging-Integrationen, Human-in-the-Loop-Kontrollpunkte, LangSmith-Tracing. Wöchentliche Demos auf Ihren echten Systemen. Täglicher Slack-Zugang.
Shadow-Modus
Der Agent läuft im Trockenlauf auf echten Daten mit menschlicher Überprüfung jeder Aktion, die er ausgeführt hätte. Wir messen Präzision, Eskalationsqualität und Tool-Call-Gesundheit, bevor die Produktivschaltung erfolgt.
Produktion
Live-Ausführung mit vollständiger Observability, in Slack integrierten Freigabe-Workflows und einem inkludierten 30-tägigen Tuning-Fenster. Optionaler Retainer für neue Tools, Workflows und Modell-Upgrades.
Agentenfragen, die wir in jedem Gespräch beantworten.
Was ist der Unterschied zwischen einem KI-Chatbot und einem KI-Agenten?
Wann benötige ich ein Multi-Agenten-System statt eines einzelnen Agenten?
Was kostet ein individueller KI-Agent?
Können KI-Agenten mit HubSpot, Salesforce, Zoho oder GoHighLevel integriert werden?
Wie verhindern Sie, dass KI-Agenten mit den verfügbaren Tools Schaden anrichten?
Was ist LangGraph und warum verwenden Sie es?
Wie lange dauert die Entwicklung eines produktiven KI-Agenten?
Kann ich den KI-Agenten selbst hosten statt OpenAI oder Anthropic zu nutzen?
Bereit, einen manuellen Workflow durch einen Agenten zu ersetzen, der wirklich liefert?
Ein 20-minütiges Gespräch. Wir kartieren den Workflow, benennen die Tools, zeigen auf, was realistisch automatisierbar ist — und was weiterhin einen Menschen im Loop erfordert. Wenn ein anderes Team besser für Sie geeignet wäre, sagen wir es Ihnen.