Hybride Chat-Agenten -- Die Auflösungskaskade, die in der Produktion tatsächlich funktioniert

Regeln sind schnell aber spröde. LLMs sind flexibel aber teuer. JieGous 4-stufige Auflösungskaskade kombiniert Regeltabellen, RAG, LLM-Fallback und menschliche Eskalation in einem einzigen Chat-Agenten, der sowohl zuverlässig als auch intelligent ist.

JieGou Team · 4. März 2026 · 5 Min. Lesezeit

Das Problem mit heutigen Chatbot-Buildern

Die meisten Chatbot-Plattformen zwingen Sie in eines von zwei Lagern. Lager eins: schlüsselwortbasierte Regel-Engines. Sie definieren Muster wie “Öffnungszeiten” oder “Rückgaberichtlinie” und ordnen ihnen vorgefertigte Antworten zu. Sie sind schnell, deterministisch und günstig — aber sie versagen, sobald ein Benutzer etwas anders formuliert. “Wann haben Sie geöffnet?” trifft zu, aber “Bis wann haben Sie samstags auf?” nicht.

Lager zwei: alles an ein LLM werfen. Jede Nachricht geht an GPT oder Claude, und Sie hoffen, dass das Modell es richtig macht. Das tut es oft — aber zu 2-10 Cent pro Gesprächsrunde, mit variabler Latenz und ohne Garantie, dass das Modell nicht Ihre Rückgaberichtlinie halluziniert.

Keiner der Ansätze ist produktionsreif für sich allein. Der erste ist zu starr. Der zweite ist zu teuer und unvorhersehbar. Was Sie tatsächlich brauchen, ist ein System, das jeden Ansatz dort einsetzt, wo er glänzt, und nur bei Bedarf zur nächsten Stufe durchfällt.

Die 4-stufige Auflösungskaskade

JieGous Chat-Agenten lösen Nachrichten durch eine 4-stufige Kaskade auf, die in Reihenfolge ausgewertet wird:

Stufe 1 — Regeltabelle mit Embedding-Ähnlichkeit. Ihre Regeln werden als Tabelle von Muster-Antwort-Paaren gespeichert. Aber anders als bei Schlüsselwort-Matching wird jedes Muster als Vektor eingebettet. Wenn eine Nachricht eintrifft, wird sie eingebettet und gegen alle Regelzentroide mittels Kosinus-Ähnlichkeit verglichen. Wenn die Ähnlichkeit einen konfigurierbaren Schwellenwert (Standard 0,82) überschreitet, löst die passende Regel sofort aus. Null LLM-Kosten. Unter 100ms Latenz. Deterministische Ausgabe.

Stufe 2 — Knowledge-Base-Retrieval (RAG). Wenn keine Regel passt, wird die Nachricht an Ihre Wissensdatenbank weitergeleitet — hochgeladene Dokumente, FAQ-Seiten, Produkthandbücher. RAG ruft die relevantesten Abschnitte ab, und ein leichtgewichtiges LLM synthetisiert eine Antwort, die in Ihren Inhalten verankert ist. Konfigurierbare Mindestähnlichkeit stellt sicher, dass minderwertige Retrievals herausgefiltert werden.

Stufe 3 — LLM-Fallback. Wenn die RAG-Konfidenz unter dem Schwellenwert liegt, wird der vollständige Gesprächskontext plus Ihr System-Prompt an ein großes Sprachmodell gesendet. Das LLM behandelt offene Fragen, nuancierte Anfragen und alles, was Ihre Regeln und Wissensdatenbank nicht abdecken.

Stufe 4 — Menschliche Eskalation. Wenn die Konfidenz des LLM niedrig ist oder das Thema Eskalations-Triggern entspricht (z.B. juristische Fragen, medizinische Beratung, Abrechnungsstreitigkeiten), wird das Gespräch mit vollständig erhaltenem Kontext an einen menschlichen Agenten weitergeleitet.

Die Kaskade ist nicht nur eine Prioritätenliste — sie ist ein ökonomischer Optimierer. Der Großteil des Produktions-Traffics trifft Stufe 1 oder Stufe 2. LLM-Aufrufe sind für den Long Tail reserviert. Menschliche Agenten behandeln nur, was tatsächlich einen Menschen erfordert.

CSV-Import für nicht-technische Teams

Die Regeltabelle ist für die Leute konzipiert, die Ihr Geschäft tatsächlich kennen — Support-Leiter, Klinikmanager, Produktspezialisten. Sie schreiben keinen Code. Sie schreiben Tabellen.

Laden Sie eine CSV mit zwei Spalten hoch: Muster und Antwort. JieGou bettet jedes Muster automatisch ein, berechnet Zentroide für Regeln mit mehreren Mustervarianten, und die Regeltabelle ist live. Müssen “Was sind Ihre Öffnungszeiten?”, “Wann öffnen Sie?” und “Haben Sie samstags geöffnet?” mit derselben Antwort behandelt werden? Fügen Sie drei Zeilen mit derselben Antwort hinzu. Das Embedding-Modell versteht Umschreibungen — kein Regex erforderlich.

Regeln können jederzeit aktualisiert werden. CSV erneut hochladen, und Embeddings werden neu berechnet. Kein Redeployment. Keine Ausfallzeit.

Gesprächs-Threading mit Kompaktierung

Reale Gespräche sind mehrstufig. Ein Benutzer fragt nach Preisen, folgt dann mit “Was ist mit dem Enterprise-Plan?”, dann fragt “Kann ich eine Demo bekommen?” Jede Nachricht hängt davon ab, was vorher kam.

JieGou pflegt vollständige Gesprächs-Threads mit automatischer Kompaktierung. Aktuelle Nachrichten werden wörtlich beibehalten. Ältere Nachrichten werden vom LLM zusammengefasst, um den Kontext zu erhalten und dabei innerhalb der Token-Limits zu bleiben. Das bedeutet, Ihr Agent kann 50-Runden-Gespräche führen, ohne Kontextfenster zu sprengen oder Kosten für wiederholte Voll-History-Prompts anzuhäufen.

Thread-Zustand wird sitzungsübergreifend persistiert. Wenn ein Benutzer am nächsten Tag zurückkehrt, macht der Agent dort weiter, wo er aufgehört hat.

Multi-Channel: Gleicher Agent, jede Plattform

Bauen Sie Ihren Agenten einmal. Stellen Sie ihn auf LINE, Instagram, WhatsApp, Facebook Messenger und YouTube bereit. Die Auflösungskaskade, Regeltabelle, Wissensdatenbank und Gesprächs-Threads funktionieren identisch über jeden Kanal.

Kanalspezifische Features — LINE Rich Menus, Instagram Story-Antworten, WhatsApp-Template-Nachrichten — werden auf der Adapter-Ebene behandelt. Ihre Agentenlogik bleibt vereinheitlicht. Aktualisieren Sie eine Regel, und sie wird überall wirksam.

Das ist besonders wertvoll in APAC-Märkten, wo Unternehmen routinemäßig gleichzeitig über LINE (Taiwan, Japan, Thailand), WhatsApp (Südostasien) und Instagram (überall) operieren.

Realer Anwendungsfall: Arztpraxis auf LINE

Eine Arztpraxis in Taiwan hat einen JieGou-Chat-Agenten auf LINE bereitgestellt mit 200+ Regeln für Terminbuchung, Versicherungsfragen, Praxiszeiten und Wegbeschreibungen — sowohl auf Traditionellem Chinesisch als auch auf Englisch.

Stufe 1 behandelt 70% der eingehenden Nachrichten: “Wie buche ich einen Termin?”, “Akzeptieren Sie die Nationale Krankenversicherung?”, “Wo ist die Xinyi-Filiale?” Diese lösen in unter 100ms mit null LLM-Kosten auf.

Stufe 2 deckt Wissensdatenbank-Anfragen zu spezifischen Verfahren, Vorbereitungsanweisungen und Nachsorge ab — synthetisiert aus den hochgeladenen medizinischen Leitfäden der Praxis.

Stufe 3 behandelt offene Fragen wie “Ich habe einen Ausschlag am Arm, der nach einer Wanderung letztes Wochenende aufgetreten ist, was soll ich tun?” Das LLM gibt allgemeine Hinweise und stellt klar, dass es keine ärztliche Beratung ist.

Stufe 4 eskaliert sensible Themen — Medikamentenwechselwirkungen, Symptomtriage, Versicherungsanspruchsstreitigkeiten — an menschliches Personal mit vollständiger Gesprächshistorie.

Geregelt durch den gesamten Stack

Chat-Agenten in JieGou sind keine eigenständigen Bots. Sie arbeiten innerhalb desselben Governance-Frameworks wie jeder andere JieGou-Agent:

RBAC kontrolliert, wer Agenten erstellen, bearbeiten und bereitstellen kann
Audit-Protokollierung zeichnet jede Nachricht, verwendete Auflösungsstufe und generierte Antwort auf
Sensibilitätslabels stellen sicher, dass PHI und PII in medizinischen oder finanziellen Gesprächen richtliniengemäß behandelt werden
Bedrohungserkennung überwacht auf Prompt-Injection-Versuche innerhalb von Chat-Nachrichten

Ihr Chat-Agent ist intelligent, schnell und kosteneffektiv. Und er ist von Tag eins an geregelt.