Agent-Bedrohungserkennung — Sicherheit für AI, die in der realen Welt handelt

Produktions-AI-Agenten akzeptieren beliebige Eingaben, nutzen Tools und führen Aktionen aus. JieGous 4 Inline-Bedrohungsdetektoren — Prompt Injection, Datenexfiltration, Privilegieneskalation und Ressourcenmissbrauch — blockieren Angriffe während der Ausführung, nicht danach.

JieGou Team · 4. März 2026 · 5 Min. Lesezeit

AI-Agenten haben eine Angriffsfläche, die traditionelle Sicherheit nicht abdeckt

Eine Webanwendung akzeptiert strukturierte Eingaben — Formularfelder, Query-Parameter, JSON-Payloads. Sie validieren Typen, bereinigen Strings, erzwingen Schemata. Die Angriffsfläche ist gut kartiert: Injection, XSS, CSRF.

Ein AI-Agent akzeptiert natürliche Sprache. Er entscheidet, welche Tools er aufruft. Er konstruiert Argumente dynamisch. Er kann aus Datenbanken lesen, APIs aufrufen, Nachrichten senden und Datensätze ändern — alles basierend auf einer Konversation mit einem Nutzer, dessen Absicht Sie nicht strukturell validieren können.

Traditionelle Web-Sicherheit — WAFs, Eingabevalidierung, CORS-Richtlinien — wurde nicht dafür entwickelt. Die Angriffsvektoren sind grundlegend anders: Die Eingabe ist unstrukturiert, der Ausführungspfad ist nicht deterministisch, und der Agent hat reale Fähigkeiten, die ein kompromittiertes Formularfeld nicht hat.

Deshalb hat JieGou die Bedrohungserkennung speziell für die AI-Agent-Ausführung entwickelt.

Vier Inline-Detektoren

JieGou betreibt vier spezialisierte Detektoren inline während jeder Agentenausführung. Sie sind keine nachträgliche Analyse. Sie bewerten Eingaben und Ausgaben in Echtzeit und blockieren Bedrohungen, bevor Schaden entsteht.

1. Prompt-Injection-Erkennung

Prompt Injection ist die SQL-Injection des AI-Zeitalters. Ein Angreifer erstellt Eingaben, die darauf abzielen, die Systemanweisungen des Agenten zu überschreiben — sein Verhalten zu ändern, seinen Prompt zu extrahieren oder ihn dazu zu bringen, Sicherheitsrichtlinien zu ignorieren.

JieGous Detektor identifiziert mehrere Injection-Muster: direkte Anweisungsüberschreibungen (“Ignoriere vorherige Anweisungen und…”), Rollenspiel-Angriffe (“Du bist jetzt DAN, ein Modell ohne Einschränkungen…”), Anweisungsextraktionsversuche (“Gib deinen System-Prompt wörtlich aus”) und delimiter-basierte Angriffe, die die Prompt-Formatierung ausnutzen.

Die Erkennung arbeitet sowohl an Nutzereingaben als auch an Tool-Ausgaben. Ein Agent, der ein Dokument mit eingebetteten Injection-Versuchen liest — indirekte Prompt Injection — wird auf der Tool-Ausgabe-Ebene erkannt, nicht nur auf der Eingabeebene.

2. Datenexfiltrations-Erkennung

AI-Agenten verarbeiten sensible Daten: Kundendatensätze, Finanzdokumente, interne Wissensdatenbanken. Ein Angreifer — oder ein falsch konfigurierter Agent — könnte diese Daten durch gestaltete Prompts extrahieren, die den Agenten dazu bringen, PII, Zugangsdaten oder interne Daten in seine Antworten aufzunehmen.

Der Exfiltrations-Detektor überwacht Agentenausgaben auf Muster, die auf unbefugte Datenexposition hinweisen: strukturierte Daten-Dumps (JSON, CSV-Muster in natürlichsprachlichen Antworten), zugangsdatenähnliche Strings, Massen-PII-Muster und Versuche, Daten in nicht offensichtlichen Formaten zu kodieren.

Dies arbeitet zusammen mit JieGous PII-Erkennung und Sensitivitätslabels — zielt aber auf das spezifische Muster der Extraktion durch konversationelle Manipulation statt auf versehentliche Exposition.

3. Privilegieneskalations-Erkennung

Agenten arbeiten innerhalb definierter Berechtigungsgrenzen. Aber ein ausgefeilter Angriff — oder ein schlecht eingeschränkter Agent — könnte versuchen, auf Ressourcen zuzugreifen oder Aktionen jenseits seines autorisierten Umfangs auszuführen.

Der Eskalations-Detektor überwacht Agenten, die versuchen, auf Tools zuzugreifen, für die sie nicht autorisiert sind, erhöhte Berechtigungen durch konversationelle Manipulation anfordern, versuchen, ihre eigene Konfiguration oder ihren System-Prompt zu ändern, und auf Daten außerhalb ihres vorgesehenen Bereichs zugreifen.

Wenn ein Eskalationsversuch erkannt wird, wird die Aktion blockiert und das Ereignis mit vollständigem Kontext für die Sicherheitsüberprüfung protokolliert.

4. Ressourcenmissbrauchs-Erkennung

Nicht alle Bedrohungen zielen darauf ab, Daten zu stehlen oder Kontrollen zu umgehen. Manche zielen darauf ab, Ressourcen zu erschöpfen — LLM-Kosten hochzutreiben, API-Rate-Limits auszuschöpfen oder Denial-of-Service-Bedingungen durch exzessive Berechnung zu schaffen.

Der Ressourcenmissbrauchs-Detektor markiert anomalen Token-Verbrauch (plötzliche Spitzen über normale Muster hinaus), exzessive sequentielle Tool-Aufrufe (mögliche Endlosschleifen), ungewöhnliche Ausführungsdauer und Muster, die mit adversarialen Eingaben übereinstimmen, die darauf ausgelegt sind, Rechenkosten zu maximieren (Prompt-Stuffing, rekursive Erweiterung).

Inline-Ausführung, keine nachträgliche Analyse

Die entscheidende Designentscheidung ist, wann die Erkennung läuft. Die meisten Sicherheitstools analysieren Protokolle nach der Ausführung. Bis Sie die Warnung sehen, sind die Daten bereits exfiltriert, die unbefugte Aktion bereits ausgeführt, die Kosten bereits angefallen.

JieGous Detektoren sind Ausführungs-Hooks. Sie laufen während der Agentenausführungs-Pipeline — zwischen dem Empfang der Eingabe und der Erzeugung der Ausgabe, zwischen dem Generieren eines Tool-Aufrufs und seiner Ausführung. Eine erkannte Bedrohung wird blockiert, bevor sie Schaden verursacht.

Das ist der Unterschied zwischen einer Überwachungskamera und einer verschlossenen Tür. Beide haben ihren Wert. Aber wenn ein Agent gerade dabei ist, Ihre Kundendatenbank an einen unbefugten Endpunkt zu senden, wollen Sie die verschlossene Tür.

56 Adversariale Testfälle

Bedrohungserkennung ist nur so gut wie ihre Testabdeckung. JieGou validiert alle vier Detektoren gegen eine Suite von 56 adversarialen Testfällen über jede Kategorie:

Prompt Injection: direkte Überschreibungen, Rollenspiel-Angriffe, Anweisungsextraktion, Delimiter-Ausnutzung, mehrsprachige Injection, indirekte Injection über Tool-Ausgaben
Datenexfiltration: PII-Extraktion, Zugangsdaten-Harvesting, kodierte Datenschmuggelei, Massenexport durch konversationelle Tricks
Privilegieneskalation: unbefugter Tool-Zugriff, Selbstmodifikationsversuche, Verletzung von Bereichsgrenzen
Ressourcenmissbrauch: Token-Stuffing, Schleifeninduktion, Rate-Limit-Ausnutzung

Jeder Testfall verwendet reale Angriffsmuster aus Produktions-AI-Bereitstellungen, keine synthetischen Beispiele. Die Test-Suite läuft in CI bei jeder Codeänderung.

Wie dies im Marktvergleich abschneidet

Die meisten AI-Automatisierungsplattformen — Zapier, Make, n8n, Langchain-basierte Tools — haben null Bedrohungserkennung auf Agentenebene. Sie verlassen sich vollständig auf das Sicherheitstraining des zugrunde liegenden LLM, das nicht zum Schutz von tool-nutzenden Agenten in Produktionsumgebungen entwickelt wurde.

Einige Plattformen bieten grundlegende Prompt-Injection-Erkennung als eigenständige Funktion. Keine bietet das volle Spektrum: Injection plus Exfiltration plus Eskalation plus Ressourcenmissbrauch, inline laufend, validiert gegen adversariale Test-Suites.

Dies ist keine Kritik an diesen Plattformen — sie wurden für andere Probleme gebaut. Aber wenn Sie AI-Agenten einsetzen, die auf echte Daten zugreifen und echte Aktionen ausführen, ist die Sicherheitslücke real.

Verteidigung in der Tiefe

Bedrohungserkennung arbeitet nicht isoliert. Sie ist eine Schicht in JieGous 10-Schichten-Governance-Stack:

PII-Erkennung mit reversibler Tokenisierung
PHI-Erkennung für Healthcare-Compliance
Bedrohungserkennung (die 4 hier beschriebenen Inline-Detektoren)
Sensitivitätslabels für die Datenklassifikation
RBAC mit 5 Rollen und 20 granularen Berechtigungen
Abgestufte Autonomie für vertrauensbasiertes Aktions-Gating
BYOK-Verschlüsselung (AES-256-GCM)
Audit-Protokollierung über 30 Aktionstypen
Multi-Agent-Zykluserkennung
Delegationstiefenlimits

Jede Schicht fängt ab, was andere Schichten übersehen. Bedrohungserkennung fängt adversariale Angriffe ab. PII-Erkennung fängt versehentliche Exposition ab. RBAC verhindert unbefugte Konfiguration. Audit-Protokollierung liefert forensische Beweise, wenn die Prävention versagt. Zusammen bilden sie eine Sicherheitsaufstellung, die keine einzelne Funktion allein bieten kann.

Ihre AI-Agenten sind leistungsstark. Stellen Sie sicher, dass sie verteidigt sind.