Execution Insights: Automatische Anomalieerkennung für AI-Workflows

Ein Recipe auszuführen ist einfach. 50 Recipes über 8 Abteilungen auszuführen, die jeweils verschiedene LLM-Anbieter mit unterschiedlichen Kosten- und Latenzprofilen aufrufen, ist ein Betriebsproblem. Standard-Monitoring-Tools können Ihnen sagen, ob ein Server ausgefallen ist. Sie können Ihnen nicht sagen, dass Ihr Vertragsprüfungs-Recipe seit letztem Dienstag 3x mehr Tokens kostet, oder dass drei verschiedene Recipes mit semantisch ähnlichen Fehlern scheitern, die auf dasselbe Upstream-Problem hinweisen.

Execution Insights ist ein Anomalieerkennungssystem, das speziell für den Betrieb von AI-Workflows gebaut wurde. Es befindet sich im Operations Hub auf der /operations/landscape-Seite und analysiert kontinuierlich Ausführungsdaten, um Probleme aufzudecken, die Sie sonst übersehen würden.

Vier Erkennungsmuster

Execution Insights führt vier spezialisierte Detektoren aus, die jeweils darauf ausgelegt sind, eine andere Klasse von Betriebsproblemen zu erkennen.

Fehlermuster-Erkennung

Der Fehlerdetektor markiert Recipes, deren Fehlerrate 20% über dem konfigurierten Zeitfenster überschreitet. Ein Recipe, das einmal in 100 Runs fehlschlägt, ist normal. Ein Recipe, das 25 Mal in 100 Runs fehlschlägt, hat ein systemisches Problem — eine defekte API-Integration, ein Prompt, der an einem neuen Eingabemuster scheitert, oder ein Modell, das bestimmte Anfragen ablehnt.

Der Detektor zählt nicht nur Fehler. Er untersucht den Fehlerverlauf. Ein Recipe, das in den letzten 48 Stunden von 2% auf 22% Fehlerrate gestiegen ist, ist dringender als eines, das seit Wochen bei 21% schwebt. Der Insight enthält, welche spezifischen Recipes betroffen sind, den Zeitraum, über den das Muster erkannt wurde, und eine Empfehlung zur Untersuchung.

Kostenspitzen-Erkennung

LLM-Kosten sind proportional zur Token-Nutzung, und die Token-Nutzung kann sich ohne Codeänderungen ändern. Ein Modell-Update könnte längere Ausgaben produzieren. Eine Upstream-Datenquelle könnte anfangen, größere Dokumente zurückzugeben. Eine Prompt-Verfeinerung könnte versehentlich eine Längenbeschränkung entfernen.

Der Kostendetektor markiert Recipes, deren Token-Nutzung im Vergleich zu ihrer Basislinie um mehr als 50% gestiegen ist. Die Basislinie wird aus historischen Ausführungsdaten innerhalb des konfigurierten Zeitfensters berechnet. Wenn ein Recipe, das typischerweise 2.000 Tokens pro Run verbraucht, plötzlich durchschnittlich 3.500 Tokens verwendet, macht der Detektor darauf aufmerksam — zusammen mit den betroffenen Recipes, dem Ausmaß des Anstiegs und den geschätzten Kostenauswirkungen.

Das ist ein Signal, das generische Monitoring-Tools nicht liefern. CPU und Arbeitsspeicher sehen normal aus. HTTP-Statuscodes sind alle 200. Aber Ihre Rechnung wächst 50% schneller als Ihre Nutzung, und der Grund liegt in Token-Level-Ausführungsdaten verborgen, die nur ein AI-spezifisches Monitoring-System erfasst.

Latenz-Anomalieerkennung

Der Latenzdetektor vergleicht aktuelle Ausführungszeiten mit der p95-Basislinie und markiert Recipes, die das 2-fache dieser Schwelle überschreiten. Ein Recipe mit einer p95-Latenz von 4 Sekunden, das regelmäßig 10 Sekunden dauert, hat ein Problem — selbst wenn es technisch erfolgreich abschließt.

Latenz-Anomalien in AI-Workflows signalisieren oft Upstream-Probleme: ein Modellanbieter mit Beeinträchtigungen, ein MCP-Tool, das länger zum Antworten braucht, oder eine Wissensdatenbank-Abfrage, die einen langsamen Pfad trifft. Der Insight enthält die p95-Basislinie, die aktuell beobachtete Latenz und welche Recipes betroffen sind — genug Kontext, um sofort mit der Diagnose zu beginnen.

Fehler-Clustering

Einzelne Fehler sind Rauschen. Drei oder mehr Recipes, die mit semantisch ähnlichen Fehlermeldungen scheitern, sind ein Muster. Der Fehler-Clustering-Detektor gruppiert Fehler über Recipes hinweg und markiert Cluster von 3 oder mehr ähnlichen Fehlern innerhalb des Zeitfensters.

Das erkennt querschnittliche Fehler, die pro-Recipe-Monitoring übersieht. Wenn Ihr Anthropic-API-Key abläuft, werden fünf verschiedene Recipes mit ähnlichen Authentifizierungsfehlern scheitern. Ohne Clustering sehen Sie fünf separate Fehler. Mit Clustering sehen Sie eine Grundursache, die fünf Recipes betrifft — und die Empfehlung weist auf die gemeinsame Abhängigkeit hin.

Schweregrad-Ranking und Empfehlungen

Jeder Insight wird in eine von drei Schweregrade eingestuft:

Kritisch — Sofortige Aufmerksamkeit erforderlich. Hohe Fehlerraten, extreme Kostenspitzen oder große Fehlercluster, die auf systemische Probleme hinweisen.
Warnung — Verschlechterung erkannt, aber noch nicht kritisch. Moderate Kostenanstiege, erhöhte Latenz oder aufkommende Fehlermuster.
Info — Wissenswert, aber nicht dringend. Geringfügige Abweichungen, Einzelrecipe-Anomalien oder Muster, die auf eine Schwelle zustreben, sie aber noch nicht überschritten haben.

Jeder Insight enthält eine strukturierte Empfehlung — nicht nur “untersuchen Sie dieses Recipe”, sondern spezifische nächste Schritte. Ein Kostenspitzen-Insight könnte empfehlen, den Prompt des Recipes auf fehlende Längenbeschränkungen zu prüfen oder die Token-Nutzung vor und nach einer kürzlichen Modelländerung zu vergleichen. Ein Fehlermuster-Insight könnte empfehlen, die Fehlerprotokolle des Recipes auf den häufigsten Fehlergrund zu überprüfen.

Insights werden im ExecutionInsightsPanel nach Schweregrad sortiert angezeigt, sodass kritische Probleme immer oben stehen. Jede Insight-Karte zeigt Typ, Schweregrad, Titel, Beschreibung, betroffene Recipes, Zeitraum, Empfehlung und unterstützende Datenpunkte.

Zeitraumkonfiguration

Anomalieerkennung ist nur so gut wie das Fenster, das Sie betrachten. Eine Spitze, die über 7 Tage alarmierend ist, könnte über 90 Tage normale saisonale Schwankung sein. Execution Insights unterstützt drei konfigurierbare Zeiträume:

7 Tage — Am besten zum Erkennen akuter Probleme. Kurze Basislinie, hohe Empfindlichkeit.
30 Tage — Ausgewogene Sicht. Glättet tägliche Schwankungen und erkennt trotzdem Woche-über-Woche-Änderungen.
90 Tage — Langfristige Trends. Am besten zum Identifizieren allmählicher Drift bei Kosten oder Latenz, die sich langsam akkumuliert.

Das Wechseln zwischen Zeiträumen aktualisiert alle vier Detektoren gleichzeitig, sodass Sie schnell abgleichen können, ob eine 7-Tage-Anomalie auch bei 30 Tagen sichtbar ist (echtes Problem) oder bei breiteren Fenstern verschwindet (vorübergehender Ausreißer).

Operations-Hub-Integration

Execution Insights befindet sich neben den anderen Operations-Hub-Ansichten: Automatisierungslandschaft, Governance, Umsatzanalyse, Verfügbarkeitsmonitoring und Sicherheitsmonitoring. Diese Platzierung ist beabsichtigt. Anomalieerkennung ist kein eigenständiges Tool — es ist Teil des betrieblichen Bewusstseins.

Die Insights-API ist unter /api/insights/execution mit audit:read-Berechtigung zugänglich. Das bedeutet, jedes Teammitglied mit betrieblicher Sichtbarkeit kann Insights programmatisch abfragen — um sie in Slack-Warnungen, externe Dashboards oder automatisierte Behebungs-Workflows einzuspeisen.

Warum AI-spezifisches Monitoring wichtig ist

Generisches Anwendungsmonitoring überwacht HTTP-Statuscodes, Antwortzeiten, Fehlerraten und Ressourcenauslastung. Diese Metriken sind wichtig, aber sie übersehen die Signale, die einzigartig für AI-Workflows sind.

Token-Kosten sind für APM-Tools unsichtbar. Ein Recipe kann HTTP 200 mit korrekter Ausgabe zurückgeben und trotzdem 3x mehr kosten als es sollte, weil das Modell unnötig ausführliche Antworten generiert. Execution Insights verfolgt die Token-Nutzung auf Recipe-Ebene und erkennt, wenn Kosten von Basislinien abweichen.

Modell-Latenz ist nicht Server-Latenz. Eine 12-Sekunden-Antwortzeit könnte normal sein für ein Recipe, das Claude Opus mit einem 50.000-Token-Kontextfenster aufruft. Dieselben 12 Sekunden von einem Haiku-Recipe, das normalerweise in 2 Sekunden abschließt, sind ein Warnsignal. Execution Insights pflegt pro-Recipe-Basislinien statt Einheits-Latenzschwellen anzuwenden.

Semantisches Fehler-Clustering erfordert Verständnis von Fehlermeldungen. Traditionelles Monitoring gruppiert Fehler nach HTTP-Statuscode oder Fehlerklasse. Execution Insights gruppiert Fehler nach semantischer Ähnlichkeit und erkennt Muster wie “rate limit exceeded” und “too many requests” als dasselbe zugrunde liegende Problem, obwohl es unterschiedliche Strings sind.

Das sind die Signale, die Ihnen sagen, ob Ihre AI-Automatisierung gesund ist — nicht nur ob Ihre Server laufen.

Execution Insights ist in den Team- und Enterprise-Tarifen verfügbar. Operations Hub erkunden oder kostenlose Testversion starten.