Execution Insights：AIワークフローのための自動異常検出

JieGouのExecution Insightsパネルは、AIレシピ全体の障害パターン、コストスパイク、レイテンシ異常、エラークラスタリングを検出し、重要度ランク付きのインサイトと実行可能な推奨事項をOperations Hubで直接提供します。

JieGou Team · 2026年3月3日 · 2 分で読めます

1つのレシピを実行するのはシンプルです。8部門にまたがる50のレシピを、それぞれ異なるLLMプロバイダー、異なるコストプロファイル、異なるレイテンシ特性で実行するのは、オペレーション上の課題です。標準的なモニタリングツールはサーバーがダウンしているかどうかを教えてくれます。しかし、契約レビューレシピが先週の火曜日からトークンコストが3倍になっていることや、3つの異なるレシピが意味的に類似したエラーで失敗しており同じ上流の問題を指していることは教えてくれません。

Execution InsightsはAIワークフローオペレーション専用に構築された異常検出システムです。Operations Hubの/operations/landscapeページに配置され、実行データを継続的に分析して、見逃してしまう問題を表面化させます。

4つの検出パターン

Execution Insightsは4つの特化した検出器を実行し、それぞれ異なるクラスのオペレーション上の問題をキャッチするよう設計されています。

障害パターン検出

障害検出器は、設定された時間ウィンドウでエラー率が20%を超えるレシピをフラグします。100回の実行で1回失敗するレシピは正常です。100回の実行で25回失敗するレシピにはシステム的な問題があります — 壊れたAPI統合、新しい入力パターンで詰まるプロンプト、または特定のリクエストを拒否し始めたモデル。

検出器は単に障害をカウントするだけではありません。障害の軌跡を調べます。過去48時間で2%から22%にエラー率が上昇したレシピは、数週間にわたって21%で推移しているレシピよりも緊急です。インサイトには、影響を受ける特定のレシピ、パターンが検出された時間範囲、および調査のための推奨事項が含まれます。

コストスパイク検出

LLMコストはトークン使用量に比例し、トークン使用量はコード変更なしに変化する可能性があります。モデルのアップデートがより長い出力を生成するかもしれません。上流のデータソースがより大きなドキュメントを返し始めるかもしれません。プロンプトの調整が誤って長さの制約を削除するかもしれません。

コスト検出器は、ベースラインと比較してトークン使用量が50%以上増加したレシピをフラグします。ベースラインは設定された時間ウィンドウ内の過去の実行データから計算されます。通常1回の実行で2,000トークンを使用するレシピが平均3,500トークンを使い始めた場合、検出器はそれを表面化させ、影響を受けるレシピ、増加の規模、推定コストインパクトを提示します。

これは汎用モニタリングツールが提供しないシグナルです。CPUとメモリは問題ありません。HTTPステータスコードはすべて200です。しかし請求額は使用量より50%速く増加しており、原因はAI固有のモニタリングシステムのみが追跡するトークンレベルの実行データに埋もれています。

レイテンシ異常検出

レイテンシ検出器は最近の実行時間をp95ベースラインと比較し、その閾値の2倍を超えるレシピをフラグします。p95レイテンシが4秒のレシピが定期的に10秒かかり始めた場合、技術的には正常に完了していても問題があります。

AIワークフローにおけるレイテンシ異常は、しばしば上流の問題を示唆します：モデルプロバイダーのパフォーマンス低下、MCPツールの応答遅延、またはナレッジベースクエリが遅いパスにヒットしている場合。インサイトにはベースラインp95、現在の観測レイテンシ、影響を受けるレシピが含まれ、即座に診断を開始するのに十分なコンテキストを提供します。

エラークラスタリング

個別のエラーはノイズです。3つ以上のレシピが意味的に類似したエラーメッセージで失敗するのはパターンです。エラークラスタリング検出器はレシピ間でエラーをグループ化し、時間ウィンドウ内の3つ以上の類似エラーのクラスターをフラグします。

これはレシピごとのモニタリングが見逃す横断的な障害をキャッチします。Anthropic APIキーが期限切れになった場合、5つの異なるレシピが類似した認証エラーで失敗し始めます。クラスタリングなしでは、5つの別々の障害が見えます。クラスタリングありでは、5つのレシピに影響する1つの根本原因が見え、推奨事項が共有依存関係を指し示します。

重要度ランキングと推奨事項

すべてのインサイトは3つの重要度レベルのいずれかに分類されます：

Critical — 即時対応が必要。高い障害率、極端なコストスパイク、またはシステム的な問題を示す大きなエラークラスター。
Warning — 劣化が検出されたがまだクリティカルではない。中程度のコスト増加、レイテンシの上昇、または新たに出現する障害パターン。
Info — 知っておく価値があるが緊急ではない。軽微な逸脱、単一レシピの異常、または閾値に向かってトレンドしているが超えていないパターン。

各インサイトには構造化された推奨事項が含まれます — 単に「このレシピを調査する」ではなく、具体的な次のステップ。コストスパイクのインサイトは、レシピのプロンプトに欠落した長さの制約がないか確認したり、最近のモデル変更前後のトークン使用量を比較することを推奨するかもしれません。障害パターンのインサイトは、レシピのエラーログで最も多い障害理由をレビューすることを推奨するかもしれません。

インサイトはExecutionInsightsPanelに重要度順で表示され、クリティカルな問題が常に最上位に表示されます。各インサイトカードにはタイプ、重要度、タイトル、説明、影響を受けるレシピ、時間範囲、推奨事項、およびサポートデータポイントが表示されます。

時間範囲設定

異常検出は見ているウィンドウの品質に依存します。7日間で驚くべきスパイクも、90日間では正常な季節変動かもしれません。Execution Insightsは3つの設定可能な時間範囲をサポートしています：

7日間 — 急性の問題をキャッチするのに最適。短いベースライン、高い感度。
30日間 — バランスの取れたビュー。日次変動を平滑化しつつ、週次の変化をキャッチ。
90日間 — 長期トレンド。ゆっくりと蓄積されるコストやレイテンシの漸進的なドリフトを特定するのに最適。

時間範囲を切り替えると4つの検出器すべてが同時に更新されるため、7日間の異常が30日間でも見えるか（実際の問題）、それともより広いウィンドウで消えるか（一時的なブリップ）を素早くクロスリファレンスできます。

Operations Hub統合

Execution InsightsはOperations Hubの他のビューと並んで配置されます：自動化ランドスケープ、ガバナンス、収益分析、可用性モニタリング、セキュリティモニタリング。この配置は意図的です。異常検出はスタンドアロンツールではなく、オペレーション上の認識の一部です。

InsightsのAPIは/api/insights/executionでaudit:read権限によりアクセス可能です。これはオペレーションの可視性を持つすべてのチームメンバーがインサイトをプログラム的にクエリできることを意味します — Slackアラート、外部ダッシュボード、または自動修復ワークフローにフィードできます。

AI固有のモニタリングが重要な理由

汎用アプリケーションモニタリングはHTTPステータスコード、レスポンスタイム、エラー率、リソース使用率を監視します。これらのメトリクスは重要ですが、AIワークフローに固有のシグナルを見逃します。

トークンコストはAPMツールには見えません。 レシピはHTTP 200で正しい出力を返しながら、モデルが不必要に冗長な応答を生成しているために、本来の3倍のコストがかかることがあります。Execution Insightsはレシピレベルでトークン使用量を追跡し、コストがベースラインから乖離した際に検出します。

モデルレイテンシはサーバーレイテンシではありません。 50,000トークンのコンテキストウィンドウでClaude Opusを呼び出すレシピの12秒のレスポンスタイムは正常かもしれません。通常2秒で完了するHaikuレシピからの同じ12秒は危険信号です。Execution Insightsは画一的なレイテンシ閾値を適用する代わりに、レシピごとのベースラインを維持します。

意味的エラークラスタリングにはエラーメッセージの理解が必要です。 従来のモニタリングはHTTPステータスコードやエラークラスでエラーをグループ化します。Execution Insightsは意味的類似性でエラーをグループ化し、「rate limit exceeded」と「too many requests」が異なる文字列であっても同じ根本的な問題としてキャッチします。

これらはAI自動化が健全かどうかを教えるシグナルです — サーバーが稼働しているかどうかだけではありません。

Execution InsightsはTeamおよびEnterpriseプランで利用可能です。Operations Hubを探索または無料トライアルを開始。