Skip to content
工程

執行洞察:AI 工作流程的自動化異常偵測

JieGou 的執行洞察面板可偵測失敗模式、成本飆升、延遲異常和錯誤群集,涵蓋您所有的 AI recipe——提供按嚴重程度排序的洞察和可執行的建議,直接整合在 Operations Hub 中。

JT
JieGou Team
· · 4 分鐘閱讀

執行一個 recipe 很簡單。在 8 個部門中執行 50 個 recipe,每個呼叫不同的 LLM 供應商、具有不同的成本結構和延遲特性,這是一個營運問題。標準監控工具可以告訴您伺服器是否當機。但它們無法告訴您合約審查 recipe 從上週二開始 token 成本暴增 3 倍,或者三個不同的 recipe 正在產生語義相似的錯誤,而這些錯誤指向同一個上游問題。

執行洞察是一套專為 AI 工作流程營運打造的異常偵測系統。它位於 Operations Hub 的 /operations/landscape 頁面,持續分析執行資料以浮現您可能忽略的問題。

四種偵測模式

執行洞察運行四個專業偵測器,每個設計用來捕捉不同類別的營運問題。

失敗模式偵測

失敗偵測器會標記在設定時間視窗內錯誤率超過 20% 的 recipe。一個 recipe 在 100 次執行中失敗 1 次是正常的。在 100 次中失敗 25 次則代表系統性問題——損壞的 API 整合、對新輸入模式無法處理的提示詞,或者開始拒絕特定請求的模型。

偵測器不只是計算失敗次數。它會檢視失敗的趨勢。一個在過去 48 小時內從 2% 失敗率升至 22% 的 recipe,比一個已經在 21% 徘徊數週的 recipe 更加緊急。洞察中包含受影響的具體 recipe、偵測到模式的時間範圍,以及調查建議。

成本飆升偵測

LLM 成本與 token 使用量成正比,而 token 使用量可以在沒有任何程式碼變更的情況下改變。模型更新可能產生更長的輸出。上游資料來源可能開始回傳更大的文件。提示詞優化可能不小心移除了長度限制。

成本偵測器會標記 token 使用量相較基線增加超過 50% 的 recipe。基線根據設定時間視窗內的歷史執行資料計算。當一個通常每次執行使用 2,000 token 的 recipe 開始平均使用 3,500 token 時,偵測器會將其浮現——連同受影響的 recipe、增幅大小和估算的成本影響。

這是通用監控工具無法提供的訊號。CPU 和記憶體看起來正常。HTTP 狀態碼全部是 200。但您的帳單增長速度比使用量快了 50%,而原因埋在只有 AI 專用監控系統才會追蹤的 token 層級執行資料中。

延遲異常偵測

延遲偵測器將近期執行時間與 p95 基線進行比較,並標記超過該門檻 2 倍的 recipe。一個 p95 延遲為 4 秒的 recipe 開始經常花費 10 秒,就代表有問題——即使技術上它仍然成功完成。

AI 工作流程中的延遲異常通常代表上游問題:模型供應商效能降低、MCP 工具回應時間變長,或知識庫查詢命中了慢路徑。洞察中包含基線 p95、當前觀察到的延遲,以及受影響的 recipe,提供足夠的脈絡讓您立即開始診斷。

錯誤群集

個別錯誤是雜訊。三個或更多 recipe 產生語義相似的錯誤訊息則是一種模式。錯誤群集偵測器跨 recipe 分組錯誤,並在時間視窗內標記 3 個以上相似錯誤的群集。

這能捕捉到單一 recipe 監控會遺漏的橫切面故障。如果您的 Anthropic API 金鑰過期,五個不同的 recipe 會開始產生類似的身份驗證錯誤。沒有群集功能,您看到五個獨立的故障。有了群集功能,您看到一個影響五個 recipe 的根本原因——而建議會指引您找到共用的依賴項。

嚴重程度排序與建議

每個洞察都被分類為三個嚴重程度等級之一:

  • 嚴重(Critical) — 需要立即關注。高失敗率、極端成本飆升,或表明系統性問題的大型錯誤群集。
  • 警告(Warning) — 偵測到效能降低但尚未達到嚴重程度。中度成本增加、延遲升高,或正在浮現的失敗模式。
  • 資訊(Info) — 值得了解但不緊急。輕微偏差、單一 recipe 異常,或正在趨向門檻但尚未超過的模式。

每個洞察都包含結構化建議——不只是「調查這個 recipe」,而是具體的下一步行動。成本飆升洞察可能建議檢查 recipe 的提示詞是否缺少長度限制,或比較最近模型變更前後的 token 使用量。失敗模式洞察可能建議檢視 recipe 的錯誤日誌以找出最主要的失敗原因。

洞察顯示在 ExecutionInsightsPanel 中,按嚴重程度排序,因此嚴重問題始終在最上方。每張洞察卡片顯示類型、嚴重程度、標題、描述、受影響的 recipe、時間範圍、建議和支援資料點。

時間範圍設定

異常偵測的效果取決於您查看的視窗。在 7 天內令人擔憂的飆升,在 90 天內可能只是正常的季節性變化。執行洞察支援三種可設定的時間範圍:

  • 7 天 — 最適合捕捉急性問題。短基線,高敏感度。
  • 30 天 — 平衡檢視。平滑每日變動,同時仍能捕捉週與週之間的變化。
  • 90 天 — 長期趨勢。最適合識別在成本或延遲中緩慢累積的漸進漂移。

切換時間範圍會同時更新所有四個偵測器,讓您可以快速交叉比對一個 7 天異常在 30 天視窗中是否也可見(真正的問題),或是在更寬的視窗中消失(暫時性波動)。

Operations Hub 整合

執行洞察與其他 Operations Hub 檢視並列:自動化全景、治理、收入分析、可用性監控和安全監控。這樣的位置安排是刻意的。異常偵測不是一個獨立工具——它是營運感知的一部分。

洞察 API 可透過 /api/insights/execution 存取,需要 audit:read 權限。這代表任何具有營運可見性的團隊成員都可以程式化地查詢洞察——將其導入 Slack 警報、外部儀表板或自動化修復工作流程。

為什麼 AI 專用監控很重要

通用應用程式監控追蹤 HTTP 狀態碼、回應時間、錯誤率和資源使用率。這些指標很重要,但它們遺漏了 AI 工作流程特有的訊號。

Token 成本對 APM 工具是不可見的。 一個 recipe 可以回傳 HTTP 200 和正確的輸出,但成本卻是應有的 3 倍,因為模型正在產生不必要的冗長回應。執行洞察在 recipe 層級追蹤 token 使用量,並在成本偏離基線時進行偵測。

模型延遲不等於伺服器延遲。 對於一個以 50,000 token 上下文視窗呼叫 Claude Opus 的 recipe,12 秒的回應時間可能是正常的。但對一個通常在 2 秒內完成的 Haiku recipe 來說,同樣的 12 秒回應是一個紅色警訊。執行洞察維護每個 recipe 的基線,而非套用一體適用的延遲門檻。

語義錯誤群集需要理解錯誤訊息。 傳統監控按 HTTP 狀態碼或錯誤類別分組錯誤。執行洞察按語義相似度分組錯誤,即使「rate limit exceeded」和「too many requests」是不同的字串,也能捕捉到它們是同一個底層問題的模式。

這些才是告訴您 AI 自動化是否健康的訊號——而不僅僅是您的伺服器是否在運行。

執行洞察適用於 Team 和 Enterprise 方案。探索 Operations Hub開始免費試用

operations monitoring anomaly-detection observability insights
分享這篇文章

喜歡這篇文章嗎?

在您的信箱中獲取工作流程技巧、產品更新和自動化指南。

No spam. Unsubscribe anytime.