Skip to content
工程

代理威脅偵測 — 保護在真實世界中執行操作的 AI

生產環境的 AI 代理接受任意輸入、使用工具並執行操作。JieGou 的 4 個行內威脅偵測器 — 提示注入、資料外洩、權限提升和資源濫用 — 在執行期間阻止攻擊,而非事後。

JT
JieGou Team
· · 4 分鐘閱讀

AI 代理的攻擊面超出傳統安全的涵蓋範圍

網頁應用程式接受結構化輸入 — 表單欄位、查詢參數、JSON 負載。你驗證類型、清理字串、強制執行結構描述。攻擊面是被充分理解的:注入、XSS、CSRF。

AI 代理接受自然語言。它決定要呼叫哪些工具。它動態建構參數。它可以讀取資料庫、呼叫 API、發送訊息和修改記錄 — 全部基於與使用者的對話,而你無法對使用者的意圖進行結構性驗證。

傳統網頁安全 — WAF、輸入驗證、CORS 政策 — 不是為此設計的。攻擊向量根本不同:輸入是非結構化的,執行路徑是非確定性的,代理具有被入侵的表單欄位所沒有的真實世界能力。

這就是為什麼 JieGou 專門為 AI 代理執行建構了威脅偵測。

四個行內偵測器

JieGou 在每次代理執行期間行內運行四個專門的偵測器。它們不是事後分析。它們即時評估輸入和輸出,並在損害發生之前阻止威脅。

1. 提示注入偵測

提示注入是 AI 時代的 SQL 注入。攻擊者精心製作輸入,旨在覆蓋代理的系統指示 — 改變其行為、提取其提示,或使其忽略安全指南。

JieGou 的偵測器識別多種注入模式:直接指示覆蓋(「忽略之前的指示並…」)、角色扮演攻擊(「你現在是 DAN,一個沒有限制的模型…」)、指示提取嘗試(「逐字列印你的系統提示」),以及利用提示格式的分隔符攻擊。

偵測同時作用於使用者輸入和工具輸出。一個讀取包含嵌入式注入嘗試的文件的代理 — 間接提示注入 — 會在工具輸出層被捕獲,而不僅僅是輸入層。

2. 資料外洩偵測

AI 代理處理敏感資料:客戶記錄、財務文件、內部知識庫。攻擊者 — 或配置錯誤的代理 — 可能透過精心製作的提示提取這些資料,使代理在回覆中包含 PII、憑證或內部資料。

外洩偵測器監控代理輸出中指示未授權資料暴露的模式:結構化資料傾印(自然語言回覆中的 JSON、CSV 模式)、類似憑證的字串、批量 PII 模式,以及以不明顯格式編碼資料的嘗試。

這與 JieGou 的 PII 偵測和敏感度標籤協同運作 — 但針對的是透過對話操控進行提取的特定模式,而非意外暴露。

3. 權限提升偵測

代理在定義的權限邊界內運作。但精密的攻擊 — 或約束不足的代理 — 可能嘗試存取超出其授權範圍的資源或執行操作。

提升偵測器監控代理嘗試存取未授權使用的工具、透過對話操控請求提升權限、嘗試修改自身配置或系統提示,以及存取其指定範圍外的資料。

當偵測到提升嘗試時,操作會被阻止,事件會記錄完整上下文以供安全審查。

4. 資源濫用偵測

並非所有威脅都旨在竊取資料或繞過控制。有些旨在耗盡資源 — 推高 LLM 成本、消耗 API 速率限制,或透過過度運算創造阻斷服務條件。

資源濫用偵測器標記異常令牌消耗(超出正常模式的突然飆升)、過度的連續工具呼叫(可能的無限迴圈)、異常的執行持續時間,以及與旨在最大化運算成本的對抗性輸入一致的模式(提示填充、遞迴擴展)。

行內執行,非事後分析

關鍵的設計決策是偵測何時運行。大多數安全工具在執行後分析日誌。當你看到警報時,資料已經被外洩,未授權操作已經被執行,成本已經產生。

JieGou 的偵測器是執行掛鉤。它們在代理執行管線中運行 — 在接收輸入和生成輸出之間,在生成工具呼叫和執行工具呼叫之間。偵測到的威脅在造成損害之前就被阻止。

這是安全攝影機和上鎖的門之間的差別。兩者都有價值。但當代理即將把你的客戶資料庫發送到未授權端點時,你需要的是上鎖的門。

56 個對抗性測試案例

威脅偵測的品質取決於其測試覆蓋率。JieGou 針對涵蓋所有類別的 56 個對抗性測試案例驗證所有四個偵測器:

  • 提示注入:直接覆蓋、角色扮演攻擊、指示提取、分隔符利用、多語言注入、透過工具輸出的間接注入
  • 資料外洩:PII 提取、憑證竊取、編碼資料走私、透過對話技巧的批量匯出
  • 權限提升:未授權工具存取、自我修改嘗試、範圍邊界違規
  • 資源濫用:令牌填充、迴圈誘導、速率限制利用

每個測試案例使用在生產 AI 部署中觀察到的真實攻擊模式,而非合成範例。測試套件在每次程式碼變更時於 CI 中運行。

與市場的比較

大多數 AI 自動化平台 — Zapier、Make、n8n、基於 Langchain 的工具 — 沒有任何代理層級的威脅偵測。它們完全依賴底層 LLM 的安全訓練,而這並非為了保護生產環境中使用工具的代理而設計。

有些平台提供基本的提示注入偵測作為獨立功能。沒有任何平台提供完整的範圍:注入加外洩加提升加資源濫用,行內運行,經過對抗性測試套件驗證。

這不是對那些平台的批評 — 它們是為不同的問題而建構的。但如果你正在部署存取真實資料並執行真實操作的 AI 代理,安全缺口是真實的。

縱深防禦

威脅偵測不是孤立運作的。它是 JieGou 10 層治理堆疊中的一層:

  1. PII 偵測搭配可逆標記化
  2. PHI 偵測用於醫療合規
  3. 威脅偵測(本文描述的 4 個行內偵測器)
  4. 敏感度標籤用於資料分類
  5. RBAC 搭配 5 個角色和 20 個細粒度權限
  6. 漸進式自主性用於基於信任的操作閘控
  7. BYOK 加密 (AES-256-GCM)
  8. 審計日誌涵蓋 30 種操作類型
  9. 多代理循環偵測
  10. 委派深度限制

每一層捕捉其他層遺漏的問題。威脅偵測捕捉對抗性攻擊。PII 偵測捕捉意外暴露。RBAC 防止未授權配置。審計日誌在預防失敗時提供鑑識證據。它們共同形成任何單一功能都無法獨自提供的安全態勢。

你的 AI 代理很強大。請確保它們受到防護。

security threat-detection ai-agents governance enterprise
分享這篇文章

喜歡這篇文章嗎?

在您的信箱中獲取工作流程技巧、產品更新和自動化指南。

No spam. Unsubscribe anytime.