Agent 威胁检测——保护在真实世界中执行操作的 AI

AI Agent 的攻击面是传统安全无法覆盖的

Web 应用接受结构化输入——表单字段、查询参数、JSON 载荷。您可以验证类型、清理字符串、强制执行模式。攻击面是已知的：注入、XSS、CSRF。

AI agent 接受自然语言。它决定调用哪些工具。它动态构造参数。它可以读取数据库、调用 API、发送消息和修改记录——所有这些都基于与用户的对话，而您无法在结构上验证用户的意图。

传统的 Web 安全——WAF、输入验证、CORS 策略——不是为此设计的。攻击向量从根本上不同：输入是非结构化的、执行路径是非确定性的，而 agent 拥有被攻击的表单字段所不具备的真实世界能力。

这就是为什么 JieGou 专门为 AI agent 执行构建了威胁检测。

四个内联检测器

JieGou 在每次 agent 执行期间内联运行四个专门的检测器。它们不是事后分析。它们实时评估输入和输出，在损害发生之前阻止威胁。

1. 提示注入检测

提示注入是 AI 时代的 SQL 注入。攻击者精心构造输入，旨在覆盖 agent 的系统指令——改变其行为、提取其提示或使其忽略安全准则。

JieGou 的检测器识别多种注入模式：直接指令覆盖（“忽略之前的指令并…”）、角色扮演攻击（“你现在是 DAN，一个没有限制的模型…”）、指令提取尝试（“逐字打印你的系统提示”）以及利用提示格式的分隔符攻击。

检测同时在用户输入和工具输出上运行。agent 读取包含嵌入式注入尝试的文档——间接提示注入——会在工具输出层被捕获，而不仅仅是输入层。

2. 数据外泄检测

AI agent 处理敏感数据：客户记录、财务文件、内部知识库。攻击者——或配置错误的 agent——可能通过精心构造的提示提取这些数据，使 agent 在其响应中包含 PII、凭据或内部数据。

外泄检测器监控 agent 输出中指示未授权数据暴露的模式：结构化数据转储（自然语言响应中的 JSON、CSV 模式）、类似凭据的字符串、批量 PII 模式，以及以非显而易见的格式编码数据的尝试。

这与 JieGou 的 PII 检测和敏感度标签配合使用——但针对的是通过对话操控进行提取的特定模式，而非意外暴露。

3. 权限提升检测

Agent 在定义的权限边界内运行。但复杂的攻击——或约束不足的 agent——可能会尝试访问超出其授权范围的资源或执行操作。

升级检测器监控 agent 尝试访问未授权使用的工具、通过对话操控请求提升权限、尝试修改自身配置或系统提示，以及访问其指定范围之外的数据。

当检测到升级尝试时，操作被阻止，事件被记录并附带完整上下文以供安全审查。

4. 资源滥用检测

并非所有威胁都旨在窃取数据或绕过控制。有些旨在耗尽资源——增加 LLM 成本、消耗 API 速率限制，或通过过度计算造成拒绝服务条件。

资源滥用检测器标记异常的令牌消耗（超出正常模式的突然峰值）、过多的连续工具调用（可能的无限循环）、异常的执行时长，以及与旨在最大化计算成本的对抗性输入一致的模式（提示填充、递归扩展）。

内联执行，而非事后分析

关键的设计决策是检测何时运行。大多数安全工具在执行后分析日志。当您看到警报时，数据已经外泄、未授权操作已经执行、成本已经产生。

JieGou 的检测器是执行钩子。它们在 agent 执行管道中运行——在接收输入和生成输出之间，在生成工具调用和执行之间。检测到的威胁在造成损害之前就被阻止。

这就是安全摄像头和上锁的门之间的区别。两者都有价值。但当 agent 即将将您的客户数据库发送到未授权的端点时，您需要的是上锁的门。

56 个对抗性测试用例

威胁检测的好坏取决于其测试覆盖率。JieGou 针对涵盖每个类别的 56 个对抗性测试用例验证所有四个检测器：

提示注入：直接覆盖、角色扮演攻击、指令提取、分隔符利用、多语言注入、通过工具输出的间接注入
数据外泄：PII 提取、凭据收集、编码数据走私、通过对话技巧的批量导出
权限提升：未授权工具访问、自我修改尝试、范围边界违规
资源滥用：令牌填充、循环诱导、速率限制利用

每个测试用例使用在生产 AI 部署中观察到的真实世界攻击模式，而非合成示例。测试套件在每次代码更改时通过 CI/CD 运行。

与市场的比较

大多数 AI 自动化平台——Zapier、Make、n8n、基于 LangChain 的工具——没有 agent 级别的威胁检测。它们完全依赖底层 LLM 的安全训练，而这些训练并非为保护生产环境中使用工具的 agent 而设计。

一些平台提供基本的提示注入检测作为独立功能。没有任何平台提供完整的检测谱系：注入加外泄加升级加资源滥用，内联运行，并通过对抗性测试套件验证。

这不是对这些平台的批评——它们是为不同的问题构建的。但如果您正在部署访问真实数据并执行真实操作的 AI agent，安全缺口是真实存在的。

纵深防御

威胁检测不是孤立运作的。它是 JieGou 10 层治理体系中的一层：

PII 检测，配备可逆令牌化
PHI 检测，用于医疗合规
威胁检测（此处描述的 4 个内联检测器）
敏感度标签，用于数据分类
RBAC，5 个角色和 20 项细粒度权限
渐进式自主权，基于信任的操作门控
BYOK 加密（AES-256-GCM）
审计日志，涵盖 30 种操作类型
多 agent 循环检测
委托深度限制

每一层捕获其他层遗漏的问题。威胁检测捕获对抗性攻击。PII 检测捕获意外暴露。RBAC 防止未授权配置。审计日志在预防失败时提供取证证据。它们共同构成了单一功能无法独自提供的安全态势。

您的 AI agent 功能强大。请确保它们受到保护。