符合 HIPAA 的 AI 工作流的 PHI 检测

为什么 AI 需要 PHI 专用检测

每个 AI 平台都声称有 PII 检测。姓名、邮箱、电话号码、社会安全号码——这些是基本要求。但如果您的 AI agent 处理医疗保健数据，PII 检测是不够的。

HIPAA 下的受保护健康信息（PHI）包括任何可单独识别的健康信息——这涵盖了通用 PII 检测器从未设计来捕获的数据模式。病历号不是邮箱地址。NPI 不是电话号码。像 J06.9 这样的 ICD-10 代码对 PII 检测器毫无意义，但它揭示了患者的诊断（急性上呼吸道感染），当与个人关联时绝对是 PHI。

部署 AI agent 用于患者沟通、理赔处理、临床文档或预约排程的医疗保健组织需要理解医疗领域的检测。JieGou 专门为此构建了 PHI 检测。

医疗专用模式检测

JieGou 的 PHI 检测器识别标准 PII 检测器遗漏的五类医疗保健专用标识符：

病历号（MRN）

每个医院系统为患者分配唯一的 MRN。这些在机构间没有标准化——有些使用 6 位数字代码，有些使用带 MRN- 或 PT 前缀的字母数字格式。JieGou 检测常见的 MRN 格式并标记为 PHI，无论特定医院的约定如何。当 AI agent 处理包含 MRN-4428193 的文档时，它被检测并按您的敏感度策略处理。

国家提供者标识符（NPI）

NPI 是 CMS 分配给医疗保健提供者的 10 位标识符。它们遵循包含 Luhn 校验位的特定格式——意味着可以通过算法验证，而不仅仅是模式匹配。JieGou 的检测器执行 Luhn 验证以区分实际 NPI 和随机 10 位数字，减少误报同时保持检测准确性。

ICD-10 代码

国际疾病分类第 10 版是全球使用的诊断和手术编码系统。代码遵循结构化格式：一个字母后跟两个数字，可选后跟小数点和额外数字（如 J06.9 急性上呼吸道感染、Z23 免疫接种就诊、E11.65 2 型糖尿病伴高血糖）。

当这些代码出现在与个人患者关联的文档中时就是 PHI——它们揭示诊断、病症和治疗。JieGou 检测 ICD-10 模式并标记包含它们的文档以进行适当处理。

健康计划标识符

保险计划号、会员 ID 和团体号在 HIPAA 下是 PHI。这些出现在理赔文件、资格检查和患者沟通中。JieGou 检测主要保险公司和 Medicare/Medicaid 项目使用的常见健康计划标识符格式。

医疗上下文短语

除结构化标识符外，临床文本包含表示健康相关内容的短语：“诊断”、“处方”、“治疗方案”、“化验结果”、“患者病史”。当这些短语与其他标识符一起出现时，组合表明 PHI，即使单个元素可能不会单独触发检测。JieGou 使用上下文分析在医疗术语与患者标识符共同出现时提升检测置信度。

可配置的编辑模式

检测只是第一步。PHI 被检测后会发生什么取决于您的合规要求和运营需求。

JieGou 提供两种编辑模式，按敏感度级别可配置：

完全编辑用 [REDACTED] 占位符替换检测到的 PHI。原始值永远不暴露给 AI 模型。这是最严格的模式——适合不应有任何 PHI 到达 LLM 层的环境。

部分掩码保留标识符的最后 4 个字符同时掩盖其余部分。像 4428193 这样的 MRN 变成 ***8193。这允许人工审核者验证记录而不暴露完整标识符，并给 AI agent 足够的上下文来引用特定记录而不访问完整 PHI。

编辑模式按敏感度标签配置。您可能对标记为”受限”的文档应用完全编辑，同时对授权临床人员需要审查的”机密”文档使用部分掩码。

与治理体系的集成

PHI 检测不是孤立存在的。它直接输入 JieGou 的数据分类和敏感度标签系统。

当文档或对话中检测到 PHI 时，内容自动分配适当的敏感度标签。该标签然后管理每个下游组件如何处理数据：

AI agent 在将数据发送给 LLM 之前对 PHI 标记的内容执行编辑
RBAC 限制谁可以访问 PHI 标记的文档和对话
审计日志 记录对 PHI 标记内容的每次访问，创建 HIPAA 要求的访问追踪
BYOK 加密 确保静态 PHI 以组织控制的密钥加密

这就是检测 PHI 和治理 PHI 之间的区别。检测告诉您敏感数据存在。治理确保它在管道中的每个点都被正确处理。

32 个检测准确性测试用例

PHI 检测必须准确。假阴性意味着 PHI 泄露到未授权目的地。假阳性通过过度编辑无害内容来中断工作流。

JieGou 用覆盖每个检测类别的 32 个测试用例验证其 PHI 检测器：

来自多个医院系统的 MRN 格式（数字、字母数字、带前缀的）
有效和无效的 NPI（Luhn 校验验证）
跨诊断类别的 ICD-10 代码（呼吸、内分泌、骨骼肌肉、损伤）
来自主要保险公司的健康计划标识符
临床笔记、出院摘要和患者沟通中的医疗上下文短语
边缘案例：非医疗上下文中出现的代码、部分匹配、模糊格式

测试套件在 CI 中运行，在检测管道的任何更改部署之前必须通过。

更广泛的 HIPAA 合规图景

PHI 检测是 HIPAA 合规的一个组件。法规要求行政、物理和技术保障——没有单一功能能满足完整要求。

JieGou 的 HIPAA 就绪框架结合了多个层：

PHI 检测识别和分类受保护健康信息
审计追踪带 30 种操作类型提供 HIPAA 要求的访问日志
5 角色 RBAC 执行最小必要访问——HIPAA 的核心原则
**BYOK 加密（AES-256-GCM）**为静态数据提供客户控制密钥的技术保障
渐进式自主权确保 PHI 上的高风险操作需要人工批准
敏感度标签在所有 agent 和工作流中执行一致的处理策略

JieGou 的 SOC 2 Type II 审计正通过 Vanta 进行中，提供安全控制的独立验证。结合上述技术保障，这为医疗保健组织提供了一条清晰的路径，部署符合 HIPAA 要求处理 PHI 的 AI agent。

PHI 是美国监管环境中最敏感的个人数据类别。如果您的 AI agent 接触医疗保健数据，检测不是可选的——它是合规 AI 运营的基础。