PHI 偵測：符合 HIPAA 規範的 AI 工作流程

為什麼 AI 需要 PHI 專屬偵測

每個 AI 平台都聲稱具備 PII 偵測。姓名、電子郵件、電話號碼、社會安全號碼 — 這些是基本要求。但如果你的 AI 代理處理醫療資料，PII 偵測是不夠的。

HIPAA 下的受保護健康資訊 (PHI) 包括任何可個人識別的健康資訊 — 這涵蓋了通用 PII 偵測器從未被設計來捕捉的資料模式。病歷號碼不是電子郵件地址。NPI 不是電話號碼。像 J06.9 這樣的 ICD-10 代碼對 PII 偵測器毫無意義，但它揭示了病患的診斷（急性上呼吸道感染），當與個人連結時絕對是 PHI。

部署 AI 代理用於病患溝通、理賠處理、臨床文件或預約排程的醫療機構，需要理解醫療領域的偵測能力。JieGou 專門為此建構了 PHI 偵測。

醫療專屬模式偵測

JieGou 的 PHI 偵測器識別五類標準 PII 偵測器遺漏的醫療專屬識別碼：

病歷號碼 (MRN)

每個醫院系統都為病患分配唯一的 MRN。這些在不同機構間並未標準化 — 有些使用 6 位數字代碼，其他使用帶有 MRN- 或 PT 等前綴的英數字格式。JieGou 偵測常見的 MRN 格式，並將其標記為 PHI，無論特定醫院的慣例為何。當 AI 代理處理包含 MRN-4428193 的文件時，它會被偵測到並根據你的敏感度政策進行處理。

國家提供者識別碼 (NPI)

NPI 是由 CMS 分配給醫療提供者的 10 位數識別碼。它們遵循包含 Luhn 校驗位的特定格式 — 這意味著可以透過演算法驗證，而不僅僅是模式匹配。JieGou 的偵測器執行 Luhn 驗證，以區分實際的 NPI 和隨機的 10 位數字，在維持偵測準確度的同時減少誤報。

ICD-10 代碼

國際疾病分類第十版是全球用於診斷和療程的編碼系統。代碼遵循結構化格式：一個字母後跟兩位數字，可選地後跟小數點和額外數字（例如 J06.9 表示急性上呼吸道感染、Z23 表示疫苗接種就診、E11.65 表示伴有高血糖的第二型糖尿病）。

這些代碼在出現於與個別病患連結的文件中時即為 PHI — 它們揭示了診斷、病況和治療方式。JieGou 偵測 ICD-10 模式並標記包含它們的文件以進行適當處理。

健康計畫識別碼

保險計畫號碼、會員 ID 和團體號碼在 HIPAA 下屬於 PHI。這些出現在理賠文件、資格查核和病患通訊中。JieGou 偵測主要保險公司和 Medicare/Medicaid 計畫使用的常見健康計畫識別碼格式。

醫療上下文短語

除了結構化識別碼，臨床文字包含指示健康相關內容的短語：「診斷」、「處方」、「治療計畫」、「檢驗結果」、「病史」。當這些短語與其他識別碼一同出現時，這種組合即使個別元素單獨可能不會觸發偵測，仍然表示 PHI。JieGou 使用上下文分析，在醫療術語與病患識別碼共同出現時提升偵測信心值。

可配置的遮蔽模式

偵測只是第一步。PHI 被偵測到後的處理方式取決於你的合規要求和營運需求。

JieGou 提供兩種遮蔽模式，可按敏感度等級配置：

完全遮蔽 將偵測到的 PHI 替換為 [REDACTED] 佔位符。原始值永遠不會暴露給 AI 模型。這是最嚴格的模式 — 適用於不應有任何 PHI 到達 LLM 層的環境。

部分遮罩 保留識別碼的最後 4 個字元，同時遮蔽其餘部分。像 4428193 這樣的 MRN 會變成 ***8193。這允許人工審查者在不暴露完整識別碼的情況下驗證記錄，並給 AI 代理足夠的上下文來參考特定記錄，而無需存取完整的 PHI。

遮蔽模式按敏感度標籤配置。你可以對標記為「限制」的文件套用完全遮蔽，同時對需要授權臨床人員審查的「機密」文件使用部分遮罩。

與治理堆疊的整合

PHI 偵測不是孤立存在的。它直接融入 JieGou 的資料分類和敏感度標籤系統。

當在文件或對話中偵測到 PHI 時，內容會自動被分配適當的敏感度標籤。該標籤隨後管控每個下游元件如何處理資料：

AI 代理 在將資料發送到 LLM 之前，對 PHI 標籤內容強制執行遮蔽
RBAC 限制誰可以存取 PHI 標籤的文件和對話
審計日誌 記錄對 PHI 標籤內容的每次存取，建立 HIPAA 要求的存取追蹤
BYOK 加密 確保靜態 PHI 使用組織控制的金鑰加密

這就是偵測 PHI 和治理 PHI 之間的差別。偵測告訴你敏感資料存在。治理確保它在管線中的每個節點都被正確處理。

32 個測試案例驗證偵測準確度

PHI 偵測必須準確。漏報意味著 PHI 洩漏到未授權的目的地。誤報則因過度遮蔽無害內容而干擾工作流程。

JieGou 針對涵蓋每個偵測類別的 32 個測試案例驗證其 PHI 偵測器：

來自多個醫院系統的 MRN 格式（數字、英數字、帶前綴）
有效和無效的 NPI（Luhn 校驗驗證）
跨診斷類別的 ICD-10 代碼（呼吸系統、內分泌、肌肉骨骼、損傷）
來自主要保險公司的健康計畫識別碼
臨床筆記、出院摘要和病患通訊中的醫療上下文短語
邊界案例：出現在非醫療情境中的代碼、部分匹配、模糊格式

測試套件在 CI 中運行，且必須在偵測管線的任何變更部署前通過。

更廣泛的 HIPAA 合規圖景

PHI 偵測是 HIPAA 合規的一個組成部分。該法規要求行政、實體和技術保障措施 — 沒有任何單一功能能滿足完整要求。

JieGou 的 HIPAA 合規框架結合多個層級：

PHI 偵測 識別和分類受保護健康資訊
審計追蹤 搭配 30 種操作類型提供 HIPAA 要求的存取日誌
RBAC 搭配 5 個角色 強制執行最小必要存取 — HIPAA 的核心原則
BYOK 加密 (AES-256-GCM) 為靜態資料提供技術保障措施，使用客戶控制的金鑰
漸進式自主性 確保對 PHI 的高風險操作需要人類批准
敏感度標籤 在所有代理和工作流程中強制執行一致的處理政策

JieGou 的 SOC 2 Type II 審計正透過 Vanta 進行中，提供安全控制的獨立驗證。結合上述技術保障措施，這為醫療機構提供了一條清晰的路徑，以在符合 HIPAA 要求的情況下部署處理 PHI 的 AI 代理。

PHI 是美國法規環境中最敏感的個人資料類別。如果你的 AI 代理觸及醫療資料，偵測不是可選的 — 它是合規 AI 營運的基礎。