為什麼 AI 需要 PHI 專屬偵測
每個 AI 平台都聲稱具備 PII 偵測。姓名、電子郵件、電話號碼、社會安全號碼 — 這些是基本要求。但如果你的 AI 代理處理醫療資料,PII 偵測是不夠的。
HIPAA 下的受保護健康資訊 (PHI) 包括任何可個人識別的健康資訊 — 這涵蓋了通用 PII 偵測器從未被設計來捕捉的資料模式。病歷號碼不是電子郵件地址。NPI 不是電話號碼。像 J06.9 這樣的 ICD-10 代碼對 PII 偵測器毫無意義,但它揭示了病患的診斷(急性上呼吸道感染),當與個人連結時絕對是 PHI。
部署 AI 代理用於病患溝通、理賠處理、臨床文件或預約排程的醫療機構,需要理解醫療領域的偵測能力。JieGou 專門為此建構了 PHI 偵測。
醫療專屬模式偵測
JieGou 的 PHI 偵測器識別五類標準 PII 偵測器遺漏的醫療專屬識別碼:
病歷號碼 (MRN)
每個醫院系統都為病患分配唯一的 MRN。這些在不同機構間並未標準化 — 有些使用 6 位數字代碼,其他使用帶有 MRN- 或 PT 等前綴的英數字格式。JieGou 偵測常見的 MRN 格式,並將其標記為 PHI,無論特定醫院的慣例為何。當 AI 代理處理包含 MRN-4428193 的文件時,它會被偵測到並根據你的敏感度政策進行處理。
國家提供者識別碼 (NPI)
NPI 是由 CMS 分配給醫療提供者的 10 位數識別碼。它們遵循包含 Luhn 校驗位的特定格式 — 這意味著可以透過演算法驗證,而不僅僅是模式匹配。JieGou 的偵測器執行 Luhn 驗證,以區分實際的 NPI 和隨機的 10 位數字,在維持偵測準確度的同時減少誤報。
ICD-10 代碼
國際疾病分類第十版是全球用於診斷和療程的編碼系統。代碼遵循結構化格式:一個字母後跟兩位數字,可選地後跟小數點和額外數字(例如 J06.9 表示急性上呼吸道感染、Z23 表示疫苗接種就診、E11.65 表示伴有高血糖的第二型糖尿病)。
這些代碼在出現於與個別病患連結的文件中時即為 PHI — 它們揭示了診斷、病況和治療方式。JieGou 偵測 ICD-10 模式並標記包含它們的文件以進行適當處理。
健康計畫識別碼
保險計畫號碼、會員 ID 和團體號碼在 HIPAA 下屬於 PHI。這些出現在理賠文件、資格查核和病患通訊中。JieGou 偵測主要保險公司和 Medicare/Medicaid 計畫使用的常見健康計畫識別碼格式。
醫療上下文短語
除了結構化識別碼,臨床文字包含指示健康相關內容的短語:「診斷」、「處方」、「治療計畫」、「檢驗結果」、「病史」。當這些短語與其他識別碼一同出現時,這種組合即使個別元素單獨可能不會觸發偵測,仍然表示 PHI。JieGou 使用上下文分析,在醫療術語與病患識別碼共同出現時提升偵測信心值。
可配置的遮蔽模式
偵測只是第一步。PHI 被偵測到後的處理方式取決於你的合規要求和營運需求。
JieGou 提供兩種遮蔽模式,可按敏感度等級配置:
完全遮蔽 將偵測到的 PHI 替換為 [REDACTED] 佔位符。原始值永遠不會暴露給 AI 模型。這是最嚴格的模式 — 適用於不應有任何 PHI 到達 LLM 層的環境。
部分遮罩 保留識別碼的最後 4 個字元,同時遮蔽其餘部分。像 4428193 這樣的 MRN 會變成 ***8193。這允許人工審查者在不暴露完整識別碼的情況下驗證記錄,並給 AI 代理足夠的上下文來參考特定記錄,而無需存取完整的 PHI。
遮蔽模式按敏感度標籤配置。你可以對標記為「限制」的文件套用完全遮蔽,同時對需要授權臨床人員審查的「機密」文件使用部分遮罩。
與治理堆疊的整合
PHI 偵測不是孤立存在的。它直接融入 JieGou 的資料分類和敏感度標籤系統。
當在文件或對話中偵測到 PHI 時,內容會自動被分配適當的敏感度標籤。該標籤隨後管控每個下游元件如何處理資料:
- AI 代理 在將資料發送到 LLM 之前,對 PHI 標籤內容強制執行遮蔽
- RBAC 限制誰可以存取 PHI 標籤的文件和對話
- 審計日誌 記錄對 PHI 標籤內容的每次存取,建立 HIPAA 要求的存取追蹤
- BYOK 加密 確保靜態 PHI 使用組織控制的金鑰加密
這就是偵測 PHI 和治理 PHI 之間的差別。偵測告訴你敏感資料存在。治理確保它在管線中的每個節點都被正確處理。
32 個測試案例驗證偵測準確度
PHI 偵測必須準確。漏報意味著 PHI 洩漏到未授權的目的地。誤報則因過度遮蔽無害內容而干擾工作流程。
JieGou 針對涵蓋每個偵測類別的 32 個測試案例驗證其 PHI 偵測器:
- 來自多個醫院系統的 MRN 格式(數字、英數字、帶前綴)
- 有效和無效的 NPI(Luhn 校驗驗證)
- 跨診斷類別的 ICD-10 代碼(呼吸系統、內分泌、肌肉骨骼、損傷)
- 來自主要保險公司的健康計畫識別碼
- 臨床筆記、出院摘要和病患通訊中的醫療上下文短語
- 邊界案例:出現在非醫療情境中的代碼、部分匹配、模糊格式
測試套件在 CI 中運行,且必須在偵測管線的任何變更部署前通過。
更廣泛的 HIPAA 合規圖景
PHI 偵測是 HIPAA 合規的一個組成部分。該法規要求行政、實體和技術保障措施 — 沒有任何單一功能能滿足完整要求。
JieGou 的 HIPAA 合規框架結合多個層級:
- PHI 偵測 識別和分類受保護健康資訊
- 審計追蹤 搭配 30 種操作類型提供 HIPAA 要求的存取日誌
- RBAC 搭配 5 個角色 強制執行最小必要存取 — HIPAA 的核心原則
- BYOK 加密 (AES-256-GCM) 為靜態資料提供技術保障措施,使用客戶控制的金鑰
- 漸進式自主性 確保對 PHI 的高風險操作需要人類批准
- 敏感度標籤 在所有代理和工作流程中強制執行一致的處理政策
JieGou 的 SOC 2 Type II 審計正透過 Vanta 進行中,提供安全控制的獨立驗證。結合上述技術保障措施,這為醫療機構提供了一條清晰的路徑,以在符合 HIPAA 要求的情況下部署處理 PHI 的 AI 代理。
PHI 是美國法規環境中最敏感的個人資料類別。如果你的 AI 代理觸及醫療資料,偵測不是可選的 — 它是合規 AI 營運的基礎。