Detección de PHI para flujos de trabajo de IA compatibles con HIPAA

La información de salud protegida no es solo PII. Los números de registro médico, códigos NPI, diagnósticos ICD-10 y contexto clínico requieren detección especializada. Así es como funciona el detector de PHI de JieGou y cómo encaja en un marco completo de preparación para HIPAA.

JieGou Team · 4 de marzo de 2026 · 7 min de lectura

Por qué la IA necesita detección específica de PHI

Toda plataforma de IA afirma tener detección de PII. Nombres, correos electrónicos, números de teléfono, números de seguro social — estos son lo mínimo. Pero si sus agentes de IA procesan datos de salud, la detección de PII no es suficiente.

La información de salud protegida (PHI) bajo HIPAA incluye cualquier información de salud individualmente identificable — y eso abarca patrones de datos que los detectores genéricos de PII nunca fueron diseñados para detectar. Un número de registro médico no es una dirección de correo electrónico. Un NPI no es un número de teléfono. Un código ICD-10 como J06.9 no significa nada para un detector de PII, pero revela el diagnóstico de un paciente (infección aguda de las vías respiratorias superiores) y es absolutamente PHI cuando se vincula a un individuo.

Las organizaciones de salud que despliegan agentes de IA para comunicación con pacientes, procesamiento de reclamaciones, documentación clínica o programación de citas necesitan detección que entienda el dominio médico. JieGou construyó la detección de PHI específicamente para esto.

Detección de patrones específicos del ámbito médico

El detector de PHI de JieGou identifica cinco categorías de identificadores específicos de salud que los detectores estándar de PII pasan por alto:

Números de registro médico (MRN)

Cada sistema hospitalario asigna a los pacientes un MRN único. Estos no están estandarizados entre instituciones — algunos usan códigos numéricos de 6 dígitos, otros usan formatos alfanuméricos con prefijos como MRN- o PT. JieGou detecta formatos comunes de MRN y los marca como PHI independientemente de la convención del hospital específico. Cuando un agente de IA procesa un documento que contiene MRN-4428193, se detecta y maneja según su política de sensibilidad.

Identificadores nacionales de proveedor (NPI)

Los NPIs son identificadores de 10 dígitos asignados a proveedores de salud por CMS. Siguen un formato específico que incluye un dígito de verificación Luhn — lo que significa que pueden validarse algorítmicamente, no solo por coincidencia de patrones. El detector de JieGou realiza la validación Luhn para distinguir NPIs reales de números aleatorios de 10 dígitos, reduciendo falsos positivos mientras mantiene la precisión de detección.

Códigos ICD-10

La Clasificación Internacional de Enfermedades, 10a Revisión, es el sistema de codificación usado mundialmente para diagnósticos y procedimientos. Los códigos siguen un formato estructurado: una letra seguida de dos dígitos, opcionalmente seguidos de un decimal y dígitos adicionales (ej., J06.9 para infección aguda de vías respiratorias superiores, Z23 para encuentro de inmunización, E11.65 para diabetes tipo 2 con hiperglucemia).

Estos códigos son PHI cuando aparecen en documentos vinculados a pacientes individuales — revelan diagnósticos, condiciones y tratamientos. JieGou detecta patrones ICD-10 y marca los documentos que los contienen para manejo apropiado.

Identificadores de planes de salud

Los números de planes de seguro, IDs de miembros y números de grupo son PHI bajo HIPAA. Estos aparecen en documentos de reclamaciones, verificaciones de elegibilidad y comunicaciones con pacientes. JieGou detecta formatos comunes de identificadores de planes de salud utilizados por aseguradoras principales y programas de Medicare/Medicaid.

Frases de contexto médico

Más allá de los identificadores estructurados, el texto clínico contiene frases que indican contenido relacionado con la salud: “diagnóstico,” “prescrito,” “plan de tratamiento,” “resultados de laboratorio,” “historial del paciente.” Cuando estas frases aparecen junto a otros identificadores, la combinación señala PHI incluso si los elementos individuales no activarían la detección por sí solos. JieGou usa análisis contextual para elevar la confianza de detección cuando la terminología médica co-ocurre con identificadores de pacientes.

Modos de redacción configurables

La detección es solo el primer paso. Lo que sucede después de que se detecta PHI depende de sus requisitos de cumplimiento y necesidades operacionales.

JieGou ofrece dos modos de redacción, configurables por nivel de sensibilidad:

Redacción completa reemplaza la PHI detectada con un marcador [REDACTADO]. El valor original nunca se expone al modelo de IA. Este es el modo más estricto — apropiado para entornos donde ninguna PHI debería llegar a la capa LLM.

Enmascaramiento parcial preserva los últimos 4 caracteres de un identificador mientras enmascara el resto. Un MRN como 4428193 se convierte en ***8193. Esto permite a los revisores humanos verificar registros sin exponer el identificador completo, y da a los agentes de IA suficiente contexto para referenciar registros específicos sin acceder a PHI completa.

El modo de redacción se configura por etiqueta de sensibilidad. Podría aplicar redacción completa para documentos etiquetados como “Restringido” mientras usa enmascaramiento parcial para documentos “Confidenciales” que el personal clínico autorizado necesita revisar.

Integración con el stack de gobernanza

La detección de PHI no existe de forma aislada. Se alimenta directamente en el sistema de clasificación de datos y etiquetas de sensibilidad de JieGou.

Cuando se detecta PHI en un documento o conversación, el contenido recibe automáticamente la etiqueta de sensibilidad apropiada. Esa etiqueta entonces gobierna cómo cada componente posterior maneja los datos:

Los agentes de IA que operan sobre contenido etiquetado con PHI aplican redacción antes de enviar datos al LLM
RBAC restringe quién puede acceder a documentos y conversaciones etiquetados con PHI
El registro de auditoría registra cada acceso a contenido etiquetado con PHI, creando la pista de acceso que HIPAA requiere
La encriptación BYOK asegura que la PHI en reposo esté encriptada con claves que la organización controla

Esta es la diferencia entre detectar PHI y gobernar PHI. La detección le dice que hay datos sensibles presentes. La gobernanza asegura que se manejen correctamente en cada punto del pipeline.

32 casos de prueba para precisión de detección

La detección de PHI debe ser precisa. Los falsos negativos significan que PHI se filtra a destinos no autorizados. Los falsos positivos interrumpen los flujos de trabajo al sobre-redactar contenido inocuo.

JieGou valida su detector de PHI contra 32 casos de prueba que cubren cada categoría de detección:

Formatos de MRN de múltiples sistemas hospitalarios (numéricos, alfanuméricos, con prefijo)
NPIs válidos e inválidos (verificación de dígito de control Luhn)
Códigos ICD-10 en categorías de diagnóstico (respiratorio, endocrino, musculoesquelético, lesiones)
Identificadores de planes de salud de aseguradoras principales
Frases de contexto médico en notas clínicas, resúmenes de alta y comunicaciones con pacientes
Casos extremos: códigos que aparecen en contextos no médicos, coincidencias parciales, formatos ambiguos

La suite de pruebas se ejecuta en CI y debe pasar antes de que cualquier cambio al pipeline de detección se despliegue.

El panorama más amplio del cumplimiento HIPAA

La detección de PHI es un componente del cumplimiento HIPAA. La regulación requiere salvaguardas administrativas, físicas y técnicas — y ninguna funcionalidad única satisface el requisito completo.

El marco de preparación para HIPAA de JieGou combina múltiples capas:

Detección de PHI identifica y clasifica información de salud protegida
Pistas de auditoría con 30 tipos de acciones proporcionan el registro de acceso que HIPAA exige
RBAC con 5 roles aplica acceso mínimo necesario — un principio fundamental de HIPAA
Encriptación BYOK (AES-256-GCM) proporciona salvaguardas técnicas para datos en reposo con claves controladas por el cliente
Autonomía graduada asegura que las acciones de alto riesgo sobre PHI requieran aprobación humana
Etiquetas de sensibilidad aplican políticas de manejo consistentes en todos los agentes y flujos de trabajo

La auditoría SOC 2 Tipo II de JieGou está en progreso vía Vanta, proporcionando verificación independiente de los controles de seguridad. Combinada con las salvaguardas técnicas anteriores, esto da a las organizaciones de salud un camino claro para desplegar agentes de IA que manejen PHI en cumplimiento con los requisitos de HIPAA.

La PHI es la categoría más sensible de datos personales en el panorama regulatorio de EE.UU. Si sus agentes de IA tocan datos de salud, la detección no es opcional — es la base de las operaciones de IA en cumplimiento.