Détection PHI pour des workflows IA conformes HIPAA

Les informations de santé protégées ne sont pas juste des PII. Les numéros de dossier médical, les codes NPI, les diagnostics ICD-10 et le contexte clinique nécessitent une détection spécialisée. Voici comment le détecteur PHI de JieGou fonctionne et comment il s'intègre dans un cadre complet de conformité HIPAA.

JieGou Team · 4 mars 2026 · 7 min de lecture

Pourquoi l’IA a besoin d’une détection spécifique aux PHI

Chaque plateforme IA revendique la détection de PII. Noms, emails, numéros de téléphone, numéros de sécurité sociale — c’est le minimum requis. Mais si vos agents IA traitent des données de santé, la détection de PII ne suffit pas.

Les informations de santé protégées (PHI) sous HIPAA incluent toute information de santé individuellement identifiable — et cela englobe des patterns de données que les détecteurs PII génériques n’ont jamais été conçus pour détecter. Un numéro de dossier médical n’est pas une adresse email. Un NPI n’est pas un numéro de téléphone. Un code ICD-10 comme J06.9 ne signifie rien pour un détecteur PII, mais il révèle le diagnostic d’un patient (infection respiratoire haute aiguë) et est absolument un PHI quand il est lié à un individu.

Les organisations de santé déployant des agents IA pour la communication avec les patients, le traitement des réclamations, la documentation clinique ou la planification de rendez-vous ont besoin d’une détection qui comprend le domaine médical. JieGou a construit la détection PHI spécifiquement pour cela.

Détection de patterns spécifiques au médical

Le détecteur PHI de JieGou identifie cinq catégories d’identifiants spécifiques à la santé que les détecteurs PII standard manquent :

Numéros de dossier médical (MRN)

Chaque système hospitalier assigne aux patients un MRN unique. Ceux-ci ne sont pas standardisés entre institutions — certains utilisent des codes numériques à 6 chiffres, d’autres des formats alphanumériques avec des préfixes comme MRN- ou PT. JieGou détecte les formats MRN courants et les signale comme PHI quelle que soit la convention de l’hôpital spécifique. Quand un agent IA traite un document contenant MRN-4428193, il est détecté et géré selon votre politique de sensibilité.

Identifiants nationaux de fournisseur (NPI)

Les NPI sont des identifiants à 10 chiffres assignés aux fournisseurs de soins de santé par CMS. Ils suivent un format spécifique qui inclut un chiffre de contrôle Luhn — ce qui signifie qu’ils peuvent être validés algorithmiquement, pas seulement par correspondance de patterns. Le détecteur de JieGou effectue la validation Luhn pour distinguer les véritables NPI des nombres aléatoires à 10 chiffres, réduisant les faux positifs tout en maintenant la précision de détection.

Codes ICD-10

La Classification internationale des maladies, 10e révision, est le système de codage utilisé mondialement pour les diagnostics et procédures. Les codes suivent un format structuré : une lettre suivie de deux chiffres, optionnellement suivis d’un point décimal et de chiffres supplémentaires (par ex., J06.9 pour infection respiratoire haute aiguë, Z23 pour consultation de vaccination, E11.65 pour diabète de type 2 avec hyperglycémie).

Ces codes sont des PHI quand ils apparaissent dans des documents liés à des patients individuels — ils révèlent des diagnostics, conditions et traitements. JieGou détecte les patterns ICD-10 et signale les documents les contenant pour un traitement approprié.

Identifiants de plan de santé

Les numéros de plan d’assurance, les ID de membres et les numéros de groupe sont des PHI sous HIPAA. Ceux-ci apparaissent dans les documents de réclamation, les vérifications d’éligibilité et les communications avec les patients. JieGou détecte les formats d’identifiants de plan de santé courants utilisés par les principaux assureurs et les programmes Medicare/Medicaid.

Phrases de contexte médical

Au-delà des identifiants structurés, le texte clinique contient des phrases qui indiquent un contenu lié à la santé : « diagnostic », « prescrit », « plan de traitement », « résultats de laboratoire », « antécédents du patient ». Quand ces phrases apparaissent aux côtés d’autres identifiants, la combinaison signale des PHI même si les éléments individuels pourraient ne pas déclencher la détection seuls. JieGou utilise l’analyse contextuelle pour élever la confiance de détection quand la terminologie médicale co-occur avec des identifiants de patients.

Modes de masquage configurables

La détection n’est que la première étape. Ce qui se passe après la détection de PHI dépend de vos exigences de conformité et besoins opérationnels.

JieGou offre deux modes de masquage, configurables par niveau de sensibilité :

Le masquage complet remplace les PHI détectés par un placeholder [MASQUÉ]. La valeur originale n’est jamais exposée au modèle IA. C’est le mode le plus strict — approprié pour les environnements où aucun PHI ne devrait jamais atteindre la couche LLM.

Le masquage partiel préserve les 4 derniers caractères d’un identifiant tout en masquant le reste. Un MRN comme 4428193 devient ***8193. Cela permet aux réviseurs humains de vérifier les dossiers sans exposer l’identifiant complet, et donne aux agents IA assez de contexte pour référencer des dossiers spécifiques sans accéder aux PHI complets.

Le mode de masquage est configuré par label de sensibilité. Vous pourriez appliquer le masquage complet pour les documents étiquetés « Restreint » tout en utilisant le masquage partiel pour les documents « Confidentiel » que le personnel clinique autorisé doit revoir.

Intégration avec le stack de gouvernance

La détection PHI n’existe pas en isolation. Elle alimente directement le système de classification et de labels de sensibilité des données de JieGou.

Quand des PHI sont détectés dans un document ou une conversation, le contenu reçoit automatiquement le label de sensibilité approprié. Ce label gouverne ensuite comment chaque composant en aval gère les données :

Les agents IA opérant sur du contenu labellisé PHI appliquent le masquage avant d’envoyer les données au LLM
Le RBAC restreint qui peut accéder aux documents et conversations labellisés PHI
La journalisation d’audit enregistre chaque accès au contenu labellisé PHI, créant la piste d’accès requise par HIPAA
Le chiffrement BYOK assure que les PHI au repos sont chiffrés avec des clés que l’organisation contrôle

C’est la différence entre détecter des PHI et gouverner des PHI. La détection vous dit que des données sensibles sont présentes. La gouvernance assure qu’elles sont gérées correctement à chaque point du pipeline.

32 cas de test pour la précision de détection

La détection PHI doit être précise. Les faux négatifs signifient que des PHI fuient vers des destinations non autorisées. Les faux positifs perturbent les workflows en masquant excessivement du contenu anodin.

JieGou valide son détecteur PHI contre 32 cas de test couvrant chaque catégorie de détection :

Formats MRN de multiples systèmes hospitaliers (numérique, alphanumérique, préfixé)
NPI valides et invalides (vérification Luhn)
Codes ICD-10 à travers les catégories de diagnostics (respiratoire, endocrinien, musculo-squelettique, traumatisme)
Identifiants de plan de santé des principaux assureurs
Phrases de contexte médical dans les notes cliniques, résumés de sortie et communications patient
Cas limites : codes apparaissant dans des contextes non médicaux, correspondances partielles, formats ambigus

La suite de tests s’exécute en CI et doit passer avant tout changement au pipeline de détection ne soit déployé.

Le tableau complet de la conformité HIPAA

La détection PHI est un composant de la conformité HIPAA. La réglementation exige des sauvegardes administratives, physiques et techniques — et aucune fonctionnalité unique ne satisfait l’exigence complète.

Le cadre de préparation HIPAA de JieGou combine plusieurs couches :

La détection PHI identifie et classifie les informations de santé protégées
Les pistes d’audit avec 30 types d’actions fournissent la journalisation d’accès mandatée par HIPAA
Le RBAC avec 5 rôles applique l’accès au minimum nécessaire — un principe fondamental de HIPAA
Le chiffrement BYOK (AES-256-GCM) fournit des sauvegardes techniques pour les données au repos avec des clés contrôlées par le client
L’autonomie graduée assure que les actions à haut risque sur les PHI nécessitent une approbation humaine
Les labels de sensibilité appliquent des politiques de gestion cohérentes sur tous les agents et workflows

L’audit SOC 2 Type II de JieGou est en cours via Vanta, fournissant une vérification indépendante des contrôles de sécurité. Combiné avec les sauvegardes techniques ci-dessus, cela donne aux organisations de santé un chemin clair pour déployer des agents IA qui gèrent les PHI en conformité avec les exigences HIPAA.

Les PHI sont la catégorie la plus sensible de données personnelles dans le paysage réglementaire américain. Si vos agents IA touchent des données de santé, la détection n’est pas optionnelle — c’est la fondation d’opérations IA conformes.