PHI-Erkennung für HIPAA-konforme AI-Workflows

Protected Health Information ist nicht nur PII. Krankenaktennummern, NPI-Codes, ICD-10-Diagnosen und klinischer Kontext erfordern spezialisierte Erkennung. So funktioniert JieGous PHI-Detektor und wie er in ein vollständiges HIPAA-Readiness-Framework passt.

JieGou Team · 4. März 2026 · 5 Min. Lesezeit

Warum AI PHI-spezifische Erkennung braucht

Jede AI-Plattform behauptet PII-Erkennung zu haben. Namen, E-Mails, Telefonnummern, Sozialversicherungsnummern — das ist Standard. Aber wenn Ihre AI-Agenten Gesundheitsdaten verarbeiten, reicht PII-Erkennung nicht aus.

Protected Health Information (PHI) unter HIPAA umfasst alle individuell identifizierbaren Gesundheitsinformationen — und das schließt Datenmuster ein, für deren Erkennung generische PII-Detektoren nie konzipiert wurden. Eine Krankenaktennummer ist keine E-Mail-Adresse. Eine NPI ist keine Telefonnummer. Ein ICD-10-Code wie J06.9 bedeutet einem PII-Detektor nichts, aber er offenbart die Diagnose eines Patienten (akute Infektion der oberen Atemwege) und ist absolut PHI, wenn er mit einer Person verknüpft ist.

Gesundheitsorganisationen, die AI-Agenten für Patientenkommunikation, Schadenbearbeitung, klinische Dokumentation oder Terminplanung einsetzen, brauchen Erkennung, die die medizinische Domäne versteht. JieGou hat PHI-Erkennung speziell dafür gebaut.

Medizinspezifische Mustererkennung

JieGous PHI-Detektor identifiziert fünf Kategorien gesundheitsspezifischer Identifikatoren, die Standard-PII-Detektoren übersehen:

Krankenaktennummern (MRN)

Jedes Krankenhaussystem weist Patienten eine eindeutige MRN zu. Diese sind nicht institutionsübergreifend standardisiert — einige verwenden 6-stellige numerische Codes, andere alphanumerische Formate mit Präfixen wie MRN- oder PT. JieGou erkennt gängige MRN-Formate und markiert sie als PHI, unabhängig von der spezifischen Konvention des Krankenhauses. Wenn ein AI-Agent ein Dokument verarbeitet, das MRN-4428193 enthält, wird es erkannt und gemäß Ihrer Sensitivitätsrichtlinie behandelt.

National Provider Identifiers (NPI)

NPIs sind 10-stellige Identifikatoren, die von CMS an Gesundheitsdienstleister vergeben werden. Sie folgen einem spezifischen Format, das eine Luhn-Prüfziffer enthält — das bedeutet, sie können algorithmisch validiert werden, nicht nur per Musterabgleich. JieGous Detektor führt die Luhn-Validierung durch, um tatsächliche NPIs von zufälligen 10-stelligen Zahlen zu unterscheiden, was falsch-positive Ergebnisse reduziert und gleichzeitig die Erkennungsgenauigkeit aufrechterhält.

ICD-10-Codes

Die Internationale Klassifikation der Krankheiten, 10. Revision, ist das weltweit verwendete Kodiersystem für Diagnosen und Verfahren. Codes folgen einem strukturierten Format: ein Buchstabe gefolgt von zwei Ziffern, optional gefolgt von einem Dezimalpunkt und weiteren Ziffern (z.B. J06.9 für akute Infektion der oberen Atemwege, Z23 für Immunisierungskontakt, E11.65 für Typ-2-Diabetes mit Hyperglykämie).

Diese Codes sind PHI, wenn sie in Dokumenten erscheinen, die mit einzelnen Patienten verknüpft sind — sie offenbaren Diagnosen, Zustände und Behandlungen. JieGou erkennt ICD-10-Muster und markiert Dokumente, die sie enthalten, zur entsprechenden Behandlung.

Krankenversicherungs-Identifikatoren

Versicherungsplannummern, Mitglieds-IDs und Gruppennummern sind PHI unter HIPAA. Diese erscheinen in Schadendokumenten, Anspruchsberechtigungsprüfungen und Patientenkommunikation. JieGou erkennt gängige Krankenversicherungs-Identifikatorformate, die von großen Versicherern und Medicare/Medicaid-Programmen verwendet werden.

Medizinische Kontextphrasen

Über strukturierte Identifikatoren hinaus enthält klinischer Text Phrasen, die auf gesundheitsbezogene Inhalte hinweisen: “Diagnose”, “verschrieben”, “Behandlungsplan”, “Laborergebnisse”, “Patientenhistorie”. Wenn diese Phrasen neben anderen Identifikatoren erscheinen, signalisiert die Kombination PHI, selbst wenn einzelne Elemente allein möglicherweise keine Erkennung auslösen würden. JieGou verwendet kontextuelle Analyse, um die Erkennungskonfidenz zu erhöhen, wenn medizinische Terminologie zusammen mit Patientenidentifikatoren auftritt.

Konfigurierbare Schwärzungsmodi

Erkennung ist nur der erste Schritt. Was nach der PHI-Erkennung passiert, hängt von Ihren Compliance-Anforderungen und betrieblichen Bedürfnissen ab.

JieGou bietet zwei Schwärzungsmodi, konfigurierbar pro Sensitivitätsstufe:

Vollständige Schwärzung ersetzt erkanntes PHI durch einen [SCHWÄRZT]-Platzhalter. Der ursprüngliche Wert wird nie dem AI-Modell offengelegt. Das ist der strengste Modus — geeignet für Umgebungen, in denen kein PHI jemals die LLM-Schicht erreichen sollte.

Teilmaskierung bewahrt die letzten 4 Zeichen eines Identifikators und maskiert den Rest. Eine MRN wie 4428193 wird zu ***8193. Das ermöglicht menschlichen Reviewern, Datensätze zu verifizieren, ohne den vollständigen Identifikator offenzulegen, und gibt AI-Agenten genug Kontext, um auf spezifische Datensätze zu verweisen, ohne auf vollständiges PHI zuzugreifen.

Der Schwärzungsmodus wird pro Sensitivitätslabel konfiguriert. Sie könnten vollständige Schwärzung für als “Eingeschränkt” gekennzeichnete Dokumente anwenden, während Sie Teilmaskierung für “Vertrauliche” Dokumente verwenden, die autorisiertes klinisches Personal überprüfen muss.

Integration mit dem Governance-Stack

PHI-Erkennung existiert nicht isoliert. Sie speist direkt in JieGous Datenklassifizierungs- und Sensitivitätslabel-System ein.

Wenn PHI in einem Dokument oder einer Konversation erkannt wird, erhält der Inhalt automatisch das entsprechende Sensitivitätslabel. Dieses Label bestimmt dann, wie jede nachgelagerte Komponente mit den Daten umgeht:

AI-Agenten, die auf PHI-gelabelten Inhalten operieren, erzwingen Schwärzung, bevor Daten an das LLM gesendet werden
RBAC schränkt ein, wer auf PHI-gelabelte Dokumente und Konversationen zugreifen kann
Audit-Logging zeichnet jeden Zugriff auf PHI-gelabelte Inhalte auf und erstellt die Zugriffsspur, die HIPAA erfordert
BYOK-Verschlüsselung stellt sicher, dass PHI im Ruhezustand mit Schlüsseln verschlüsselt wird, die die Organisation kontrolliert

Das ist der Unterschied zwischen PHI erkennen und PHI steuern. Erkennung sagt Ihnen, dass sensible Daten vorhanden sind. Governance stellt sicher, dass sie an jedem Punkt der Pipeline korrekt behandelt werden.

32 Testfälle für Erkennungsgenauigkeit

PHI-Erkennung muss genau sein. Falsch-Negative bedeuten, dass PHI an nicht autorisierte Ziele gelangt. Falsch-Positive stören Workflows durch übermäßige Schwärzung harmloser Inhalte.

JieGou validiert seinen PHI-Detektor gegen 32 Testfälle, die jede Erkennungskategorie abdecken:

MRN-Formate aus mehreren Krankenhaussystemen (numerisch, alphanumerisch, mit Präfix)
Gültige und ungültige NPIs (Luhn-Prüfverifizierung)
ICD-10-Codes über Diagnosekategorien hinweg (Atemwege, Endokrinologie, Muskuloskelettales, Verletzungen)
Krankenversicherungs-Identifikatoren von großen Versicherern
Medizinische Kontextphrasen in klinischen Notizen, Entlassungsberichten und Patientenkommunikation
Grenzfälle: Codes in nicht-medizinischen Kontexten, Teilübereinstimmungen, mehrdeutige Formate

Die Test-Suite läuft in CI und muss bestanden werden, bevor Änderungen an der Erkennungspipeline deployt werden.

Das breitere HIPAA-Compliance-Bild

PHI-Erkennung ist eine Komponente der HIPAA-Compliance. Die Verordnung erfordert administrative, physische und technische Schutzmaßnahmen — und kein einzelnes Feature erfüllt die vollständige Anforderung.

JieGous HIPAA-Readiness-Framework kombiniert mehrere Schichten:

PHI-Erkennung identifiziert und klassifiziert geschützte Gesundheitsinformationen
Audit-Trails mit 30 Aktionstypen liefern das Zugriffslogging, das HIPAA vorschreibt
RBAC mit 5 Rollen erzwingt den Mindestzugang — ein Kernprinzip von HIPAA
BYOK-Verschlüsselung (AES-256-GCM) bietet technische Schutzmaßnahmen für ruhende Daten mit kundenkontrollierten Schlüsseln
Graduated Autonomy stellt sicher, dass Hochrisikoaktionen auf PHI menschliche Genehmigung erfordern
Sensitivitätslabel erzwingen konsistente Behandlungsrichtlinien über alle Agenten und Workflows hinweg

JieGous SOC 2 Type II-Audit ist über Vanta in Arbeit und bietet unabhängige Verifizierung der Sicherheitskontrollen. In Kombination mit den oben genannten technischen Schutzmaßnahmen gibt dies Gesundheitsorganisationen einen klaren Weg zum Einsatz von AI-Agenten, die PHI in Übereinstimmung mit HIPAA-Anforderungen behandeln.

PHI ist die sensibelste Kategorie personenbezogener Daten in der US-Regulierungslandschaft. Wenn Ihre AI-Agenten Gesundheitsdaten berühren, ist Erkennung nicht optional — sie ist die Grundlage konformer AI-Operationen.