Datenklassifizierung für AI-Workflows: Öffentlich, Intern, Vertraulich, Eingeschränkt

LLMs verstehen Datensensitivität nicht. Ohne Klassifizierungslabels auf Wissensdatenbanken behandeln AI-Workflows alle Inhalte gleich — und lassen eingeschränkte Daten in Antworten durchsickern. So erzwingt JieGou Sensitivität auf der RAG-Retrieval-Schicht.

JieGou Team · 3. März 2026 · 5 Min. Lesezeit

LLMs wissen nicht, was vertraulich ist

Large Language Models haben kein Konzept von Datensensitivität. Füttern Sie ein LLM mit einer Mischung aus öffentlichen Marketing-Texten und eingeschränkten Vorstandsprotokollen, und es wird beides fröhlich in eine Antwort einweben. Es weiß nicht, dass das eine mit der Welt teilbar ist und das andere auf drei namentlich genannte Führungskräfte beschränkt ist.

Das ist für persönliche AI-Assistenten in Ordnung. Es ist ein ernstes Problem für Enterprise-AI-Workflows.

Wenn Organisationen Wissensdatenbanken mit AI verbinden — Kundensupport-Agenten, die aus internen Dokumenten schöpfen, Vertriebsassistenten, die Preisstrategien referenzieren, HR-Bots, die Richtlinienfragen beantworten — wird jeder abgerufene Inhalt zur potenziellen LLM-Ausgabe. Ohne Datenklassifizierung gibt es keine Grenze zwischen dem, worauf eine AI zugreifen kann und worauf sie zugreifen sollte.

Die meisten AI-Plattformen ignorieren dies vollständig. Sie verbinden sich mit Ihren Datenquellen und rufen ab, was semantisch relevant ist. Relevanz ist nicht dasselbe wie Autorisierung.

Die vier Sensitivitätsstufen

JieGou implementiert ein vierstufiges Datenklassifizierungssystem auf jeder Wissensdatenbank, ausgerichtet an weit verbreiteten Informationssicherheits-Rahmenwerken:

Öffentlich (Grün)

Inhalte, die mit jedem geteilt werden können — Kunden, Partner, die allgemeine Öffentlichkeit. Marketingmaterialien, öffentliche Dokumentation, veröffentlichte Blog-Beiträge. Keine Abrufbeschränkungen.

Intern (Blau)

Inhalte für den unternehmensweiten Gebrauch. Interne Prozessdokumentation, Team-Handbücher, allgemeine Ankündigungen. Jeder authentifizierte Nutzer innerhalb der Organisation kann über AI-Workflows darauf zugreifen.

Vertraulich (Amber)

Inhalte, die auf bestimmte Abteilungen oder Teams beschränkt sind. Finanzprognosen, Wettbewerbsanalysen, Produkt-Roadmaps, HR-Untersuchungen. Nur Nutzer mit übereinstimmendem Abteilungszugang können Chunks aus vertraulichen Wissensdatenbanken abrufen.

Eingeschränkt (Rot)

Inhalte, die auf namentlich genannte Einzelpersonen beschränkt sind. Vorstandsmaterialien, M&A-Dokumente, Vergütungsdaten der Geschäftsleitung, Legal-Hold-Materialien. Zugang wird explizit pro Nutzer gewährt. Dies ist die höchste Sensitivitätsstufe, und der Abruf erfordert sowohl Nutzeridentitätsverifizierung als auch explizite Zugangslistenmitgliedschaft.

Durchsetzung auf der RAG-Retrieval-Schicht

Hier ist die entscheidende Designentscheidung: JieGou erzwingt Sensitivitätslabels bevor Inhalte das LLM erreichen, nicht danach.

Die meisten Plattformen, die Daten-Governance versuchen, wenden sie als Nachverarbeitungsfilter an — das LLM generiert eine Antwort unter Verwendung des gesamten verfügbaren Kontexts, und dann prüft ein Filter, ob die Ausgabe sensible Informationen enthält. Dies ist grundlegend fehlerhaft. Sobald eingeschränkte Inhalte in das Kontextfenster des LLM gelangen, beeinflussen sie die Antwort, selbst wenn bestimmte Phrasen herausgestrichen werden. Das Modell hat die Daten bereits “gesehen”.

JieGous Ansatz ist anders. Wenn eine RAG-Abfrage ausgeführt wird:

Nutzeridentität wird aufgelöst — die Rolle, Abteilung und expliziten Zugangsgewährungen des anfragenden Nutzers werden geladen
Wissensdatenbank-Sensitivitätslabels werden geprüft — jede verbundene Wissensdatenbank hat eine Klassifizierungsstufe
Vorab-Abruf-Filterung erfolgt — Chunks aus Wissensdatenbanken über der Freigabestufe des Nutzers werden vollständig aus der Vektorsuche ausgeschlossen
Nur freigegebene Inhalte gelangen in das Kontextfenster — das LLM sieht niemals eingeschränkte Daten, die es nicht sehen sollte

Das bedeutet, ein Support-Agent, der die Wissensdatenbank abfragt, wird öffentliche und interne Inhalte abrufen, aber niemals vertrauliche HR-Dokumente oder eingeschränkte Vorstandsmaterialien sehen — selbst wenn diese Dokumente semantisch relevant für die Abfrage sind.

Audit-Trail für Sensitivitätsfilterung

Jedes Sensitivitätsfilterungs-Ereignis wird in JieGous unveränderlichem Audit-Trail protokolliert:

Welcher Nutzer die Abfrage initiiert hat
Welche Wissensdatenbanken herausgefiltert wurden und warum
Die Sensitivitätsstufe, die den Ausschluss ausgelöst hat
Zeitstempel und Anfrage-Korrelations-ID

Das ist wichtig für die Compliance. Wenn Auditoren fragen “Wie stellen Sie sicher, dass AI-Workflows keine eingeschränkten Daten exponieren?”, ist die Antwort kein Richtliniendokument — es ist ein abfragbares Protokoll jeder Durchsetzungsaktion.

Wie andere Plattformen damit umgehen

Fähigkeit	Typische AI-Plattform	JieGou
Datenklassifizierungslabels	Keine	4 Stufen (Öffentlich, Intern, Vertraulich, Eingeschränkt)
Sensitivität pro Wissensdatenbank	Nicht verfügbar	Pro Wissensdatenbank konfiguriert
Vorab-Abruf-Filterung	Nein — nur Nachverarbeitung	Ja — Chunks vor LLM-Kontext ausgeschlossen
Nutzer-Freigabeabgleich	Keine nutzer-level Datenzugriffskontrolle	Rolle + Abteilung + explizite Gewährungen
Sensitivitäts-Audit-Trail	Keine Protokollierung	Unveränderliches Protokoll pro Filterungsereignis
Zugriffslisten für namentlich genannte Einzelpersonen	Nicht unterstützt	Auf eingeschränkter Stufe unterstützt

Die meisten Plattformen behandeln alle verbundenen Daten als gleich zugänglich. Einige bieten grundlegenden rollenbasierten Zugang zu ganzen Funktionen, aber keine wendet Sensitivitätsklassifizierung auf der Wissensdatenbank-zu-RAG-Pipeline-Ebene an.

Teil des 10-Schichten-Governance-Stack

Datenklassifizierung ist eine Schicht in JieGous Governance-Architektur. Sie arbeitet zusammen mit — nicht isoliert von — den anderen neun Schichten:

Konfidenzschwellen — Ausgaben mit niedriger Konfidenz werden eskaliert, bevor sie Nutzer erreichen
Genehmigungsgates — sensible Aktionen pausieren für menschliche Überprüfung
PII-Erkennung — persönliche Informationen werden vor der LLM-Verarbeitung tokenisiert
Vertrauenseskalation — Agenten verdienen Autonomie basierend auf Leistungshistorie
Markenstimme-Governance — Ausgaben entsprechen organisatorischen Sprachrichtlinien
Abteilungsbezogenes RBAC — 6 Rollen, 20 Berechtigungen, Abteilungsisolation
Datenklassifizierung — das hier beschriebene 4-Stufen-Sensitivitätssystem
Audit-Trails — jede Entscheidung mit voller Nachverfolgbarkeit protokolliert
Qualitätsmonitoring — kontinuierliche Bewertung mit Drift-Erkennung
Compliance-Kontrollen — 412 Richtlinien + 17 TSC-Kontrollen

Diese Schichten ergänzen sich. Eine Abfrage könnte Konfidenzschwellen bestehen, aber durch Datenklassifizierung gefiltert werden. Eine Ausgabe könnte Sensitivitätsprüfungen bestehen, aber an einem Genehmigungsgate gehalten werden. Defense in Depth bedeutet, dass keine einzelne Schicht die gesamte Last trägt.

Warum das jetzt wichtig ist

Da Organisationen AI über einfache Chatbots hinaus in abteilungsbezogene Workflows skalieren — Support-Triage, Vertriebsunterstützung, HR-Prozesse, Finanzanalyse automatisieren — werden die Daten, die durch diese Systeme fließen, zunehmend sensibler. Die Lücke zwischen “semantisch relevant” und “für diesen Nutzer autorisiert” wird zu einer Haftung.

Datenklassifizierung für AI-Workflows ist kein Nice-to-have. Sie ist der Unterschied zwischen einer AI-Plattform, der Sie echte Unternehmensdaten anvertrauen können, und einer, die auf öffentlich orientierte Anwendungsfälle beschränkt ist.

Erkunden Sie JieGous Governance-Stack | Erfahren Sie mehr über Wissensdatenbank-Management