LLMs wissen nicht, was vertraulich ist
Large Language Models haben kein Konzept von Datensensitivität. Füttern Sie ein LLM mit einer Mischung aus öffentlichen Marketing-Texten und eingeschränkten Vorstandsprotokollen, und es wird beides fröhlich in eine Antwort einweben. Es weiß nicht, dass das eine mit der Welt teilbar ist und das andere auf drei namentlich genannte Führungskräfte beschränkt ist.
Das ist für persönliche AI-Assistenten in Ordnung. Es ist ein ernstes Problem für Enterprise-AI-Workflows.
Wenn Organisationen Wissensdatenbanken mit AI verbinden — Kundensupport-Agenten, die aus internen Dokumenten schöpfen, Vertriebsassistenten, die Preisstrategien referenzieren, HR-Bots, die Richtlinienfragen beantworten — wird jeder abgerufene Inhalt zur potenziellen LLM-Ausgabe. Ohne Datenklassifizierung gibt es keine Grenze zwischen dem, worauf eine AI zugreifen kann und worauf sie zugreifen sollte.
Die meisten AI-Plattformen ignorieren dies vollständig. Sie verbinden sich mit Ihren Datenquellen und rufen ab, was semantisch relevant ist. Relevanz ist nicht dasselbe wie Autorisierung.
Die vier Sensitivitätsstufen
JieGou implementiert ein vierstufiges Datenklassifizierungssystem auf jeder Wissensdatenbank, ausgerichtet an weit verbreiteten Informationssicherheits-Rahmenwerken:
Öffentlich (Grün)
Inhalte, die mit jedem geteilt werden können — Kunden, Partner, die allgemeine Öffentlichkeit. Marketingmaterialien, öffentliche Dokumentation, veröffentlichte Blog-Beiträge. Keine Abrufbeschränkungen.
Intern (Blau)
Inhalte für den unternehmensweiten Gebrauch. Interne Prozessdokumentation, Team-Handbücher, allgemeine Ankündigungen. Jeder authentifizierte Nutzer innerhalb der Organisation kann über AI-Workflows darauf zugreifen.
Vertraulich (Amber)
Inhalte, die auf bestimmte Abteilungen oder Teams beschränkt sind. Finanzprognosen, Wettbewerbsanalysen, Produkt-Roadmaps, HR-Untersuchungen. Nur Nutzer mit übereinstimmendem Abteilungszugang können Chunks aus vertraulichen Wissensdatenbanken abrufen.
Eingeschränkt (Rot)
Inhalte, die auf namentlich genannte Einzelpersonen beschränkt sind. Vorstandsmaterialien, M&A-Dokumente, Vergütungsdaten der Geschäftsleitung, Legal-Hold-Materialien. Zugang wird explizit pro Nutzer gewährt. Dies ist die höchste Sensitivitätsstufe, und der Abruf erfordert sowohl Nutzeridentitätsverifizierung als auch explizite Zugangslistenmitgliedschaft.
Durchsetzung auf der RAG-Retrieval-Schicht
Hier ist die entscheidende Designentscheidung: JieGou erzwingt Sensitivitätslabels bevor Inhalte das LLM erreichen, nicht danach.
Die meisten Plattformen, die Daten-Governance versuchen, wenden sie als Nachverarbeitungsfilter an — das LLM generiert eine Antwort unter Verwendung des gesamten verfügbaren Kontexts, und dann prüft ein Filter, ob die Ausgabe sensible Informationen enthält. Dies ist grundlegend fehlerhaft. Sobald eingeschränkte Inhalte in das Kontextfenster des LLM gelangen, beeinflussen sie die Antwort, selbst wenn bestimmte Phrasen herausgestrichen werden. Das Modell hat die Daten bereits “gesehen”.
JieGous Ansatz ist anders. Wenn eine RAG-Abfrage ausgeführt wird:
- Nutzeridentität wird aufgelöst — die Rolle, Abteilung und expliziten Zugangsgewährungen des anfragenden Nutzers werden geladen
- Wissensdatenbank-Sensitivitätslabels werden geprüft — jede verbundene Wissensdatenbank hat eine Klassifizierungsstufe
- Vorab-Abruf-Filterung erfolgt — Chunks aus Wissensdatenbanken über der Freigabestufe des Nutzers werden vollständig aus der Vektorsuche ausgeschlossen
- Nur freigegebene Inhalte gelangen in das Kontextfenster — das LLM sieht niemals eingeschränkte Daten, die es nicht sehen sollte
Das bedeutet, ein Support-Agent, der die Wissensdatenbank abfragt, wird öffentliche und interne Inhalte abrufen, aber niemals vertrauliche HR-Dokumente oder eingeschränkte Vorstandsmaterialien sehen — selbst wenn diese Dokumente semantisch relevant für die Abfrage sind.
Audit-Trail für Sensitivitätsfilterung
Jedes Sensitivitätsfilterungs-Ereignis wird in JieGous unveränderlichem Audit-Trail protokolliert:
- Welcher Nutzer die Abfrage initiiert hat
- Welche Wissensdatenbanken herausgefiltert wurden und warum
- Die Sensitivitätsstufe, die den Ausschluss ausgelöst hat
- Zeitstempel und Anfrage-Korrelations-ID
Das ist wichtig für die Compliance. Wenn Auditoren fragen “Wie stellen Sie sicher, dass AI-Workflows keine eingeschränkten Daten exponieren?”, ist die Antwort kein Richtliniendokument — es ist ein abfragbares Protokoll jeder Durchsetzungsaktion.
Wie andere Plattformen damit umgehen
| Fähigkeit | Typische AI-Plattform | JieGou |
|---|---|---|
| Datenklassifizierungslabels | Keine | 4 Stufen (Öffentlich, Intern, Vertraulich, Eingeschränkt) |
| Sensitivität pro Wissensdatenbank | Nicht verfügbar | Pro Wissensdatenbank konfiguriert |
| Vorab-Abruf-Filterung | Nein — nur Nachverarbeitung | Ja — Chunks vor LLM-Kontext ausgeschlossen |
| Nutzer-Freigabeabgleich | Keine nutzer-level Datenzugriffskontrolle | Rolle + Abteilung + explizite Gewährungen |
| Sensitivitäts-Audit-Trail | Keine Protokollierung | Unveränderliches Protokoll pro Filterungsereignis |
| Zugriffslisten für namentlich genannte Einzelpersonen | Nicht unterstützt | Auf eingeschränkter Stufe unterstützt |
Die meisten Plattformen behandeln alle verbundenen Daten als gleich zugänglich. Einige bieten grundlegenden rollenbasierten Zugang zu ganzen Funktionen, aber keine wendet Sensitivitätsklassifizierung auf der Wissensdatenbank-zu-RAG-Pipeline-Ebene an.
Teil des 10-Schichten-Governance-Stack
Datenklassifizierung ist eine Schicht in JieGous Governance-Architektur. Sie arbeitet zusammen mit — nicht isoliert von — den anderen neun Schichten:
- Konfidenzschwellen — Ausgaben mit niedriger Konfidenz werden eskaliert, bevor sie Nutzer erreichen
- Genehmigungsgates — sensible Aktionen pausieren für menschliche Überprüfung
- PII-Erkennung — persönliche Informationen werden vor der LLM-Verarbeitung tokenisiert
- Vertrauenseskalation — Agenten verdienen Autonomie basierend auf Leistungshistorie
- Markenstimme-Governance — Ausgaben entsprechen organisatorischen Sprachrichtlinien
- Abteilungsbezogenes RBAC — 6 Rollen, 20 Berechtigungen, Abteilungsisolation
- Datenklassifizierung — das hier beschriebene 4-Stufen-Sensitivitätssystem
- Audit-Trails — jede Entscheidung mit voller Nachverfolgbarkeit protokolliert
- Qualitätsmonitoring — kontinuierliche Bewertung mit Drift-Erkennung
- Compliance-Kontrollen — 412 Richtlinien + 17 TSC-Kontrollen
Diese Schichten ergänzen sich. Eine Abfrage könnte Konfidenzschwellen bestehen, aber durch Datenklassifizierung gefiltert werden. Eine Ausgabe könnte Sensitivitätsprüfungen bestehen, aber an einem Genehmigungsgate gehalten werden. Defense in Depth bedeutet, dass keine einzelne Schicht die gesamte Last trägt.
Warum das jetzt wichtig ist
Da Organisationen AI über einfache Chatbots hinaus in abteilungsbezogene Workflows skalieren — Support-Triage, Vertriebsunterstützung, HR-Prozesse, Finanzanalyse automatisieren — werden die Daten, die durch diese Systeme fließen, zunehmend sensibler. Die Lücke zwischen “semantisch relevant” und “für diesen Nutzer autorisiert” wird zu einer Haftung.
Datenklassifizierung für AI-Workflows ist kein Nice-to-have. Sie ist der Unterschied zwischen einer AI-Plattform, der Sie echte Unternehmensdaten anvertrauen können, und einer, die auf öffentlich orientierte Anwendungsfälle beschränkt ist.
Erkunden Sie JieGous Governance-Stack | Erfahren Sie mehr über Wissensdatenbank-Management