LLM 不知道什麼是機密
大型語言模型沒有資料敏感度的概念。將公開的行銷文案和限閱的董事會紀錄一起餵給 LLM,它會毫不猶豫地將兩者編織進回覆中。它不知道一份可以向全世界分享,而另一份僅限三位具名高層閱讀。
對於個人 AI 助手來說,這不成問題。但對企業 AI 工作流來說,這是嚴重的隱患。
當組織將知識庫連接到 AI — 客服 Agent 從內部文件取資料、業務助手參考定價策略、HR 機器人回答制度問題 — 每一段被檢索的內容都可能成為 LLM 的輸出。沒有資料分級,AI 能存取的和它應該存取的之間就沒有界限。
大多數 AI 平台完全忽略了這一點。它們連接到您的資料來源,檢索語意上相關的任何內容。但相關性不等於授權。
四個敏感度等級
JieGou 在每個知識庫上實施四級資料分級制度,符合廣泛採用的資訊安全框架:
公開(綠色)
可以與任何人分享的內容 — 客戶、合作夥伴、一般大眾。行銷素材、公開文件、已發布的部落格文章。無檢索限制。
內部(藍色)
供全公司閱覽的內容。內部流程文件、團隊手冊、一般公告。組織內任何已驗證身分的使用者都可透過 AI 工作流存取此類內容。
機密(琥珀色)
限於特定部門或團隊的內容。財務預測、競爭分析、產品路線圖、HR 調查。只有擁有對應部門權限的使用者才能從機密知識庫中檢索資料片段。
限閱(紅色)
限於具名個人的內容。董事會資料、併購文件、高層薪酬資料、法務保全資料。存取權按使用者個別授予。這是最高敏感度等級,檢索需要同時通過使用者身分驗證和明確的存取清單成員資格確認。
在 RAG 檢索層強制執行
這是關鍵的設計決策:JieGou 在內容到達 LLM 之前強制執行敏感度標籤,而非之後。
大多數嘗試資料治理的平台將其作為後處理過濾器 — LLM 使用所有可用上下文生成回覆,然後再由過濾器檢查輸出是否包含敏感資訊。這在根本上是有缺陷的。一旦限閱內容進入 LLM 的 context window,即使特定用語被移除,它仍會影響回覆。模型已經「看過」那些資料了。
JieGou 的做法不同。當 RAG 查詢執行時:
- 解析使用者身分 — 載入發出請求的使用者的角色、部門和明確授權
- 檢查知識庫敏感度標籤 — 每個連接的 KB 都有分級等級
- 執行檢索前過濾 — 超出使用者權限等級的知識庫片段完全排除在向量搜尋之外
- 僅已授權內容進入 context window — LLM 永遠不會看到它不該看的限閱資料
這意味著客服 Agent 查詢知識庫時,會檢索到公開和內部內容,但永遠不會看到機密的 HR 文件或限閱的董事會資料 — 即使這些文件在語意上與查詢相關。
敏感度過濾的稽核軌跡
每一次敏感度過濾事件都會記錄在 JieGou 的不可變稽核軌跡中:
- 哪位使用者發起了查詢
- 哪些知識庫被過濾排除及原因
- 觸發排除的敏感度等級
- 時間戳記和請求關聯 ID
這對合規至關重要。當稽核人員詢問「你們如何確保 AI 工作流不會暴露限閱資料?」時,答案不是一份政策文件 — 而是一份可查詢的每次強制執行動作的日誌。
其他平台如何處理
| 功能 | 一般 AI 平台 | JieGou |
|---|---|---|
| 資料分級標籤 | 無 | 4 個等級(公開、內部、機密、限閱) |
| 每個知識庫的敏感度設定 | 不可用 | 每個 KB 個別設定 |
| 檢索前過濾 | 否 — 僅後處理 | 是 — 片段在 LLM context 之前排除 |
| 使用者權限比對 | 無使用者層級資料存取控制 | 角色 + 部門 + 明確授權 |
| 敏感度稽核軌跡 | 無日誌 | 每次過濾事件的不可變日誌 |
| 具名個人存取清單 | 不支援 | 限閱等級支援 |
大多數平台將所有連接的資料視為同等可存取。有些提供基本的角色存取控制,但沒有任何平台在知識庫到 RAG 管線層級應用敏感度分級。
10 層治理堆疊的一環
資料分級是 JieGou 治理架構中的一層。它與其他九層協同運作,而非孤立存在:
- 信心度門檻 — 低信心度輸出在到達用戶前被升級
- 審核關卡 — 敏感操作暫停等待人工審核
- PII 偵測 — 個人資訊在 LLM 處理前被代碼化
- 信任升級 — Agent 根據表現歷史獲得自主權
- 品牌語調治理 — 輸出符合組織語調指南
- 部門範圍 RBAC — 6 個角色、20 個權限、部門隔離
- 資料分級 — 本文描述的四級敏感度制度
- 稽核軌跡 — 每個決策都有完整可追蹤紀錄
- 品質監控 — 持續評分並提供偏移偵測
- 合規控制 — 412 項政策 + 17 項 TSC 控制
這些層級相互組合。一個查詢可能通過信心度門檻但被資料分級過濾。一個輸出可能通過敏感度檢查但被審核關卡攔截。縱深防禦意味著沒有單一層級承擔全部負荷。
為什麼現在很重要
隨著組織將 AI 從簡單的聊天機器人擴展到部門工作流 — 自動化客服分類、業務賦能、HR 流程、財務分析 — 流經這些系統的資料變得越來越敏感。「語意相關」和「該使用者有權存取」之間的落差成為一種風險。
AI 工作流的資料分級不是錦上添花。它是決定一個 AI 平台能否被信任處理真正企業資料,還是只能用於面向公眾的場景之間的關鍵差異。