Skip to content
工程

AI 工作流的資料分級:公開、內部、機密、限閱

LLM 不理解資料敏感度。若知識庫沒有分級標籤,AI 工作流會將所有內容一視同仁 — 將限閱資料洩漏到回覆中。以下是 JieGou 如何在 RAG 檢索層強制執行敏感度控制。

JT
JieGou Team
· · 4 分鐘閱讀

LLM 不知道什麼是機密

大型語言模型沒有資料敏感度的概念。將公開的行銷文案和限閱的董事會紀錄一起餵給 LLM,它會毫不猶豫地將兩者編織進回覆中。它不知道一份可以向全世界分享,而另一份僅限三位具名高層閱讀。

對於個人 AI 助手來說,這不成問題。但對企業 AI 工作流來說,這是嚴重的隱患。

當組織將知識庫連接到 AI — 客服 Agent 從內部文件取資料、業務助手參考定價策略、HR 機器人回答制度問題 — 每一段被檢索的內容都可能成為 LLM 的輸出。沒有資料分級,AI 能存取的和它應該存取的之間就沒有界限。

大多數 AI 平台完全忽略了這一點。它們連接到您的資料來源,檢索語意上相關的任何內容。但相關性不等於授權。

四個敏感度等級

JieGou 在每個知識庫上實施四級資料分級制度,符合廣泛採用的資訊安全框架:

公開(綠色)

可以與任何人分享的內容 — 客戶、合作夥伴、一般大眾。行銷素材、公開文件、已發布的部落格文章。無檢索限制。

內部(藍色)

供全公司閱覽的內容。內部流程文件、團隊手冊、一般公告。組織內任何已驗證身分的使用者都可透過 AI 工作流存取此類內容。

機密(琥珀色)

限於特定部門或團隊的內容。財務預測、競爭分析、產品路線圖、HR 調查。只有擁有對應部門權限的使用者才能從機密知識庫中檢索資料片段。

限閱(紅色)

限於具名個人的內容。董事會資料、併購文件、高層薪酬資料、法務保全資料。存取權按使用者個別授予。這是最高敏感度等級,檢索需要同時通過使用者身分驗證和明確的存取清單成員資格確認。

在 RAG 檢索層強制執行

這是關鍵的設計決策:JieGou 在內容到達 LLM 之前強制執行敏感度標籤,而非之後。

大多數嘗試資料治理的平台將其作為後處理過濾器 — LLM 使用所有可用上下文生成回覆,然後再由過濾器檢查輸出是否包含敏感資訊。這在根本上是有缺陷的。一旦限閱內容進入 LLM 的 context window,即使特定用語被移除,它仍會影響回覆。模型已經「看過」那些資料了。

JieGou 的做法不同。當 RAG 查詢執行時:

  1. 解析使用者身分 — 載入發出請求的使用者的角色、部門和明確授權
  2. 檢查知識庫敏感度標籤 — 每個連接的 KB 都有分級等級
  3. 執行檢索前過濾 — 超出使用者權限等級的知識庫片段完全排除在向量搜尋之外
  4. 僅已授權內容進入 context window — LLM 永遠不會看到它不該看的限閱資料

這意味著客服 Agent 查詢知識庫時,會檢索到公開和內部內容,但永遠不會看到機密的 HR 文件或限閱的董事會資料 — 即使這些文件在語意上與查詢相關。

敏感度過濾的稽核軌跡

每一次敏感度過濾事件都會記錄在 JieGou 的不可變稽核軌跡中:

  • 哪位使用者發起了查詢
  • 哪些知識庫被過濾排除及原因
  • 觸發排除的敏感度等級
  • 時間戳記和請求關聯 ID

這對合規至關重要。當稽核人員詢問「你們如何確保 AI 工作流不會暴露限閱資料?」時,答案不是一份政策文件 — 而是一份可查詢的每次強制執行動作的日誌。

其他平台如何處理

功能一般 AI 平台JieGou
資料分級標籤4 個等級(公開、內部、機密、限閱)
每個知識庫的敏感度設定不可用每個 KB 個別設定
檢索前過濾否 — 僅後處理是 — 片段在 LLM context 之前排除
使用者權限比對無使用者層級資料存取控制角色 + 部門 + 明確授權
敏感度稽核軌跡無日誌每次過濾事件的不可變日誌
具名個人存取清單不支援限閱等級支援

大多數平台將所有連接的資料視為同等可存取。有些提供基本的角色存取控制,但沒有任何平台在知識庫到 RAG 管線層級應用敏感度分級。

10 層治理堆疊的一環

資料分級是 JieGou 治理架構中的一層。它與其他九層協同運作,而非孤立存在:

  1. 信心度門檻 — 低信心度輸出在到達用戶前被升級
  2. 審核關卡 — 敏感操作暫停等待人工審核
  3. PII 偵測 — 個人資訊在 LLM 處理前被代碼化
  4. 信任升級 — Agent 根據表現歷史獲得自主權
  5. 品牌語調治理 — 輸出符合組織語調指南
  6. 部門範圍 RBAC — 6 個角色、20 個權限、部門隔離
  7. 資料分級 — 本文描述的四級敏感度制度
  8. 稽核軌跡 — 每個決策都有完整可追蹤紀錄
  9. 品質監控 — 持續評分並提供偏移偵測
  10. 合規控制 — 412 項政策 + 17 項 TSC 控制

這些層級相互組合。一個查詢可能通過信心度門檻但被資料分級過濾。一個輸出可能通過敏感度檢查但被審核關卡攔截。縱深防禦意味著沒有單一層級承擔全部負荷。

為什麼現在很重要

隨著組織將 AI 從簡單的聊天機器人擴展到部門工作流 — 自動化客服分類、業務賦能、HR 流程、財務分析 — 流經這些系統的資料變得越來越敏感。「語意相關」和「該使用者有權存取」之間的落差成為一種風險。

AI 工作流的資料分級不是錦上添花。它是決定一個 AI 平台能否被信任處理真正企業資料,還是只能用於面向公眾的場景之間的關鍵差異。

探索 JieGou 的治理堆疊 | 了解知識庫管理

data-classification governance knowledge-bases sensitivity compliance rag
分享這篇文章

喜歡這篇文章嗎?

在您的信箱中獲取工作流程技巧、產品更新和自動化指南。

No spam. Unsubscribe anytime.