AI 工作流的資料分級：公開、內部、機密、限閱

LLM 不知道什麼是機密

大型語言模型沒有資料敏感度的概念。將公開的行銷文案和限閱的董事會紀錄一起餵給 LLM，它會毫不猶豫地將兩者編織進回覆中。它不知道一份可以向全世界分享，而另一份僅限三位具名高層閱讀。

對於個人 AI 助手來說，這不成問題。但對企業 AI 工作流來說，這是嚴重的隱患。

當組織將知識庫連接到 AI — 客服 Agent 從內部文件取資料、業務助手參考定價策略、HR 機器人回答制度問題 — 每一段被檢索的內容都可能成為 LLM 的輸出。沒有資料分級，AI 能存取的和它應該存取的之間就沒有界限。

大多數 AI 平台完全忽略了這一點。它們連接到您的資料來源，檢索語意上相關的任何內容。但相關性不等於授權。

四個敏感度等級

JieGou 在每個知識庫上實施四級資料分級制度，符合廣泛採用的資訊安全框架：

公開（綠色）

可以與任何人分享的內容 — 客戶、合作夥伴、一般大眾。行銷素材、公開文件、已發布的部落格文章。無檢索限制。

內部（藍色）

供全公司閱覽的內容。內部流程文件、團隊手冊、一般公告。組織內任何已驗證身分的使用者都可透過 AI 工作流存取此類內容。

機密（琥珀色）

限於特定部門或團隊的內容。財務預測、競爭分析、產品路線圖、HR 調查。只有擁有對應部門權限的使用者才能從機密知識庫中檢索資料片段。

限閱（紅色）

限於具名個人的內容。董事會資料、併購文件、高層薪酬資料、法務保全資料。存取權按使用者個別授予。這是最高敏感度等級，檢索需要同時通過使用者身分驗證和明確的存取清單成員資格確認。

在 RAG 檢索層強制執行

這是關鍵的設計決策：JieGou 在內容到達 LLM 之前強制執行敏感度標籤，而非之後。

大多數嘗試資料治理的平台將其作為後處理過濾器 — LLM 使用所有可用上下文生成回覆，然後再由過濾器檢查輸出是否包含敏感資訊。這在根本上是有缺陷的。一旦限閱內容進入 LLM 的 context window，即使特定用語被移除，它仍會影響回覆。模型已經「看過」那些資料了。

JieGou 的做法不同。當 RAG 查詢執行時：

解析使用者身分 — 載入發出請求的使用者的角色、部門和明確授權
檢查知識庫敏感度標籤 — 每個連接的 KB 都有分級等級
執行檢索前過濾 — 超出使用者權限等級的知識庫片段完全排除在向量搜尋之外
僅已授權內容進入 context window — LLM 永遠不會看到它不該看的限閱資料

這意味著客服 Agent 查詢知識庫時，會檢索到公開和內部內容，但永遠不會看到機密的 HR 文件或限閱的董事會資料 — 即使這些文件在語意上與查詢相關。

敏感度過濾的稽核軌跡

每一次敏感度過濾事件都會記錄在 JieGou 的不可變稽核軌跡中：

哪位使用者發起了查詢
哪些知識庫被過濾排除及原因
觸發排除的敏感度等級
時間戳記和請求關聯 ID

這對合規至關重要。當稽核人員詢問「你們如何確保 AI 工作流不會暴露限閱資料？」時，答案不是一份政策文件 — 而是一份可查詢的每次強制執行動作的日誌。

其他平台如何處理

功能	一般 AI 平台	JieGou
資料分級標籤	無	4 個等級（公開、內部、機密、限閱）
每個知識庫的敏感度設定	不可用	每個 KB 個別設定
檢索前過濾	否 — 僅後處理	是 — 片段在 LLM context 之前排除
使用者權限比對	無使用者層級資料存取控制	角色 + 部門 + 明確授權
敏感度稽核軌跡	無日誌	每次過濾事件的不可變日誌
具名個人存取清單	不支援	限閱等級支援

大多數平台將所有連接的資料視為同等可存取。有些提供基本的角色存取控制，但沒有任何平台在知識庫到 RAG 管線層級應用敏感度分級。

10 層治理堆疊的一環

資料分級是 JieGou 治理架構中的一層。它與其他九層協同運作，而非孤立存在：

信心度門檻 — 低信心度輸出在到達用戶前被升級
審核關卡 — 敏感操作暫停等待人工審核
PII 偵測 — 個人資訊在 LLM 處理前被代碼化
信任升級 — Agent 根據表現歷史獲得自主權
品牌語調治理 — 輸出符合組織語調指南
部門範圍 RBAC — 6 個角色、20 個權限、部門隔離
資料分級 — 本文描述的四級敏感度制度
稽核軌跡 — 每個決策都有完整可追蹤紀錄
品質監控 — 持續評分並提供偏移偵測
合規控制 — 412 項政策 + 17 項 TSC 控制

這些層級相互組合。一個查詢可能通過信心度門檻但被資料分級過濾。一個輸出可能通過敏感度檢查但被審核關卡攔截。縱深防禦意味著沒有單一層級承擔全部負荷。

為什麼現在很重要

隨著組織將 AI 從簡單的聊天機器人擴展到部門工作流 — 自動化客服分類、業務賦能、HR 流程、財務分析 — 流經這些系統的資料變得越來越敏感。「語意相關」和「該使用者有權存取」之間的落差成為一種風險。

AI 工作流的資料分級不是錦上添花。它是決定一個 AI 平台能否被信任處理真正企業資料，還是只能用於面向公眾的場景之間的關鍵差異。

探索 JieGou 的治理堆疊 | 了解知識庫管理