AI 工作流的数据分类：公开、内部、保密、受限

LLM 不知道什么是保密的

大型语言模型没有数据敏感性的概念。将公开的营销文案和受限的董事会会议纪要混合输入给 LLM，它会愉快地将两者编织进响应中。它不知道一个可以与世界分享，另一个仅限于三位指名的高管。

对于个人 AI 助手来说这没问题。对于企业 AI 工作流来说这是一个严重的问题。

当组织将知识库连接到 AI 时——客户支持 agent 从内部文档中提取信息、销售助手引用定价策略、HR 机器人回答政策问题——每条检索到的内容都成为潜在的 LLM 输出。没有数据分类，AI 可以访问什么和应该访问什么之间就没有边界。

大多数 AI 平台完全忽略了这一点。它们连接到您的数据源并检索语义上相关的任何内容。相关性不等于授权。

四个敏感级别

JieGou 在每个知识库上实施四级数据分类系统，与广泛采用的信息安全框架保持一致：

公开（绿色）

可以与任何人分享的内容——客户、合作伙伴、公众。营销材料、公开文档、已发布的博客文章。无检索限制。

内部（蓝色）

面向全公司的内容。内部流程文档、团队手册、通用公告。组织内任何经过认证的用户都可以通过 AI 工作流访问。

保密（琥珀色）

限制给特定部门或团队的内容。财务预测、竞争分析、产品路线图、人力资源调查。只有具有匹配部门访问权限的用户才能从保密知识库中检索内容块。

受限（红色）

限制给指名个人的内容。董事会材料、并购文件、高管薪酬数据、法律保留材料。访问权按用户显式授予。这是最高敏感级别，检索需要用户身份验证和显式访问列表成员资格。

在 RAG 检索层强制执行

关键的设计决策是：JieGou 在内容到达 LLM 之前强制执行敏感标签，而不是之后。

大多数尝试数据治理的平台将其作为后处理过滤器应用——LLM 使用所有可用上下文生成响应，然后过滤器检查输出是否包含敏感信息。这从根本上是错误的。一旦受限内容进入 LLM 的上下文窗口，它就会影响响应，即使特定短语被剥离。模型已经”看到”了数据。

JieGou 的方法不同。当 RAG 查询执行时：

解析用户身份 —— 加载请求用户的角色、部门和显式访问授权
检查知识库敏感标签 —— 每个连接的知识库都有分类级别
预检索过滤发生 —— 用户许可级别以上知识库的内容块被完全排除在向量搜索之外
只有已清除的内容进入上下文窗口 —— LLM 永远看不到不应该看到的受限数据

这意味着查询知识库的支持 agent 将检索公开和内部内容，但永远不会看到保密的人力资源文件或受限的董事会材料——即使这些文档与查询在语义上相关。

敏感过滤的审计追踪

每个敏感过滤事件都记录在 JieGou 的不可变审计追踪中：

哪个用户发起了查询
哪些知识库被过滤以及原因
触发排除的敏感级别
时间戳和请求关联 ID

这对合规很重要。当审计师问”您如何确保 AI 工作流不暴露受限数据？“时，答案不是策略文档——而是每次强制执行操作的可查询日志。

其他平台如何处理

能力	典型 AI 平台	JieGou
数据分类标签	无	4 个级别（公开、内部、保密、受限）
按知识库的敏感性	不可用	按知识库配置
预检索过滤	否——仅后处理	是——内容块在 LLM 上下文之前排除
用户许可匹配	无用户级数据访问控制	角色 + 部门 + 显式授权
敏感审计追踪	无日志	每次过滤事件的不可变日志
指名个人访问列表	不支持	在受限级别支持

大多数平台将所有连接的数据视为同等可访问。一些提供基本的基于角色的整体功能访问，但没有一个在知识库到 RAG 管道级别应用敏感分类。

10 层治理体系的一部分

数据分类是 JieGou 治理架构中的一层。它与其他九层协同工作——不是孤立运作：

置信度阈值 —— 低置信度输出在到达用户之前被升级
审批门 —— 敏感操作暂停等待人工审核
PII 检测 —— 个人信息在 LLM 处理前被令牌化
信任升级 —— agent 根据表现历史获得自主权
品牌语音治理 —— 输出符合组织语音指南
部门范围 RBAC —— 6 个角色、20 项权限、部门隔离
数据分类 —— 此处描述的 4 级敏感系统
审计追踪 —— 每个决策带完整可追溯性的日志
质量监控 —— 持续评分与漂移检测
合规控制 —— 412 项策略 + 17 项 TSC 控制

这些层相互组合。一个查询可能通过置信度阈值但被数据分类过滤。一个输出可能通过敏感检查但在审批门被拦截。纵深防御意味着没有单一层承担全部负担。

为什么现在很重要

随着组织将 AI 从简单聊天机器人扩展到部门工作流——自动化支持分类、销售赋能、人力资源流程、财务分析——流经这些系统的数据变得越来越敏感。“语义相关”和”对此用户授权”之间的差距成为负债。

AI 工作流的数据分类不是锦上添花。它是您可以信任真实企业数据的 AI 平台和仅限于面向公众用例的平台之间的区别。

探索 JieGou 的治理体系 | 了解知识库管理