Skip to content
工程

AI 工作流的数据分类:公开、内部、保密、受限

LLM 不理解数据敏感性。如果知识库没有分类标签,AI 工作流会平等对待所有内容——将受限数据泄露到响应中。以下是 JieGou 如何在 RAG 检索层强制执行敏感性。

JT
JieGou Team
· · 4 分钟阅读

LLM 不知道什么是保密的

大型语言模型没有数据敏感性的概念。将公开的营销文案和受限的董事会会议纪要混合输入给 LLM,它会愉快地将两者编织进响应中。它不知道一个可以与世界分享,另一个仅限于三位指名的高管。

对于个人 AI 助手来说这没问题。对于企业 AI 工作流来说这是一个严重的问题。

当组织将知识库连接到 AI 时——客户支持 agent 从内部文档中提取信息、销售助手引用定价策略、HR 机器人回答政策问题——每条检索到的内容都成为潜在的 LLM 输出。没有数据分类,AI 可以访问什么和应该访问什么之间就没有边界。

大多数 AI 平台完全忽略了这一点。它们连接到您的数据源并检索语义上相关的任何内容。相关性不等于授权。

四个敏感级别

JieGou 在每个知识库上实施四级数据分类系统,与广泛采用的信息安全框架保持一致:

公开(绿色)

可以与任何人分享的内容——客户、合作伙伴、公众。营销材料、公开文档、已发布的博客文章。无检索限制。

内部(蓝色)

面向全公司的内容。内部流程文档、团队手册、通用公告。组织内任何经过认证的用户都可以通过 AI 工作流访问。

保密(琥珀色)

限制给特定部门或团队的内容。财务预测、竞争分析、产品路线图、人力资源调查。只有具有匹配部门访问权限的用户才能从保密知识库中检索内容块。

受限(红色)

限制给指名个人的内容。董事会材料、并购文件、高管薪酬数据、法律保留材料。访问权按用户显式授予。这是最高敏感级别,检索需要用户身份验证和显式访问列表成员资格。

在 RAG 检索层强制执行

关键的设计决策是:JieGou 在内容到达 LLM 之前强制执行敏感标签,而不是之后。

大多数尝试数据治理的平台将其作为后处理过滤器应用——LLM 使用所有可用上下文生成响应,然后过滤器检查输出是否包含敏感信息。这从根本上是错误的。一旦受限内容进入 LLM 的上下文窗口,它就会影响响应,即使特定短语被剥离。模型已经”看到”了数据。

JieGou 的方法不同。当 RAG 查询执行时:

  1. 解析用户身份 —— 加载请求用户的角色、部门和显式访问授权
  2. 检查知识库敏感标签 —— 每个连接的知识库都有分类级别
  3. 预检索过滤发生 —— 用户许可级别以上知识库的内容块被完全排除在向量搜索之外
  4. 只有已清除的内容进入上下文窗口 —— LLM 永远看不到不应该看到的受限数据

这意味着查询知识库的支持 agent 将检索公开和内部内容,但永远不会看到保密的人力资源文件或受限的董事会材料——即使这些文档与查询在语义上相关。

敏感过滤的审计追踪

每个敏感过滤事件都记录在 JieGou 的不可变审计追踪中:

  • 哪个用户发起了查询
  • 哪些知识库被过滤以及原因
  • 触发排除的敏感级别
  • 时间戳和请求关联 ID

这对合规很重要。当审计师问”您如何确保 AI 工作流不暴露受限数据?“时,答案不是策略文档——而是每次强制执行操作的可查询日志。

其他平台如何处理

能力典型 AI 平台JieGou
数据分类标签4 个级别(公开、内部、保密、受限)
按知识库的敏感性不可用按知识库配置
预检索过滤否——仅后处理是——内容块在 LLM 上下文之前排除
用户许可匹配无用户级数据访问控制角色 + 部门 + 显式授权
敏感审计追踪无日志每次过滤事件的不可变日志
指名个人访问列表不支持在受限级别支持

大多数平台将所有连接的数据视为同等可访问。一些提供基本的基于角色的整体功能访问,但没有一个在知识库到 RAG 管道级别应用敏感分类。

10 层治理体系的一部分

数据分类是 JieGou 治理架构中的一层。它与其他九层协同工作——不是孤立运作:

  1. 置信度阈值 —— 低置信度输出在到达用户之前被升级
  2. 审批门 —— 敏感操作暂停等待人工审核
  3. PII 检测 —— 个人信息在 LLM 处理前被令牌化
  4. 信任升级 —— agent 根据表现历史获得自主权
  5. 品牌语音治理 —— 输出符合组织语音指南
  6. 部门范围 RBAC —— 6 个角色、20 项权限、部门隔离
  7. 数据分类 —— 此处描述的 4 级敏感系统
  8. 审计追踪 —— 每个决策带完整可追溯性的日志
  9. 质量监控 —— 持续评分与漂移检测
  10. 合规控制 —— 412 项策略 + 17 项 TSC 控制

这些层相互组合。一个查询可能通过置信度阈值但被数据分类过滤。一个输出可能通过敏感检查但在审批门被拦截。纵深防御意味着没有单一层承担全部负担。

为什么现在很重要

随着组织将 AI 从简单聊天机器人扩展到部门工作流——自动化支持分类、销售赋能、人力资源流程、财务分析——流经这些系统的数据变得越来越敏感。“语义相关”和”对此用户授权”之间的差距成为负债。

AI 工作流的数据分类不是锦上添花。它是您可以信任真实企业数据的 AI 平台和仅限于面向公众用例的平台之间的区别。

探索 JieGou 的治理体系 | 了解知识库管理

data-classification governance knowledge-bases sensitivity compliance rag
分享这篇文章

喜欢这篇文章吗?

在您的信箱中获取工作流程技巧、产品更新和自动化指南。

No spam. Unsubscribe anytime.