缺乏公司情境的 AI 自动化只会产生通用的输出。您的 recipe 可以撰写出色的竞争分析——但它不知道您的产品名称。它可以草拟事故回应——但它完全不了解您的作业手册内容。它可以总结客户回馈——但无法参考您内部的分类体系。
Knowledge base 解决了这个问题。上传您的文件,JieGou 就会透过 Retrieval-Augmented Generation (RAG) 自动将相关内容注入每个 recipe 和 workflow 执行过程。
文件处理方式
上传以下任何格式的档案:PDF、DOCX、CSV、XLSX、TXT、Markdown、HTML。或直接从 URL 汇入。每次上传的档案大小上限为 10 MB,解析后的撷取内容上限为 1 MB。
上传后,文件会经过多阶段处理流程:
1. 分块。 文件采用双层策略进行分割。首先,系统会扫描 # 和 ## markdown 标题并在这些边界处分割——这保留了结构良好文件的逻辑架构。对于没有标题的非结构化文件,系统会退回到基于段落的分割方式。目标分块大小约为 40,000 个字元(约 10K token),最小为 4,000 个字元,以避免缺乏有用情境的碎片。
2. 摘要生成。 每个分块都会透过 Claude 取得一个 200-400 字的 LLM 生成摘要。这些摘要有两个用途:当 embedding 搜寻没有返回结果时提供备用情境,以及为检索系统提供每个分块内容的压缩表示。
3. Embedding。 每个分块使用 OpenAI text-embedding-3-small(1536 维度)进行 embedding。Embedding 与分块内容和中继资料一起储存在 Firestore 中——无需外部向量资料库。
执行时的检索运作方式
当 recipe 或 workflow 步骤执行时,系统会从您的 knowledge base 建立情境视窗:
- 从使用者的提示或步骤的输入生成查询 embedding
- 对相关 knowledge base 中的所有分块 embedding 执行 cosine 相似度搜寻
- 丢弃低于最小相似度阈值 0.3 的分块
- Top-k 选择在 token 预算内挑选最佳匹配——预设为 5 个分块,最多 8,000 token
- 选定的分块作为 XML
<reference_documents>区块注入 LLM 提示中 - 如果没有 embedding 符合阈值,系统会退回到基于摘要的情境
Embedding 储存在 Firestore 中,cosine 相似度在应用程式程式码中计算。没有外部向量资料库依赖。这是可行的,因为 token 预算限制了每次查询的文件数量——您永远不会搜寻数百万个向量,只是搜寻您帐户 knowledge base 中的文件。
三层情境解析
并非每次执行都需要相同的情境。JieGou 从三个来源解析 knowledge base 文件,并自动合并和去重:
| 层级 | 运作方式 | 使用时机 |
|---|---|---|
| 明确文件 ID | 执行时传递的特定文件 ID | 当您确切知道哪些文件相关时 |
| Recipe/workflow 附加 | 透过 recipe 或 workflow 上的 knowledgeBaseIds 栏位连结的 knowledge base | 当某些文件应该始终伴随特定 recipe 时 |
| 自动情境 | 标记为 isAutoContext: true 的 knowledge base,按部门范围限定 | 当文件应该对部门中的每次执行都可用时 |
自动情境是最强大的层级。将您的公司 wiki、产品文件或品牌指南标记为自动情境,该部门中的每个 recipe 都会在没有任何手动设定的情况下获得相关分块。
回馈驱动的相关性
Knowledge base 会随着时间变得更智慧。当使用者对执行品质给予按赞或按踩回馈时,系统会调整分块的相关性分数,用于未来的检索。
评分使用 Laplace 平滑:score = (ups + 1) / (ups + downs + 2)。这使每个分块从中性的 0.5 开始,并根据证据进行调整,避免小样本量产生极端分数。
产生的提升系数范围从 0.5 倍到 1.5 倍,储存在 Redis 中,TTL 为 7 天。持续出现在高品质执行中的分块会被提升。出现在低品质执行中的分块会被降级。随着时间推移,最有用的内容会更频繁地浮现,无需任何手动策展。
知识捕捉:从良好输出中学习
这是 knowledge base 成为飞轮的地方。当 recipe 执行获得正面回馈或在 JieGou 的 Quality Guard 中得分良好时,系统会自动从该输出中捕捉结构化知识。
LLM 会提取:
- 标题——对捕捉的知识的描述性名称
- 关键事实——重要的主张、决策或发现
- 实体——提到的人员、产品、公司和其他专有名词
- 主题标签——用于检索匹配的类别
提取的知识储存在专用的 「Auto-Captured Knowledge」 base 中,并设定 isAutoContext: true。同一部门的未来执行可以自动检索此知识。
结果是:您的 AI 系统实际上从自己的良好输出中学习。今天撰写良好的竞争分析,会成为明天策略简报的可检索情境。
文件新鲜度
从 URL 来源的文件可以设定 refreshIntervalDays 以进行自动重新抓取。当系统重新抓取文件时,它会计算 SHA-256 内容 hash 并与储存的 hash 进行比较。如果内容未更改,处理就会停止。
如果内容已更改,只会重新处理受影响的分块——增量生成新的 embedding 和摘要,而不是重新处理整个文件。这使您的 knowledge base 保持最新,而不会在未更改的内容上浪费运算资源。
Write-to-KB workflow 步骤
Workflow 可以使用专用的 Write-to-KB 步骤类型直接将输出写入 knowledge base。这使 workflow 能够随着时间累积知识。
客户支援分类 workflow 可能会解决工单,然后将解决方案摘要写入 knowledge base。下次出现类似工单时,解决方案就可作为 RAG 情境使用。每周市场研究 workflow 可能会将其发现附加到竞争情报 knowledge base 中,该 base 会随着每次执行而变得更丰富。
范围和存取控制
Knowledge base 按帐户范围限定,并可选择部门筛选。自动情境 knowledge base 尊重部门边界——工程部门的内部文件不会泄漏到行销部门的 recipe 执行中。
此范围限定在检索层强制执行。当三层情境解析执行时,自动情境 knowledge base 会在任何 embedding 搜寻发生之前,依执行使用者的部门进行筛选。
可用性
具有 RAG 的 knowledge base 适用于 Pro 方案及以上。自动捕捉的知识和 Write-to-KB workflow 步骤无需额外费用即可使用。了解更多所有功能 或 开始免费试用。