问题:您的网站比 AI 知道更多
您的网站是公司最即时的信息来源 — 产品页面、定价、技术文档、客服文章、政策和博客。但您的 AI 工作流却无法访问这些内容。
团队只好用各种变通方法:
- 复制粘贴网页内容到文档中,但文档立刻就过时了
- 每当产品页面更新就得手动更新 FAQ 数据库
- 维护平行系统 — 一个给网站,另一个给 AI 知识库
结果就是 AI 总是给出过时的答案,因为它的知识库永远落后网站一步。
解决方案:自动化网站转知识库管线
JieGou 的网站爬取管线能将整个网站自动转换为可搜索的 AI 知识库。只需指向您的 sitemap、设定几条规则,其余全部自动化。
运作方式
1. Sitemap 发现
输入您的网站 URL。JieGou 会读取 sitemap.xml、解析 sitemap 索引文件和嵌套 sitemap,找到每个可索引的页面。如果没有 sitemap,会从首页开始以 URL 为基础进行发现。
2. 智能过滤
并非每个页面都需要放入知识库。设置排除规则(/admin/*、/staging/*、/tag/*)和深度限制来控制范围。爬取前的预估会显示确切页数和预计处理时间,让您确认后再开始。
3. 爬取与提取
页面以可配置的并发数量进行并行爬取。管线提取干净的文本内容 — 去除导航栏、页脚、Cookie 横幅和模板文字。对于 JavaScript 渲染的 SPA 应用,可选择启用 headless Chromium 在提取前先渲染页面。
4. 分段与嵌入
内容使用标题分割法搭配段落回退进行最佳分段。每个分段通过 OpenAI text-embedding-3-small 生成向量嵌入,直接存储在 Firestore 中 — 无需外部向量数据库。
5. 增量刷新
定时的重新爬取使用内容哈希值检查页面变更。只有实际变更的页面才会被重新处理,节省计算和嵌入成本。您的知识库无需人工干预即可保持最新。
6. 向量搜索就绪
您的知识库立即可供每个配方和工作流使用。Firestore 原生向量搜索搭配 Redis 缓存,即使在数千个页面中也能提供亚秒级检索。
为什么内置向量搜索很重要
大多数 AI 平台要求您设置和管理外部向量数据库 — Pinecone、Weaviate、Qdrant 或 ChromaDB。这意味着又一个要部署的服务、又一把要管理的 API 密钥、又一笔账单,以及又一个故障点。
JieGou 的向量搜索内置于 Firestore:
- 零基础设施 — 无需部署或管理外部向量数据库
- 混合检索 — 先进行向量相似度搜索,边缘案例使用暴力搜索 + Redis 缓存回退
- 亚秒级性能 — 700+ 文档的冷查询约 10 秒完成;通过 Redis 缓存的热查询在 1 秒内返回
- 逐文档缓存 — Redis 10 分钟 TTL 消除重复的嵌入查询
实际使用场景
客服:始终最新的 FAQ
客服团队的知识库自动反映最新的产品文档。当您更新网站上的帮助文章时,下一次爬取周期就会同步 — 无需手动导入。
销售:实时定价与功能数据
销售工作流参考最新的定价页面和功能比较表。当定价变更时,每份 AI 生成的提案都会自动使用新的数字。
工程:文档同步
内部 Wiki 和文档站点与公开文档一起被爬取。工程师用自然语言提问,获得以最新技术文档为基础的答案。
营销:内容智能
爬取您的博客和落地页面,建立内容知识库。AI 工作流在起草新文章时可以参考现有内容,确保一致性并避免重复主题。
方案层级限制
| 功能 | Starter | Team | Enterprise |
|---|---|---|---|
| 每次爬取最大页数 | 100 | 1,000 | 无限制 |
| 爬取频率 | 每周 | 每日 | 每小时 |
| JS 渲染 | — | ✓ | ✓ |
| 并发爬虫数 | 2 | 5 | 20 |
| 排除规则 | 3 | 10 | 无限制 |
开始使用
- 前往 知识 → 来源 → 添加网站
- 输入您的网站 URL
- 确认爬取前预估
- 点击 开始爬取
您的网站在几分钟内就能成为可搜索的知识库。每个配方和工作流都能立即引用它,提供具有上下文感知的 AI 响应。
查看使用案例详细指南了解带截图的逐步教程。