将网站转化为 AI 知识库 — 自动爬取、分段与搜索

问题：您的网站比 AI 知道更多

您的网站是公司最即时的信息来源 — 产品页面、定价、技术文档、客服文章、政策和博客。但您的 AI 工作流却无法访问这些内容。

团队只好用各种变通方法：

复制粘贴网页内容到文档中，但文档立刻就过时了
每当产品页面更新就得手动更新 FAQ 数据库
维护平行系统 — 一个给网站，另一个给 AI 知识库

结果就是 AI 总是给出过时的答案，因为它的知识库永远落后网站一步。

解决方案：自动化网站转知识库管线

JieGou 的网站爬取管线能将整个网站自动转换为可搜索的 AI 知识库。只需指向您的 sitemap、设定几条规则，其余全部自动化。

运作方式

1. Sitemap 发现

输入您的网站 URL。JieGou 会读取 sitemap.xml、解析 sitemap 索引文件和嵌套 sitemap，找到每个可索引的页面。如果没有 sitemap，会从首页开始以 URL 为基础进行发现。

2. 智能过滤

并非每个页面都需要放入知识库。设置排除规则（/admin/*、/staging/*、/tag/*）和深度限制来控制范围。爬取前的预估会显示确切页数和预计处理时间，让您确认后再开始。

3. 爬取与提取

页面以可配置的并发数量进行并行爬取。管线提取干净的文本内容 — 去除导航栏、页脚、Cookie 横幅和模板文字。对于 JavaScript 渲染的 SPA 应用，可选择启用 headless Chromium 在提取前先渲染页面。

4. 分段与嵌入

内容使用标题分割法搭配段落回退进行最佳分段。每个分段通过 OpenAI text-embedding-3-small 生成向量嵌入，直接存储在 Firestore 中 — 无需外部向量数据库。

5. 增量刷新

定时的重新爬取使用内容哈希值检查页面变更。只有实际变更的页面才会被重新处理，节省计算和嵌入成本。您的知识库无需人工干预即可保持最新。

6. 向量搜索就绪

您的知识库立即可供每个配方和工作流使用。Firestore 原生向量搜索搭配 Redis 缓存，即使在数千个页面中也能提供亚秒级检索。

为什么内置向量搜索很重要

大多数 AI 平台要求您设置和管理外部向量数据库 — Pinecone、Weaviate、Qdrant 或 ChromaDB。这意味着又一个要部署的服务、又一把要管理的 API 密钥、又一笔账单，以及又一个故障点。

JieGou 的向量搜索内置于 Firestore：

零基础设施 — 无需部署或管理外部向量数据库
混合检索 — 先进行向量相似度搜索，边缘案例使用暴力搜索 + Redis 缓存回退
亚秒级性能 — 700+ 文档的冷查询约 10 秒完成；通过 Redis 缓存的热查询在 1 秒内返回
逐文档缓存 — Redis 10 分钟 TTL 消除重复的嵌入查询

实际使用场景

客服：始终最新的 FAQ

客服团队的知识库自动反映最新的产品文档。当您更新网站上的帮助文章时，下一次爬取周期就会同步 — 无需手动导入。

销售：实时定价与功能数据

销售工作流参考最新的定价页面和功能比较表。当定价变更时，每份 AI 生成的提案都会自动使用新的数字。

工程：文档同步

内部 Wiki 和文档站点与公开文档一起被爬取。工程师用自然语言提问，获得以最新技术文档为基础的答案。

营销：内容智能

爬取您的博客和落地页面，建立内容知识库。AI 工作流在起草新文章时可以参考现有内容，确保一致性并避免重复主题。

方案层级限制

功能	Starter	Team	Enterprise
每次爬取最大页数	100	1,000	无限制
爬取频率	每周	每日	每小时
JS 渲染	—	✓	✓
并发爬虫数	2	5	20
排除规则	3	10	无限制

开始使用

前往 知识 → 来源 → 添加网站
输入您的网站 URL
确认爬取前预估
点击 开始爬取

您的网站在几分钟内就能成为可搜索的知识库。每个配方和工作流都能立即引用它，提供具有上下文感知的 AI 响应。

设置网站爬取 →

查看使用案例详细指南了解带截图的逐步教程。