Skip to content
应用案例

将网站转化为 AI 知识库 — 自动爬取、分段与搜索

将 JieGou 指向您的 sitemap,整个网站就能在几分钟内成为可搜索的 AI 知识库。Sitemap 发现、智能过滤、增量刷新,以及内置 Firestore 向量搜索 — 无需外部向量数据库。

JT
JieGou Team
· · 3 分钟阅读

问题:您的网站比 AI 知道更多

您的网站是公司最即时的信息来源 — 产品页面、定价、技术文档、客服文章、政策和博客。但您的 AI 工作流却无法访问这些内容。

团队只好用各种变通方法:

  • 复制粘贴网页内容到文档中,但文档立刻就过时了
  • 每当产品页面更新就得手动更新 FAQ 数据库
  • 维护平行系统 — 一个给网站,另一个给 AI 知识库

结果就是 AI 总是给出过时的答案,因为它的知识库永远落后网站一步。

解决方案:自动化网站转知识库管线

JieGou 的网站爬取管线能将整个网站自动转换为可搜索的 AI 知识库。只需指向您的 sitemap、设定几条规则,其余全部自动化。

运作方式

1. Sitemap 发现

输入您的网站 URL。JieGou 会读取 sitemap.xml、解析 sitemap 索引文件和嵌套 sitemap,找到每个可索引的页面。如果没有 sitemap,会从首页开始以 URL 为基础进行发现。

2. 智能过滤

并非每个页面都需要放入知识库。设置排除规则(/admin/*/staging/*/tag/*)和深度限制来控制范围。爬取前的预估会显示确切页数和预计处理时间,让您确认后再开始。

3. 爬取与提取

页面以可配置的并发数量进行并行爬取。管线提取干净的文本内容 — 去除导航栏、页脚、Cookie 横幅和模板文字。对于 JavaScript 渲染的 SPA 应用,可选择启用 headless Chromium 在提取前先渲染页面。

4. 分段与嵌入

内容使用标题分割法搭配段落回退进行最佳分段。每个分段通过 OpenAI text-embedding-3-small 生成向量嵌入,直接存储在 Firestore 中 — 无需外部向量数据库。

5. 增量刷新

定时的重新爬取使用内容哈希值检查页面变更。只有实际变更的页面才会被重新处理,节省计算和嵌入成本。您的知识库无需人工干预即可保持最新。

6. 向量搜索就绪

您的知识库立即可供每个配方和工作流使用。Firestore 原生向量搜索搭配 Redis 缓存,即使在数千个页面中也能提供亚秒级检索。

为什么内置向量搜索很重要

大多数 AI 平台要求您设置和管理外部向量数据库 — Pinecone、Weaviate、Qdrant 或 ChromaDB。这意味着又一个要部署的服务、又一把要管理的 API 密钥、又一笔账单,以及又一个故障点。

JieGou 的向量搜索内置于 Firestore:

  • 零基础设施 — 无需部署或管理外部向量数据库
  • 混合检索 — 先进行向量相似度搜索,边缘案例使用暴力搜索 + Redis 缓存回退
  • 亚秒级性能 — 700+ 文档的冷查询约 10 秒完成;通过 Redis 缓存的热查询在 1 秒内返回
  • 逐文档缓存 — Redis 10 分钟 TTL 消除重复的嵌入查询

实际使用场景

客服:始终最新的 FAQ

客服团队的知识库自动反映最新的产品文档。当您更新网站上的帮助文章时,下一次爬取周期就会同步 — 无需手动导入。

销售:实时定价与功能数据

销售工作流参考最新的定价页面和功能比较表。当定价变更时,每份 AI 生成的提案都会自动使用新的数字。

工程:文档同步

内部 Wiki 和文档站点与公开文档一起被爬取。工程师用自然语言提问,获得以最新技术文档为基础的答案。

营销:内容智能

爬取您的博客和落地页面,建立内容知识库。AI 工作流在起草新文章时可以参考现有内容,确保一致性并避免重复主题。

方案层级限制

功能StarterTeamEnterprise
每次爬取最大页数1001,000无限制
爬取频率每周每日每小时
JS 渲染
并发爬虫数2520
排除规则310无限制

开始使用

  1. 前往 知识 → 来源 → 添加网站
  2. 输入您的网站 URL
  3. 确认爬取前预估
  4. 点击 开始爬取

您的网站在几分钟内就能成为可搜索的知识库。每个配方和工作流都能立即引用它,提供具有上下文感知的 AI 响应。

设置网站爬取 →

查看使用案例详细指南了解带截图的逐步教程。

knowledge-base website-crawl vector-search RAG automation
分享这篇文章

喜欢这篇文章吗?

在您的信箱中获取工作流程技巧、产品更新和自动化指南。

No spam. Unsubscribe anytime.