Skip to content
應用案例

將網站轉化為 AI 知識庫 — 自動爬取、分段與搜尋

將 JieGou 指向您的 sitemap,整個網站就能在幾分鐘內成為可搜尋的 AI 知識庫。Sitemap 探索、智慧過濾、增量更新,以及內建 Firestore 向量搜尋 — 無需外部向量資料庫。

JT
JieGou Team
· · 3 分鐘閱讀

問題:您的網站比 AI 知道更多

您的網站是公司最即時的真實資訊來源 — 產品頁面、定價、技術文件、客服文章、政策和部落格。但您的 AI 工作流程卻無法存取這些內容。

團隊只好用各種變通方法:

  • 複製貼上網頁內容到文件中,但文件立刻就過時了
  • 每當產品頁面更新就得手動更新 FAQ 資料庫
  • 維護平行系統 — 一個給網站,另一個給 AI 知識庫

結果就是 AI 總是給出過時的答案,因為它的知識庫永遠落後網站一步。

解決方案:自動化網站轉知識庫管線

JieGou 的網站爬取管線能將整個網站自動轉換為可搜尋的 AI 知識庫。只需指向您的 sitemap、設定幾條規則,其餘全部自動化。

運作方式

1. Sitemap 探索

輸入您的網站 URL。JieGou 會讀取 sitemap.xml、解析 sitemap 索引檔和巢狀 sitemap,找到每個可索引的頁面。如果沒有 sitemap,會從首頁開始以 URL 為基礎進行探索。

2. 智慧過濾

並非每個頁面都需要放入知識庫。設定排除規則(/admin/*/staging/*/tag/*)和深度限制來控制範圍。爬取前的預估會顯示確切頁數和預計處理時間,讓您確認後再開始。

3. 爬取與擷取

頁面以可設定的並行數量進行平行爬取。管線擷取乾淨的文字內容 — 去除導航列、頁尾、Cookie 橫幅和樣板文字。對於 JavaScript 渲染的 SPA 應用,可選擇啟用 headless Chromium 在擷取前先渲染頁面。

4. 分段與嵌入

內容使用標題分割法搭配段落回退進行最佳分段。每個分段透過 OpenAI text-embedding-3-small 生成向量嵌入,直接儲存在 Firestore 中 — 無需外部向量資料庫。

5. 增量更新

排程的重新爬取使用內容雜湊值檢查頁面變更。只有實際變更的頁面才會被重新處理,節省運算和嵌入成本。您的知識庫無需人工介入即可保持最新。

6. 向量搜尋就緒

您的知識庫立即可供每個配方和工作流程使用。Firestore 原生向量搜尋搭配 Redis 快取,即使在數千個頁面中也能提供亞秒級檢索。

為什麼內建向量搜尋很重要

大多數 AI 平台要求您設定和管理外部向量資料庫 — Pinecone、Weaviate、Qdrant 或 ChromaDB。這代表又一個要部署的服務、又一把要管理的 API 金鑰、又一筆帳單,以及又一個故障點。

JieGou 的向量搜尋內建於 Firestore:

  • 零基礎設施 — 無需部署或管理外部向量資料庫
  • 混合檢索 — 先進行向量相似度搜尋,邊緣案例使用暴力搜尋 + Redis 快取回退
  • 亞秒級效能 — 700+ 文件的冷查詢約 10 秒完成;透過 Redis 快取的暖查詢在 1 秒內回傳
  • 逐文件快取 — Redis 10 分鐘 TTL 消除重複的嵌入查詢

實際使用情境

客服:始終最新的 FAQ

客服團隊的知識庫自動反映最新的產品文件。當您更新網站上的幫助文章時,下一次爬取週期就會同步 — 無需手動匯入。

業務:即時定價與功能資料

業務工作流程參考最新的定價頁面和功能比較表。當定價變更時,每份 AI 生成的提案都會自動使用新的數字。

工程:文件同步

內部 Wiki 和文件網站與公開文件一起被爬取。工程師用自然語言提問,獲得以最新技術文件為基礎的答案。

行銷:內容智慧

爬取您的部落格和著陸頁面,建立內容知識庫。AI 工作流程在起草新文章時可以參考現有內容,確保一致性並避免重複主題。

方案層級限制

功能StarterTeamEnterprise
每次爬取最大頁數1001,000無限制
爬取頻率每週每日每小時
JS 渲染
並行爬蟲數2520
排除規則310無限制

開始使用

  1. 前往 知識 → 來源 → 新增網站
  2. 輸入您的網站 URL
  3. 確認爬取前預估
  4. 點擊 開始爬取

您的網站在幾分鐘內就能成為可搜尋的知識庫。每個配方和工作流程都能立即引用它,提供具有上下文感知的 AI 回應。

設定網站爬取 →

查看使用案例詳細指南了解帶截圖的逐步教學。

knowledge-base website-crawl vector-search RAG automation
分享這篇文章

喜歡這篇文章嗎?

在您的信箱中獲取工作流程技巧、產品更新和自動化指南。

No spam. Unsubscribe anytime.