將網站轉化為 AI 知識庫 — 自動爬取、分段與搜尋

問題：您的網站比 AI 知道更多

您的網站是公司最即時的真實資訊來源 — 產品頁面、定價、技術文件、客服文章、政策和部落格。但您的 AI 工作流程卻無法存取這些內容。

團隊只好用各種變通方法：

複製貼上網頁內容到文件中，但文件立刻就過時了
每當產品頁面更新就得手動更新 FAQ 資料庫
維護平行系統 — 一個給網站，另一個給 AI 知識庫

結果就是 AI 總是給出過時的答案，因為它的知識庫永遠落後網站一步。

解決方案：自動化網站轉知識庫管線

JieGou 的網站爬取管線能將整個網站自動轉換為可搜尋的 AI 知識庫。只需指向您的 sitemap、設定幾條規則，其餘全部自動化。

運作方式

1. Sitemap 探索

輸入您的網站 URL。JieGou 會讀取 sitemap.xml、解析 sitemap 索引檔和巢狀 sitemap，找到每個可索引的頁面。如果沒有 sitemap，會從首頁開始以 URL 為基礎進行探索。

2. 智慧過濾

並非每個頁面都需要放入知識庫。設定排除規則（/admin/*、/staging/*、/tag/*）和深度限制來控制範圍。爬取前的預估會顯示確切頁數和預計處理時間，讓您確認後再開始。

3. 爬取與擷取

頁面以可設定的並行數量進行平行爬取。管線擷取乾淨的文字內容 — 去除導航列、頁尾、Cookie 橫幅和樣板文字。對於 JavaScript 渲染的 SPA 應用，可選擇啟用 headless Chromium 在擷取前先渲染頁面。

4. 分段與嵌入

內容使用標題分割法搭配段落回退進行最佳分段。每個分段透過 OpenAI text-embedding-3-small 生成向量嵌入，直接儲存在 Firestore 中 — 無需外部向量資料庫。

5. 增量更新

排程的重新爬取使用內容雜湊值檢查頁面變更。只有實際變更的頁面才會被重新處理，節省運算和嵌入成本。您的知識庫無需人工介入即可保持最新。

6. 向量搜尋就緒

您的知識庫立即可供每個配方和工作流程使用。Firestore 原生向量搜尋搭配 Redis 快取，即使在數千個頁面中也能提供亞秒級檢索。

為什麼內建向量搜尋很重要

大多數 AI 平台要求您設定和管理外部向量資料庫 — Pinecone、Weaviate、Qdrant 或 ChromaDB。這代表又一個要部署的服務、又一把要管理的 API 金鑰、又一筆帳單，以及又一個故障點。

JieGou 的向量搜尋內建於 Firestore：

零基礎設施 — 無需部署或管理外部向量資料庫
混合檢索 — 先進行向量相似度搜尋，邊緣案例使用暴力搜尋 + Redis 快取回退
亞秒級效能 — 700+ 文件的冷查詢約 10 秒完成；透過 Redis 快取的暖查詢在 1 秒內回傳
逐文件快取 — Redis 10 分鐘 TTL 消除重複的嵌入查詢

實際使用情境

客服：始終最新的 FAQ

客服團隊的知識庫自動反映最新的產品文件。當您更新網站上的幫助文章時，下一次爬取週期就會同步 — 無需手動匯入。

業務：即時定價與功能資料

業務工作流程參考最新的定價頁面和功能比較表。當定價變更時，每份 AI 生成的提案都會自動使用新的數字。

工程：文件同步

內部 Wiki 和文件網站與公開文件一起被爬取。工程師用自然語言提問，獲得以最新技術文件為基礎的答案。

行銷：內容智慧

爬取您的部落格和著陸頁面，建立內容知識庫。AI 工作流程在起草新文章時可以參考現有內容，確保一致性並避免重複主題。

方案層級限制

功能	Starter	Team	Enterprise
每次爬取最大頁數	100	1,000	無限制
爬取頻率	每週	每日	每小時
JS 渲染	—	✓	✓
並行爬蟲數	2	5	20
排除規則	3	10	無限制

開始使用

前往 知識 → 來源 → 新增網站
輸入您的網站 URL
確認爬取前預估
點擊 開始爬取

您的網站在幾分鐘內就能成為可搜尋的知識庫。每個配方和工作流程都能立即引用它，提供具有上下文感知的 AI 回應。

設定網站爬取 →

查看使用案例詳細指南了解帶截圖的逐步教學。