問題:您的網站比 AI 知道更多
您的網站是公司最即時的真實資訊來源 — 產品頁面、定價、技術文件、客服文章、政策和部落格。但您的 AI 工作流程卻無法存取這些內容。
團隊只好用各種變通方法:
- 複製貼上網頁內容到文件中,但文件立刻就過時了
- 每當產品頁面更新就得手動更新 FAQ 資料庫
- 維護平行系統 — 一個給網站,另一個給 AI 知識庫
結果就是 AI 總是給出過時的答案,因為它的知識庫永遠落後網站一步。
解決方案:自動化網站轉知識庫管線
JieGou 的網站爬取管線能將整個網站自動轉換為可搜尋的 AI 知識庫。只需指向您的 sitemap、設定幾條規則,其餘全部自動化。
運作方式
1. Sitemap 探索
輸入您的網站 URL。JieGou 會讀取 sitemap.xml、解析 sitemap 索引檔和巢狀 sitemap,找到每個可索引的頁面。如果沒有 sitemap,會從首頁開始以 URL 為基礎進行探索。
2. 智慧過濾
並非每個頁面都需要放入知識庫。設定排除規則(/admin/*、/staging/*、/tag/*)和深度限制來控制範圍。爬取前的預估會顯示確切頁數和預計處理時間,讓您確認後再開始。
3. 爬取與擷取
頁面以可設定的並行數量進行平行爬取。管線擷取乾淨的文字內容 — 去除導航列、頁尾、Cookie 橫幅和樣板文字。對於 JavaScript 渲染的 SPA 應用,可選擇啟用 headless Chromium 在擷取前先渲染頁面。
4. 分段與嵌入
內容使用標題分割法搭配段落回退進行最佳分段。每個分段透過 OpenAI text-embedding-3-small 生成向量嵌入,直接儲存在 Firestore 中 — 無需外部向量資料庫。
5. 增量更新
排程的重新爬取使用內容雜湊值檢查頁面變更。只有實際變更的頁面才會被重新處理,節省運算和嵌入成本。您的知識庫無需人工介入即可保持最新。
6. 向量搜尋就緒
您的知識庫立即可供每個配方和工作流程使用。Firestore 原生向量搜尋搭配 Redis 快取,即使在數千個頁面中也能提供亞秒級檢索。
為什麼內建向量搜尋很重要
大多數 AI 平台要求您設定和管理外部向量資料庫 — Pinecone、Weaviate、Qdrant 或 ChromaDB。這代表又一個要部署的服務、又一把要管理的 API 金鑰、又一筆帳單,以及又一個故障點。
JieGou 的向量搜尋內建於 Firestore:
- 零基礎設施 — 無需部署或管理外部向量資料庫
- 混合檢索 — 先進行向量相似度搜尋,邊緣案例使用暴力搜尋 + Redis 快取回退
- 亞秒級效能 — 700+ 文件的冷查詢約 10 秒完成;透過 Redis 快取的暖查詢在 1 秒內回傳
- 逐文件快取 — Redis 10 分鐘 TTL 消除重複的嵌入查詢
實際使用情境
客服:始終最新的 FAQ
客服團隊的知識庫自動反映最新的產品文件。當您更新網站上的幫助文章時,下一次爬取週期就會同步 — 無需手動匯入。
業務:即時定價與功能資料
業務工作流程參考最新的定價頁面和功能比較表。當定價變更時,每份 AI 生成的提案都會自動使用新的數字。
工程:文件同步
內部 Wiki 和文件網站與公開文件一起被爬取。工程師用自然語言提問,獲得以最新技術文件為基礎的答案。
行銷:內容智慧
爬取您的部落格和著陸頁面,建立內容知識庫。AI 工作流程在起草新文章時可以參考現有內容,確保一致性並避免重複主題。
方案層級限制
| 功能 | Starter | Team | Enterprise |
|---|---|---|---|
| 每次爬取最大頁數 | 100 | 1,000 | 無限制 |
| 爬取頻率 | 每週 | 每日 | 每小時 |
| JS 渲染 | — | ✓ | ✓ |
| 並行爬蟲數 | 2 | 5 | 20 |
| 排除規則 | 3 | 10 | 無限制 |
開始使用
- 前往 知識 → 來源 → 新增網站
- 輸入您的網站 URL
- 確認爬取前預估
- 點擊 開始爬取
您的網站在幾分鐘內就能成為可搜尋的知識庫。每個配方和工作流程都能立即引用它,提供具有上下文感知的 AI 回應。
查看使用案例詳細指南了解帶截圖的逐步教學。