Skip to content
ユースケース

ウェブサイトをAIナレッジベースに変換 — 自動クロール、チャンク分割、検索

JieGouにサイトマップを指定するだけで、ウェブサイト全体が数分で検索可能なAIナレッジベースに。サイトマップ探索、スマートフィルタリング、増分更新、内蔵Firestoreベクトル検索 — 外部ベクトルDBは不要です。

JT
JieGou Team
· · 1 分で読めます

問題:ウェブサイトはAIよりも多くを知っている

ウェブサイトは企業の最も最新の情報源です — 製品ページ、料金、ドキュメント、サポート記事、ポリシー、ブログ記事。しかし、AIワークフローはこれらのコンテンツにアクセスできません。

チームは回避策に頼ります:

  • ウェブコンテンツをドキュメントにコピー&ペースト — しかしすぐに古くなる
  • 製品ページが更新されるたびにFAQデータベースを手動で更新
  • 並行システムを維持 — ウェブサイト用とAIナレッジベース用

結果として、AIは常に古い回答を返します。ナレッジベースが常にウェブサイトの一歩遅れだからです。

解決策:ウェブサイトからナレッジベースへの自動パイプライン

JieGouのウェブサイトクロールパイプラインは、ウェブサイト全体を検索可能なAIナレッジベースに自動変換します。サイトマップを指定し、いくつかのルールを設定するだけ — 残りはすべて自動化されます。

仕組み

1. サイトマップ探索

ウェブサイトのURLを入力します。JieGouがsitemap.xmlを取得し、サイトマップインデックスファイルやネストされたサイトマップを解析して、インデックス可能なすべてのページを発見します。サイトマップがない場合は、ホームページからURL探索を行います。

2. スマートフィルタリング

すべてのページがナレッジベースに必要なわけではありません。除外パターン(/admin/*/staging/*/tag/*)と深度制限でスコープを制御します。クロール前の見積もりで正確なページ数と推定処理時間が表示され、確認してから開始できます。

3. クロール&抽出

設定可能な並行数でページを並列クロールします。パイプラインはクリーンなテキストコンテンツを抽出し、ナビゲーション、フッター、Cookieバナー、ボイラープレートを除去します。JavaScriptレンダリングのSPAには、ヘッドレスChromiumをオプトインで有効化できます。

4. チャンク分割&エンベディング

見出しベースの分割(段落フォールバック付き)で最適なチャンクに分割します。各チャンクはOpenAI text-embedding-3-smallでベクトルエンベディングが生成され、Firestoreに直接保存されます — 外部ベクトルデータベースは不要です。

5. 増分更新

スケジュールされた再クロールがコンテンツハッシュで変更ページをチェックします。実際に変更されたページのみが再処理され、コンピューティングとエンベディングのコストを節約します。ナレッジベースは手動介入なしで最新の状態を維持します。

6. ベクトル検索準備完了

ナレッジベースはすべてのレシピとワークフローですぐに利用可能です。Firestoreネイティブのベクトル検索とRedisキャッシュにより、数千ページでもサブ秒の検索が実現します。

なぜ内蔵ベクトル検索が重要か

多くのAIプラットフォームは外部ベクトルデータベースの設定と管理を要求します — Pinecone、Weaviate、Qdrant、またはChromaDB。これは追加のサービス、追加のAPIキー、追加のコスト、そして追加の障害点を意味します。

JieGouのベクトル検索はFirestoreに内蔵されています:

  • ゼロインフラ — 外部ベクトルDBのプロビジョニングや管理が不要
  • ハイブリッド検索 — まずベクトル類似度検索、エッジケースではブルートフォース + Redisキャッシュフォールバック
  • サブ秒のパフォーマンス — 700+ドキュメントのコールドクエリは約10秒で完了、Redisキャッシュのウォームクエリは1秒未満
  • ドキュメント単位キャッシュ — Redis 10分TTLで重複エンベディング検索を排除

実際のユースケース

サポート:常に最新のFAQ

サポートチームのナレッジベースは最新の製品ドキュメントを自動的に反映します。ウェブサイトのヘルプ記事を更新すると、次のクロールサイクルで同期されます — 手動インポートは不要です。

営業:リアルタイムの料金と機能データ

営業ワークフローは最新の料金ページと機能比較表を参照します。料金が変更されると、AI生成のすべての提案書が自動的に新しい数字を使用します。

エンジニアリング:ドキュメント同期

内部Wikiやドキュメントサイトがパブリックドキュメントと一緒にクロールされます。エンジニアは自然言語で質問し、最新の技術ドキュメントに基づいた回答を得ます。

マーケティング:コンテンツインテリジェンス

ブログとランディングページをクロールしてコンテンツナレッジベースを構築します。AIワークフローは新しい記事を起草する際に既存コンテンツを参照し、一貫性の確保と重複トピックの回避を実現します。

プラン別制限

機能StarterTeamEnterprise
クロールごとの最大ページ数1001,000無制限
クロール頻度週次日次時間ごと
JSレンダリング
並行クローラー数2520
除外パターン310無制限

はじめに

  1. ナレッジ → ソース → ウェブサイトを追加に移動
  2. ウェブサイトのURLを入力
  3. クロール前見積もりを確認
  4. クロール開始をクリック

ウェブサイトが数分で検索可能なナレッジベースになります。すべてのレシピとワークフローがすぐにコンテキストを活用したAI応答に利用できます。

ウェブサイトクロールを設定 →

スクリーンショット付きの詳細ガイドはユースケースウォークスルーをご覧ください。

knowledge-base website-crawl vector-search RAG automation
この記事をシェアする

この記事はお役に立ちましたか?

ワークフローのヒント、製品アップデート、自動化ガイドをメールでお届けします。

No spam. Unsubscribe anytime.