Transformez votre site web en base de connaissances IA — Exploration, segmentation et recherche automatiques

Pointez JieGou vers votre sitemap et tout votre site web devient une base de connaissances IA interrogeable en quelques minutes. Découverte du sitemap, filtrage intelligent, actualisation incrémentale et recherche vectorielle Firestore intégrée — sans base de données vectorielle externe.

JieGou Team · 2 mars 2026 · 5 min de lecture

Le problème : votre site web en sait plus que votre IA

Votre site web est la source d’information la plus à jour de votre entreprise — pages produits, tarifs, documentation, articles de support, politiques et blog. Mais vos workflows IA ne peuvent accéder à rien de tout cela.

Les équipes ont recours à des solutions de contournement :

Copier-coller du contenu web dans des documents qui deviennent immédiatement obsolètes
Mettre à jour manuellement les bases de données FAQ à chaque modification d’une page produit
Maintenir des systèmes parallèles — un pour le site web, un autre pour la base de connaissances IA

Le résultat : une IA qui donne des réponses obsolètes parce que sa base de connaissances est toujours en retard par rapport au site web.

La solution : pipeline automatique site web vers base de connaissances

Le pipeline d’exploration web de JieGou transforme automatiquement tout votre site web en une base de connaissances IA interrogeable. Pointez-le vers votre sitemap, configurez quelques règles, et tout le reste est automatisé.

Comment ça fonctionne

1. Découverte du sitemap

Entrez l’URL de votre site web. JieGou récupère votre sitemap.xml, résout les fichiers d’index et les sitemaps imbriqués, et découvre toutes les pages indexables. Sans sitemap, la découverte par URL explore depuis votre page d’accueil.

2. Filtrage intelligent

Toutes les pages n’ont pas leur place dans votre base de connaissances. Configurez des motifs d’exclusion (/admin/*, /staging/*, /tag/*) et des limites de profondeur pour contrôler la portée. Une estimation pré-exploration montre le nombre exact de pages et le temps de traitement estimé.

3. Exploration et extraction

Les pages sont explorées en parallèle avec une concurrence configurable. Le pipeline extrait du contenu textuel propre — supprimant navigation, pied de page, bannières de cookies et texte standard. Pour les SPA rendues en JavaScript, Chromium headless optionnel rend la page avant l’extraction.

4. Segmentation et embeddings

Le contenu est divisé en segments optimaux avec découpage par titres et repli sur les paragraphes. Chaque segment reçoit un embedding vectoriel via OpenAI text-embedding-3-small et est stocké directement dans Firestore — sans base de données vectorielle externe.

5. Actualisation incrémentale

Une ré-exploration programmée vérifie les pages modifiées via des hachages de contenu. Seules les pages réellement modifiées sont retraitées, économisant les coûts de calcul et d’embeddings. Votre base de connaissances reste à jour sans intervention manuelle.

6. Recherche vectorielle prête

Votre base de connaissances est immédiatement disponible pour toutes les recettes et workflows. La recherche vectorielle native Firestore avec cache Redis offre une récupération en moins d’une seconde — même sur des milliers de pages.

Pourquoi la recherche vectorielle intégrée est importante

La plupart des plateformes IA exigent la configuration et la gestion d’une base de données vectorielle externe — Pinecone, Weaviate, Qdrant ou ChromaDB. Cela signifie un service supplémentaire à provisionner, une clé API supplémentaire à gérer, une facture supplémentaire et un point de défaillance supplémentaire.

La recherche vectorielle de JieGou est intégrée à Firestore :

Zéro infrastructure — pas de base de données vectorielle externe à provisionner ou gérer
Récupération hybride — d’abord la recherche par similarité vectorielle, puis force brute + cache Redis en repli pour les cas limites
Performance sub-seconde — les requêtes à froid sur 700+ documents se complètent en ~10 secondes ; les requêtes à chaud via cache Redis retournent en moins d’1 seconde
Cache par document — TTL Redis de 10 minutes élimine les recherches d’embeddings redondantes

Cas d’utilisation concrets

Support : FAQ toujours à jour

La base de connaissances de votre équipe support reflète automatiquement la documentation produit la plus récente. Quand vous mettez à jour un article d’aide sur votre site web, le prochain cycle d’exploration le synchronise — sans import manuel.

Ventes : tarifs et données fonctionnelles en temps réel

Les workflows de vente référencent la page de tarifs actuelle et les tableaux de comparaison des fonctionnalités. Quand les tarifs changent, chaque proposition générée par IA utilise automatiquement les nouveaux chiffres.

Ingénierie : synchronisation de la documentation

Les wikis internes et les sites de documentation sont explorés avec la documentation publique. Les ingénieurs posent des questions en langage naturel et obtiennent des réponses basées sur la documentation technique la plus récente.

Marketing : intelligence de contenu

Explorez votre blog et vos pages d’atterrissage pour construire une base de connaissances de contenu. Les workflows IA peuvent référencer le contenu existant lors de la rédaction de nouveaux articles, assurant la cohérence et évitant les sujets en double.

Limites par plan

Fonctionnalité	Starter	Team	Enterprise
Pages max. par exploration	100	1 000	Illimité
Fréquence d’exploration	Hebdomadaire	Quotidienne	Horaire
Rendu JS	—	✓	✓
Crawlers simultanés	2	5	20
Motifs d’exclusion	3	10	Illimité

Pour commencer

Allez dans Connaissances → Sources → Ajouter un site web
Entrez l’URL de votre site web
Vérifiez l’estimation pré-exploration
Cliquez sur Lancer l’exploration

Votre site web devient une base de connaissances interrogeable en quelques minutes. Toutes les recettes et workflows peuvent immédiatement l’utiliser pour des réponses IA contextualisées.

Configurer l’exploration web →

Consultez le guide pas à pas du cas d’utilisation avec captures d’écran.