Le problème : votre site web en sait plus que votre IA
Votre site web est la source d’information la plus à jour de votre entreprise — pages produits, tarifs, documentation, articles de support, politiques et blog. Mais vos workflows IA ne peuvent accéder à rien de tout cela.
Les équipes ont recours à des solutions de contournement :
- Copier-coller du contenu web dans des documents qui deviennent immédiatement obsolètes
- Mettre à jour manuellement les bases de données FAQ à chaque modification d’une page produit
- Maintenir des systèmes parallèles — un pour le site web, un autre pour la base de connaissances IA
Le résultat : une IA qui donne des réponses obsolètes parce que sa base de connaissances est toujours en retard par rapport au site web.
La solution : pipeline automatique site web vers base de connaissances
Le pipeline d’exploration web de JieGou transforme automatiquement tout votre site web en une base de connaissances IA interrogeable. Pointez-le vers votre sitemap, configurez quelques règles, et tout le reste est automatisé.
Comment ça fonctionne
1. Découverte du sitemap
Entrez l’URL de votre site web. JieGou récupère votre sitemap.xml, résout les fichiers d’index et les sitemaps imbriqués, et découvre toutes les pages indexables. Sans sitemap, la découverte par URL explore depuis votre page d’accueil.
2. Filtrage intelligent
Toutes les pages n’ont pas leur place dans votre base de connaissances. Configurez des motifs d’exclusion (/admin/*, /staging/*, /tag/*) et des limites de profondeur pour contrôler la portée. Une estimation pré-exploration montre le nombre exact de pages et le temps de traitement estimé.
3. Exploration et extraction
Les pages sont explorées en parallèle avec une concurrence configurable. Le pipeline extrait du contenu textuel propre — supprimant navigation, pied de page, bannières de cookies et texte standard. Pour les SPA rendues en JavaScript, Chromium headless optionnel rend la page avant l’extraction.
4. Segmentation et embeddings
Le contenu est divisé en segments optimaux avec découpage par titres et repli sur les paragraphes. Chaque segment reçoit un embedding vectoriel via OpenAI text-embedding-3-small et est stocké directement dans Firestore — sans base de données vectorielle externe.
5. Actualisation incrémentale
Une ré-exploration programmée vérifie les pages modifiées via des hachages de contenu. Seules les pages réellement modifiées sont retraitées, économisant les coûts de calcul et d’embeddings. Votre base de connaissances reste à jour sans intervention manuelle.
6. Recherche vectorielle prête
Votre base de connaissances est immédiatement disponible pour toutes les recettes et workflows. La recherche vectorielle native Firestore avec cache Redis offre une récupération en moins d’une seconde — même sur des milliers de pages.
Pourquoi la recherche vectorielle intégrée est importante
La plupart des plateformes IA exigent la configuration et la gestion d’une base de données vectorielle externe — Pinecone, Weaviate, Qdrant ou ChromaDB. Cela signifie un service supplémentaire à provisionner, une clé API supplémentaire à gérer, une facture supplémentaire et un point de défaillance supplémentaire.
La recherche vectorielle de JieGou est intégrée à Firestore :
- Zéro infrastructure — pas de base de données vectorielle externe à provisionner ou gérer
- Récupération hybride — d’abord la recherche par similarité vectorielle, puis force brute + cache Redis en repli pour les cas limites
- Performance sub-seconde — les requêtes à froid sur 700+ documents se complètent en ~10 secondes ; les requêtes à chaud via cache Redis retournent en moins d’1 seconde
- Cache par document — TTL Redis de 10 minutes élimine les recherches d’embeddings redondantes
Cas d’utilisation concrets
Support : FAQ toujours à jour
La base de connaissances de votre équipe support reflète automatiquement la documentation produit la plus récente. Quand vous mettez à jour un article d’aide sur votre site web, le prochain cycle d’exploration le synchronise — sans import manuel.
Ventes : tarifs et données fonctionnelles en temps réel
Les workflows de vente référencent la page de tarifs actuelle et les tableaux de comparaison des fonctionnalités. Quand les tarifs changent, chaque proposition générée par IA utilise automatiquement les nouveaux chiffres.
Ingénierie : synchronisation de la documentation
Les wikis internes et les sites de documentation sont explorés avec la documentation publique. Les ingénieurs posent des questions en langage naturel et obtiennent des réponses basées sur la documentation technique la plus récente.
Marketing : intelligence de contenu
Explorez votre blog et vos pages d’atterrissage pour construire une base de connaissances de contenu. Les workflows IA peuvent référencer le contenu existant lors de la rédaction de nouveaux articles, assurant la cohérence et évitant les sujets en double.
Limites par plan
| Fonctionnalité | Starter | Team | Enterprise |
|---|---|---|---|
| Pages max. par exploration | 100 | 1 000 | Illimité |
| Fréquence d’exploration | Hebdomadaire | Quotidienne | Horaire |
| Rendu JS | — | ✓ | ✓ |
| Crawlers simultanés | 2 | 5 | 20 |
| Motifs d’exclusion | 3 | 10 | Illimité |
Pour commencer
- Allez dans Connaissances → Sources → Ajouter un site web
- Entrez l’URL de votre site web
- Vérifiez l’estimation pré-exploration
- Cliquez sur Lancer l’exploration
Votre site web devient une base de connaissances interrogeable en quelques minutes. Toutes les recettes et workflows peuvent immédiatement l’utiliser pour des réponses IA contextualisées.
Configurer l’exploration web →
Consultez le guide pas à pas du cas d’utilisation avec captures d’écran.