El problema: tu sitio web sabe más que tu IA
Tu sitio web es la fuente de información más actualizada de tu empresa — páginas de producto, precios, documentación, artículos de soporte, políticas y blog. Pero tus flujos de trabajo de IA no pueden acceder a nada de eso.
Los equipos recurren a soluciones alternativas:
- Copiar y pegar contenido web en documentos que se desactualizan inmediatamente
- Actualizar manualmente las bases de datos de FAQ cada vez que cambia una página de producto
- Mantener sistemas paralelos — uno para el sitio web, otro para la base de conocimiento de IA
El resultado es una IA que da respuestas desactualizadas porque su base de conocimiento siempre va un paso por detrás del sitio web.
La solución: pipeline automático de sitio web a base de conocimiento
El pipeline de rastreo web de JieGou convierte automáticamente todo tu sitio web en una base de conocimiento IA buscable. Apúntalo a tu sitemap, configura algunas reglas y todo lo demás se automatiza.
Cómo funciona
1. Descubrimiento del sitemap
Introduce la URL de tu sitio web. JieGou obtiene tu sitemap.xml, resuelve archivos de índice y sitemaps anidados, y descubre todas las páginas indexables. Si no tienes sitemap, el descubrimiento basado en URL rastrea desde tu página de inicio.
2. Filtrado inteligente
No todas las páginas pertenecen a tu base de conocimiento. Configura patrones de exclusión (/admin/*, /staging/*, /tag/*) y límites de profundidad para controlar el alcance. Una estimación previa al rastreo muestra el recuento exacto de páginas y el tiempo estimado de procesamiento.
3. Rastreo y extracción
Las páginas se rastrean en paralelo con concurrencia configurable. El pipeline extrae contenido de texto limpio — eliminando navegación, pie de página, banners de cookies y texto repetitivo. Para SPAs renderizadas con JavaScript, Chromium headless opcional renderiza la página antes de la extracción.
4. Segmentación y embeddings
El contenido se divide en segmentos óptimos usando división por encabezados con respaldo de párrafos. Cada segmento recibe un embedding vectorial vía OpenAI text-embedding-3-small y se almacena directamente en Firestore — sin base de datos vectorial externa.
5. Actualización incremental
Un re-rastreo programado verifica las páginas modificadas usando hashes de contenido. Solo se reprocesan las páginas que realmente han cambiado, ahorrando costes de cómputo y embeddings. Tu base de conocimiento se mantiene actualizada sin intervención manual.
6. Búsqueda vectorial lista
Tu base de conocimiento está inmediatamente disponible para todas las recetas y flujos de trabajo. La búsqueda vectorial nativa de Firestore con caché Redis ofrece recuperación en menos de un segundo — incluso con miles de páginas.
Por qué importa la búsqueda vectorial integrada
La mayoría de plataformas de IA requieren configurar y gestionar una base de datos vectorial externa — Pinecone, Weaviate, Qdrant o ChromaDB. Eso significa otro servicio que aprovisionar, otra clave API que gestionar, otra factura y otro punto de fallo.
La búsqueda vectorial de JieGou está integrada en Firestore:
- Cero infraestructura — sin base de datos vectorial externa que aprovisionar o gestionar
- Recuperación híbrida — primero búsqueda por similitud vectorial, fuerza bruta + caché Redis como respaldo para casos extremos
- Rendimiento sub-segundo — consultas frías en 700+ documentos se completan en ~10 segundos; consultas calientes vía caché Redis retornan en menos de 1 segundo
- Caché por documento — TTL Redis de 10 minutos elimina búsquedas de embeddings redundantes
Casos de uso reales
Soporte: FAQ siempre actualizado
La base de conocimiento de tu equipo de soporte refleja automáticamente la documentación más reciente. Cuando actualizas un artículo de ayuda en tu sitio web, el siguiente ciclo de rastreo lo sincroniza — sin importación manual.
Ventas: precios y datos de funciones en tiempo real
Los flujos de trabajo de ventas referencian la página de precios actual y las tablas de comparación de funciones. Cuando los precios cambian, cada propuesta generada por IA usa automáticamente los nuevos números.
Ingeniería: sincronización de documentación
Los wikis internos y sitios de documentación se rastrean junto con la documentación pública. Los ingenieros hacen preguntas en lenguaje natural y obtienen respuestas basadas en la documentación técnica más reciente.
Marketing: inteligencia de contenido
Rastrea tu blog y landing pages para construir una base de conocimiento de contenido. Los flujos de trabajo de IA pueden referenciar contenido existente al redactar nuevos artículos, asegurando consistencia y evitando temas duplicados.
Límites por plan
| Función | Starter | Team | Enterprise |
|---|---|---|---|
| Páginas máx. por rastreo | 100 | 1.000 | Ilimitado |
| Frecuencia de rastreo | Semanal | Diario | Por hora |
| Renderizado JS | — | ✓ | ✓ |
| Crawlers concurrentes | 2 | 5 | 20 |
| Patrones de exclusión | 3 | 10 | Ilimitado |
Cómo empezar
- Ve a Conocimiento → Fuentes → Añadir sitio web
- Introduce la URL de tu sitio web
- Revisa la estimación previa al rastreo
- Haz clic en Iniciar rastreo
Tu sitio web se convierte en una base de conocimiento buscable en minutos. Todas las recetas y flujos de trabajo pueden referenciarla inmediatamente para respuestas de IA con contexto.
Consulta la guía paso a paso del caso de uso con capturas de pantalla.