Convierte tu sitio web en una base de conocimiento IA — Rastreo, segmentación y búsqueda automáticos

Apunta JieGou a tu sitemap y todo tu sitio web se convierte en una base de conocimiento IA buscable en minutos. Descubrimiento de sitemap, filtrado inteligente, actualización incremental y búsqueda vectorial Firestore integrada — sin base de datos vectorial externa.

JieGou Team · 2 de marzo de 2026 · 5 min de lectura

El problema: tu sitio web sabe más que tu IA

Tu sitio web es la fuente de información más actualizada de tu empresa — páginas de producto, precios, documentación, artículos de soporte, políticas y blog. Pero tus flujos de trabajo de IA no pueden acceder a nada de eso.

Los equipos recurren a soluciones alternativas:

Copiar y pegar contenido web en documentos que se desactualizan inmediatamente
Actualizar manualmente las bases de datos de FAQ cada vez que cambia una página de producto
Mantener sistemas paralelos — uno para el sitio web, otro para la base de conocimiento de IA

El resultado es una IA que da respuestas desactualizadas porque su base de conocimiento siempre va un paso por detrás del sitio web.

La solución: pipeline automático de sitio web a base de conocimiento

El pipeline de rastreo web de JieGou convierte automáticamente todo tu sitio web en una base de conocimiento IA buscable. Apúntalo a tu sitemap, configura algunas reglas y todo lo demás se automatiza.

Cómo funciona

1. Descubrimiento del sitemap

Introduce la URL de tu sitio web. JieGou obtiene tu sitemap.xml, resuelve archivos de índice y sitemaps anidados, y descubre todas las páginas indexables. Si no tienes sitemap, el descubrimiento basado en URL rastrea desde tu página de inicio.

2. Filtrado inteligente

No todas las páginas pertenecen a tu base de conocimiento. Configura patrones de exclusión (/admin/*, /staging/*, /tag/*) y límites de profundidad para controlar el alcance. Una estimación previa al rastreo muestra el recuento exacto de páginas y el tiempo estimado de procesamiento.

3. Rastreo y extracción

Las páginas se rastrean en paralelo con concurrencia configurable. El pipeline extrae contenido de texto limpio — eliminando navegación, pie de página, banners de cookies y texto repetitivo. Para SPAs renderizadas con JavaScript, Chromium headless opcional renderiza la página antes de la extracción.

4. Segmentación y embeddings

El contenido se divide en segmentos óptimos usando división por encabezados con respaldo de párrafos. Cada segmento recibe un embedding vectorial vía OpenAI text-embedding-3-small y se almacena directamente en Firestore — sin base de datos vectorial externa.

5. Actualización incremental

Un re-rastreo programado verifica las páginas modificadas usando hashes de contenido. Solo se reprocesan las páginas que realmente han cambiado, ahorrando costes de cómputo y embeddings. Tu base de conocimiento se mantiene actualizada sin intervención manual.

6. Búsqueda vectorial lista

Tu base de conocimiento está inmediatamente disponible para todas las recetas y flujos de trabajo. La búsqueda vectorial nativa de Firestore con caché Redis ofrece recuperación en menos de un segundo — incluso con miles de páginas.

Por qué importa la búsqueda vectorial integrada

La mayoría de plataformas de IA requieren configurar y gestionar una base de datos vectorial externa — Pinecone, Weaviate, Qdrant o ChromaDB. Eso significa otro servicio que aprovisionar, otra clave API que gestionar, otra factura y otro punto de fallo.

La búsqueda vectorial de JieGou está integrada en Firestore:

Cero infraestructura — sin base de datos vectorial externa que aprovisionar o gestionar
Recuperación híbrida — primero búsqueda por similitud vectorial, fuerza bruta + caché Redis como respaldo para casos extremos
Rendimiento sub-segundo — consultas frías en 700+ documentos se completan en ~10 segundos; consultas calientes vía caché Redis retornan en menos de 1 segundo
Caché por documento — TTL Redis de 10 minutos elimina búsquedas de embeddings redundantes

Casos de uso reales

Soporte: FAQ siempre actualizado

La base de conocimiento de tu equipo de soporte refleja automáticamente la documentación más reciente. Cuando actualizas un artículo de ayuda en tu sitio web, el siguiente ciclo de rastreo lo sincroniza — sin importación manual.

Ventas: precios y datos de funciones en tiempo real

Los flujos de trabajo de ventas referencian la página de precios actual y las tablas de comparación de funciones. Cuando los precios cambian, cada propuesta generada por IA usa automáticamente los nuevos números.

Ingeniería: sincronización de documentación

Los wikis internos y sitios de documentación se rastrean junto con la documentación pública. Los ingenieros hacen preguntas en lenguaje natural y obtienen respuestas basadas en la documentación técnica más reciente.

Marketing: inteligencia de contenido

Rastrea tu blog y landing pages para construir una base de conocimiento de contenido. Los flujos de trabajo de IA pueden referenciar contenido existente al redactar nuevos artículos, asegurando consistencia y evitando temas duplicados.

Límites por plan

Función	Starter	Team	Enterprise
Páginas máx. por rastreo	100	1.000	Ilimitado
Frecuencia de rastreo	Semanal	Diario	Por hora
Renderizado JS	—	✓	✓
Crawlers concurrentes	2	5	20
Patrones de exclusión	3	10	Ilimitado

Cómo empezar

Ve a Conocimiento → Fuentes → Añadir sitio web
Introduce la URL de tu sitio web
Revisa la estimación previa al rastreo
Haz clic en Iniciar rastreo

Tu sitio web se convierte en una base de conocimiento buscable en minutos. Todas las recetas y flujos de trabajo pueden referenciarla inmediatamente para respuestas de IA con contexto.

Configurar rastreo web →

Consulta la guía paso a paso del caso de uso con capturas de pantalla.