Skip to content
Casos de uso

Convierte tu sitio web en una base de conocimiento IA — Rastreo, segmentación y búsqueda automáticos

Apunta JieGou a tu sitemap y todo tu sitio web se convierte en una base de conocimiento IA buscable en minutos. Descubrimiento de sitemap, filtrado inteligente, actualización incremental y búsqueda vectorial Firestore integrada — sin base de datos vectorial externa.

JT
JieGou Team
· · 5 min de lectura

El problema: tu sitio web sabe más que tu IA

Tu sitio web es la fuente de información más actualizada de tu empresa — páginas de producto, precios, documentación, artículos de soporte, políticas y blog. Pero tus flujos de trabajo de IA no pueden acceder a nada de eso.

Los equipos recurren a soluciones alternativas:

  • Copiar y pegar contenido web en documentos que se desactualizan inmediatamente
  • Actualizar manualmente las bases de datos de FAQ cada vez que cambia una página de producto
  • Mantener sistemas paralelos — uno para el sitio web, otro para la base de conocimiento de IA

El resultado es una IA que da respuestas desactualizadas porque su base de conocimiento siempre va un paso por detrás del sitio web.

La solución: pipeline automático de sitio web a base de conocimiento

El pipeline de rastreo web de JieGou convierte automáticamente todo tu sitio web en una base de conocimiento IA buscable. Apúntalo a tu sitemap, configura algunas reglas y todo lo demás se automatiza.

Cómo funciona

1. Descubrimiento del sitemap

Introduce la URL de tu sitio web. JieGou obtiene tu sitemap.xml, resuelve archivos de índice y sitemaps anidados, y descubre todas las páginas indexables. Si no tienes sitemap, el descubrimiento basado en URL rastrea desde tu página de inicio.

2. Filtrado inteligente

No todas las páginas pertenecen a tu base de conocimiento. Configura patrones de exclusión (/admin/*, /staging/*, /tag/*) y límites de profundidad para controlar el alcance. Una estimación previa al rastreo muestra el recuento exacto de páginas y el tiempo estimado de procesamiento.

3. Rastreo y extracción

Las páginas se rastrean en paralelo con concurrencia configurable. El pipeline extrae contenido de texto limpio — eliminando navegación, pie de página, banners de cookies y texto repetitivo. Para SPAs renderizadas con JavaScript, Chromium headless opcional renderiza la página antes de la extracción.

4. Segmentación y embeddings

El contenido se divide en segmentos óptimos usando división por encabezados con respaldo de párrafos. Cada segmento recibe un embedding vectorial vía OpenAI text-embedding-3-small y se almacena directamente en Firestore — sin base de datos vectorial externa.

5. Actualización incremental

Un re-rastreo programado verifica las páginas modificadas usando hashes de contenido. Solo se reprocesan las páginas que realmente han cambiado, ahorrando costes de cómputo y embeddings. Tu base de conocimiento se mantiene actualizada sin intervención manual.

6. Búsqueda vectorial lista

Tu base de conocimiento está inmediatamente disponible para todas las recetas y flujos de trabajo. La búsqueda vectorial nativa de Firestore con caché Redis ofrece recuperación en menos de un segundo — incluso con miles de páginas.

Por qué importa la búsqueda vectorial integrada

La mayoría de plataformas de IA requieren configurar y gestionar una base de datos vectorial externa — Pinecone, Weaviate, Qdrant o ChromaDB. Eso significa otro servicio que aprovisionar, otra clave API que gestionar, otra factura y otro punto de fallo.

La búsqueda vectorial de JieGou está integrada en Firestore:

  • Cero infraestructura — sin base de datos vectorial externa que aprovisionar o gestionar
  • Recuperación híbrida — primero búsqueda por similitud vectorial, fuerza bruta + caché Redis como respaldo para casos extremos
  • Rendimiento sub-segundo — consultas frías en 700+ documentos se completan en ~10 segundos; consultas calientes vía caché Redis retornan en menos de 1 segundo
  • Caché por documento — TTL Redis de 10 minutos elimina búsquedas de embeddings redundantes

Casos de uso reales

Soporte: FAQ siempre actualizado

La base de conocimiento de tu equipo de soporte refleja automáticamente la documentación más reciente. Cuando actualizas un artículo de ayuda en tu sitio web, el siguiente ciclo de rastreo lo sincroniza — sin importación manual.

Ventas: precios y datos de funciones en tiempo real

Los flujos de trabajo de ventas referencian la página de precios actual y las tablas de comparación de funciones. Cuando los precios cambian, cada propuesta generada por IA usa automáticamente los nuevos números.

Ingeniería: sincronización de documentación

Los wikis internos y sitios de documentación se rastrean junto con la documentación pública. Los ingenieros hacen preguntas en lenguaje natural y obtienen respuestas basadas en la documentación técnica más reciente.

Marketing: inteligencia de contenido

Rastrea tu blog y landing pages para construir una base de conocimiento de contenido. Los flujos de trabajo de IA pueden referenciar contenido existente al redactar nuevos artículos, asegurando consistencia y evitando temas duplicados.

Límites por plan

FunciónStarterTeamEnterprise
Páginas máx. por rastreo1001.000Ilimitado
Frecuencia de rastreoSemanalDiarioPor hora
Renderizado JS
Crawlers concurrentes2520
Patrones de exclusión310Ilimitado

Cómo empezar

  1. Ve a Conocimiento → Fuentes → Añadir sitio web
  2. Introduce la URL de tu sitio web
  3. Revisa la estimación previa al rastreo
  4. Haz clic en Iniciar rastreo

Tu sitio web se convierte en una base de conocimiento buscable en minutos. Todas las recetas y flujos de trabajo pueden referenciarla inmediatamente para respuestas de IA con contexto.

Configurar rastreo web →

Consulta la guía paso a paso del caso de uso con capturas de pantalla.

knowledge-base website-crawl vector-search RAG automation
Compartir este artículo

¿Le gustó este artículo?

Reciba consejos sobre flujos de trabajo, actualizaciones de producto y guías de automatización en su bandeja de entrada.

No spam. Unsubscribe anytime.