Todo LLM tiene una ventana de contexto — un número fijo de tokens que puede procesar a la vez. GPT-4o alcanza un máximo de 128K. Claude de 200K. Gemini de 1M. Estos números suenan grandes, pero en la práctica, una conversación ocupada con llamadas a herramientas, bloques de código e instrucciones detalladas puede consumir 200K tokens en 30-40 intercambios.
Cuando llega al límite, la mayoría de las plataformas simplemente fallan. La conversación se detiene. Usted comienza de nuevo, re-explicando contexto que le tomó una hora construir. Esta es la experiencia más frustrante en la IA conversacional.
JieGou lo resuelve con compactación iterativa de conversaciones.
El problema en números
Considere una sesión típica de usuario avanzado:
- Prompt del sistema: ~2,000 tokens
- Cada mensaje del usuario: ~200 tokens
- Cada respuesta del asistente: ~800 tokens
- Llamadas a herramientas y resultados: ~500 tokens por ronda
Después de 40 intercambios, está en aproximadamente 60,000 tokens. Con un modelo de 128K, ya se está acercando al 50% de capacidad. Agregue algunos documentos largos o archivos de código y estará en el límite mucho antes de que la conversación se sienta “terminada”.
Las soluciones ingenuas — truncar mensajes antiguos o simplemente negarse a continuar — ambas pierden contexto valioso.
Cómo funciona la compactación iterativa
JieGou monitorea el conteo de tokens de cada conversación en tiempo real. Cuando el uso cruza el 80% de la ventana de contexto del modelo, el sistema de compactación se activa.
Aquí está el proceso:
1. Medir el uso total de tokens en todos los mensajes
2. Si el uso > umbral del 80% → activar compactación
3. Seleccionar mensajes más antiguos (todo excepto los N intercambios más recientes)
4. Generar un resumen estructurado de los mensajes seleccionados
5. Reemplazar los mensajes seleccionados con el resumen
6. Inyectar el resumen como un mensaje del sistema
7. Continuar la conversación con el resumen + mensajes recientes
El resumen no es un párrafo vago. Es un documento estructurado con secciones claramente definidas:
Estructura del resumen
## Decisiones clave
- Se decidió usar PostgreSQL en lugar de MongoDB para el almacén de usuarios
- Se acordó REST sobre GraphQL para la API pública
## Preguntas abiertas
- Aún necesitamos determinar la estrategia de caché para resultados de búsqueda
- Flujo de autenticación para clientes móviles por definir
## Elementos de acción
- [ ] Redactar el esquema de base de datos basado en el ERD acordado
- [ ] Configurar pipeline de CI con el nuevo framework de pruebas
## Contexto
- Trabajando en una plataforma SaaS B2B para gestión de inventario
- Fecha objetivo de lanzamiento es Q3 2026
- El equipo tiene 4 ingenieros, usando TypeScript en todo
Esta estructura asegura que el modelo retenga las decisiones y la intención — no solo un recuerdo difuso de lo que se discutió.
Qué sucede durante la compactación
Cuando la compactación se activa, el sistema:
-
Identifica el límite. Los mensajes más recientes (típicamente los últimos 4-6 intercambios) se mantienen intactos. Todo antes de ese límite es elegible para compactación.
-
Genera el resumen. El prompt de compactación instruye al modelo a extraer decisiones, preguntas abiertas, elementos de acción y hechos contextuales. El modelo lee los mensajes más antiguos y produce el resumen estructurado.
-
Reemplaza los mensajes más antiguos. Los mensajes originales se eliminan del contexto activo y se reemplazan con un solo mensaje del sistema que contiene el resumen.
-
Preserva las referencias. Los nombres de archivos, nombres de variables, URLs y otras referencias concretas mencionadas en mensajes anteriores se preservan textualmente en el resumen. Esto previene el modo de fallo común donde el modelo “olvida” una ruta de archivo específica o un endpoint discutido hace 20 mensajes.
-
Itera según sea necesario. Si la conversación continúa creciendo, las compactaciones subsiguientes actualizan el resumen existente en lugar de crear uno nuevo desde cero. Esto evita el problema de degradación “resumen de un resumen”.
La experiencia del usuario
Desde la perspectiva del usuario, la compactación es casi invisible. Cuando ocurre:
- Un pequeño indicador “Contexto compactado” aparece en la línea de tiempo de la conversación
- La conversación continúa sin interrupción
- Las respuestas del modelo permanecen coherentes y contextualmente conscientes
- Los mensajes anteriores aún son visibles en la interfaz como referencia (se eliminan del contexto del LLM, no de la visualización)
No se requiere ninguna acción del usuario. Sin prompt de “iniciar una nueva conversación”. Sin resumen manual.
¿Por qué 80%?
El umbral del 80% es deliberado. Deja suficiente espacio para:
- El resumen de compactación en sí mismo (que consume tokens)
- El siguiente mensaje del usuario y la respuesta del modelo
- Cualquier llamada a herramienta o salida de función en el siguiente intercambio
Activar demasiado temprano desperdicia capacidad de contexto. Activar demasiado tarde arriesga fallar a mitad de generación cuando el modelo se queda sin espacio. El 80% equilibra estas preocupaciones.
Funciona con cada modelo
La compactación se adapta a la ventana de contexto del modelo automáticamente. Si cambia de Claude Sonnet (contexto de 200K) a GPT-4o-mini (contexto de 128K) a mitad de conversación, el sistema recalcula el umbral y puede activar una compactación inmediata para ajustarse a la ventana más pequeña.
Esto significa que puede:
- Iniciar una conversación con un modelo de contexto grande para exploración compleja
- Cambiar a un modelo más pequeño y rápido para seguimientos rápidos
- La conversación continúa sin intervención manual
Compactación + agente de código
El paso de flujo de trabajo del agente de código usa el mismo sistema de compactación. Las tareas de código complejas que requieren más de 30 turnos de lectura, edición y prueba de archivos se benefician enormemente de la compactación — el agente retiene sus objetivos y progreso incluso cuando la conversación crece mucho más allá del límite de contexto bruto de cualquier modelo.
Compactación + ramificación de sesiones
Cuando ramifica una conversación, la rama hereda el estado compactado actual. Esto significa que puede ramificar desde una conversación profundamente compactada y ambas ramas comienzan con la misma base contextual.
Disponibilidad
La compactación iterativa de conversaciones está disponible en todos los planes, incluyendo el nivel gratuito. Funciona con todos los proveedores de LLM soportados — Anthropic, OpenAI, Google y cualquier configuración BYOK.
No se requiere configuración. Se activa automáticamente cuando es necesario.
Pruébelo usted mismo
Inicie una conversación larga. Pegue documentos. Haga preguntas de seguimiento. Empuje los límites de lo que normalmente intentaría en una sola sesión. JieGou mantendrá el hilo vivo.