La pregunta que nadie puede responder sobre su agente
Hazle una pregunta sencilla a un equipo que opera un agente de IA de larga duración: ¿qué recuerda sobre tu negocio y cuándo cambió eso?
La mayoría de los equipos no puede responderla. En el stack actual, la memoria de los agentes es principalmente de escritura y opaca en la lectura. Los hechos se acumulan a partir de las sesiones, los resume el propio agente y moldean silenciosamente cada decisión futura que el agente toma. Cuando el agente empieza a comportarse de forma distinta en el tercer mes, no existe registro alguno de qué “hecho” recordado cambió, cuándo cambió ni qué lo cambió.
Para un asistente personal, eso es una rareza. Para un agente que redacta mensajes a clientes, programa trabajo o alimenta una cola de aprobaciones, es una brecha de gobernanza: la memoria del agente es una entrada sin auditar de cada salida gobernada.
La curación de memoria ya es nativa. La gobernanza, no.
Las plataformas de agentes avanzan rápido en este terreno. La curación de memoria programada —un proceso en segundo plano que lee el almacén de memoria junto con el historial reciente de sesiones y reescribe la memoria para fusionar duplicados, eliminar entradas obsoletas y consolidar patrones— ya es una capacidad nativa del stack de frontera. Y es genuinamente útil: la memoria sin curar se degrada, y un agente que razona sobre seis meses de notas contradictorias rinde peor que uno con un almacén limpio.
Pero la curación nativa llega como una caja negra. El curador lo lee todo, reescribe lo que juzga obsoleto y no deja ningún registro revisable de la edición. Desde el punto de vista de la gobernanza, eso es un proceso sin supervisión con acceso de escritura a la capa de entrada de todos tus demás controles.
Cómo es una curación de memoria gobernada
Esta semana lanzamos la curación de memoria programada para los agentes gestionados de JieGou: construida sobre la capacidad nativa y envuelta en la capa de gobernanza con la que esta no viene de serie:
- Espacios de nombres protegidos. Hay porciones del almacén de memoria totalmente vedadas para el curador. El estado operativo, el contexto compartido entre agentes y los registros a nivel de hilo no pueden ser reescritos por una pasada de curación, por muy seguro que esté el modelo de que están “obsoletos”.
- Límites estrictos por ciclo. Una pasada de curación está acotada: un techo fijo para el total de operaciones y un techo más bajo para las eliminaciones. No existe ningún escenario en el que un solo ciclo defectuoso reescriba de la noche a la mañana toda la visión del mundo del agente. Los cambios grandes requieren muchos ciclos, lo que significa muchas oportunidades de revisión.
- Vistas previas en modo simulación. Un ciclo puede ejecutarse en modo de vista previa, produciendo el conjunto completo de cambios propuestos sin aplicar ninguno. Los despliegues nuevos funcionan en simulación hasta que el operador ha visto el criterio del curador durante varios ciclos.
- Diffs auditables. Cada cambio aplicado se registra como un diff revisable: qué se fusionó, qué se reemplazó, qué se eliminó y qué sesiones motivaron el cambio. La pregunta del inicio de este artículo —qué recuerda y cuándo cambió eso— tiene una respuesta concreta en cualquier momento.
La misma versión añadió la puntuación de resultados de doble carril: el trabajo producido dentro de una sesión de agente lo puntúa el evaluador nativo en la propia sesión, y los borradores producidos fuera de sesión pasan por nuestro carril de juez. Cada pieza de trabajo del agente recibe una puntuación de resultado; la curación de memoria y la evidencia de resultados quedan bajo la misma postura de auditoría.
Por qué esto importa más allá de la funcionalidad
Hay un patrón que merece ser nombrado. A medida que las plataformas de agentes maduran, capacidades que antes eran trabajo del integrador —memoria, puntuación, programación— se convierten en primitivas nativas. Eso es bueno. La capa de modelo y sus primitivas se están convirtiendo en infraestructura comoditizada.
Lo que no se comoditiza es el envoltorio de gobernanza: el alcance acotado, los límites, las puertas de aprobación, el registro reproducible. La curación de memoria nativa solo hace que un agente sin gobernar sea mejor en estar sin gobernar. La pregunta operativa para cualquier equipo que ejecuta agentes sobre datos reales de clientes no es si usar las primitivas nativas —úsalas—, sino si cada primitiva que escribe en el estado de tu agente deja evidencia que un auditor, una aseguradora o tu propio yo futuro pueda revisar.
Una memoria que solo cambia mediante operaciones acotadas, con diffs y reproducibles: esa es nuestra respuesta. Si tu stack de agentes actual no puede mostrarte un diff de lo que recordaba el mes pasado frente a lo que recuerda hoy, vale la pena arreglarlo antes de que esa memoria empiece a ponerse interesante.