La question à laquelle personne ne sait répondre au sujet de son agent
Posez une question simple à une équipe qui exploite un agent IA de longue durée : que retient-il de votre activité, et quand cela a-t-il changé ?
La plupart des équipes sont incapables d’y répondre. Dans la pile actuelle, la mémoire des agents est essentiellement en écriture et opaque en lecture. Les faits s’accumulent au fil des sessions, sont résumés par l’agent lui-même et façonnent discrètement chaque décision future de l’agent. Quand l’agent commence à se comporter différemment au troisième mois, il n’existe aucune trace indiquant quel « fait » mémorisé a changé, quand il a changé, ni ce qui l’a changé.
Pour un assistant personnel, c’est une bizarrerie. Pour un agent qui rédige des messages clients, planifie du travail ou alimente une file d’approbation, c’est une faille de gouvernance : la mémoire de l’agent est une entrée non auditée de chaque sortie gouvernée.
La curation de mémoire est désormais native. Pas la gouvernance.
Les plateformes d’agents avancent vite sur ce terrain. La curation de mémoire planifiée — un processus d’arrière-plan qui lit le magasin de mémoire et l’historique récent des sessions, puis réécrit la mémoire pour fusionner les doublons, supprimer les entrées obsolètes et consolider les schémas récurrents — est désormais une capacité native de la pile de pointe. Et elle est réellement utile : une mémoire non curée se dégrade, et un agent qui raisonne sur six mois de notes contradictoires est moins performant qu’un agent doté d’un magasin propre.
Mais la curation native est livrée comme une boîte noire. Le curateur lit tout, réécrit ce qu’il juge obsolète et ne laisse aucune trace vérifiable de la modification. Du point de vue de la gouvernance, c’est un processus sans surveillance disposant d’un accès en écriture à la couche d’entrée de tous vos autres contrôles.
À quoi ressemble une curation de mémoire gouvernée
Nous avons livré cette semaine la curation de mémoire planifiée pour les agents managés JieGou — construite sur la capacité native, enveloppée dans la couche de gouvernance qui lui fait défaut :
- Espaces de noms protégés. Certaines portions du magasin de mémoire sont totalement interdites au curateur. L’état opérationnel, le contexte partagé entre agents et les enregistrements au niveau des fils de discussion ne peuvent pas être réécrits par une passe de curation, quelle que soit la confiance du modèle dans leur prétendue « obsolescence ».
- Plafonds stricts par cycle. Une passe de curation est bornée : un plafond fixe sur le nombre total d’opérations et un plafond plus bas sur les suppressions. Il n’existe aucun scénario dans lequel un seul mauvais cycle réécrit toute la vision du monde de l’agent du jour au lendemain. Les changements d’ampleur exigent de nombreux cycles, donc de nombreuses occasions de revue.
- Aperçus en mode simulation. Un cycle peut s’exécuter en mode aperçu, produisant l’ensemble complet des modifications proposées sans en appliquer aucune. Les nouveaux déploiements tournent en simulation jusqu’à ce que l’opérateur ait pu observer le jugement du curateur sur plusieurs cycles.
- Diffs auditables. Chaque modification appliquée est enregistrée sous forme de diff vérifiable : ce qui a été fusionné, ce qui a été remplacé, ce qui a été supprimé, et quelles sessions ont motivé le changement. La question posée en tête de cet article — que retient-il, et quand cela a-t-il changé — a une réponse concrète à tout instant.
La même version a ajouté la notation des résultats à double voie : le travail produit au sein d’une session d’agent est noté en session par l’évaluateur natif, et les brouillons produits hors session passent par notre voie de jugement. Chaque production d’agent reçoit un score de résultat ; la curation de mémoire et les preuves de résultat relèvent de la même posture d’audit.
Pourquoi cela compte au-delà de la fonctionnalité
Il y a ici un schéma qui mérite d’être nommé. À mesure que les plateformes d’agents mûrissent, des capacités qui relevaient autrefois du travail de l’intégrateur — mémoire, notation, planification — deviennent des primitives natives. C’est une bonne chose. La couche modèle et ses primitives deviennent une infrastructure banalisée.
Ce qui ne se banalise pas, c’est l’enveloppe de gouvernance : le périmètre, les plafonds, les portes d’approbation, l’enregistrement rejouable. La curation de mémoire native rend un agent non gouverné simplement meilleur à être non gouverné. Pour toute équipe qui exploite des agents sur de vraies données clients, la question opérationnelle n’est pas de savoir s’il faut utiliser les primitives natives — utilisez-les — mais si chaque primitive qui écrit dans l’état de votre agent laisse des preuves qu’un auditeur, un assureur ou votre propre futur vous pourra examiner.
Une mémoire qui ne change qu’à travers des opérations plafonnées, tracées en diff et rejouables : voilà notre réponse. Si votre pile d’agents actuelle ne peut pas vous montrer le diff entre ce qu’elle retenait le mois dernier et ce qu’elle retient aujourd’hui, cela vaut la peine d’y remédier avant que cette mémoire ne devienne vraiment sensible.