Ne perdez jamais le contexte : comment JieGou gère les conversations de longueur illimitée

Chaque LLM a une fenêtre de contexte — un nombre fixe de tokens qu’il peut traiter à la fois. GPT-4o plafonne à 128K. Claude à 200K. Gemini à 1M. Ces chiffres semblent importants, mais en pratique, une conversation chargée avec des appels d’outils, des blocs de code et des instructions détaillées peut brûler 200K tokens en 30-40 échanges.

Quand vous atteignez le mur, la plupart des plateformes échouent simplement. La conversation s’arrête. Vous recommencez, en réexpliquant un contexte qui vous a pris une heure à construire. C’est l’expérience la plus frustrante de l’IA conversationnelle.

JieGou résout cela avec la compaction itérative de conversation.

Le problème en chiffres

Considérez une session typique d’utilisateur avancé :

Prompt système : ~2 000 tokens
Chaque message utilisateur : ~200 tokens
Chaque réponse de l’assistant : ~800 tokens
Appels d’outils et résultats : ~500 tokens par tour

Après 40 échanges, vous en êtes à environ 60 000 tokens. Avec un modèle à 128K, vous approchez déjà 50 % de capacité. Ajoutez quelques longs documents ou fichiers de code et vous atteignez la limite bien avant que la conversation ne semble « terminée ».

Les solutions naïves — tronquer les anciens messages ou simplement refuser de continuer — perdent toutes deux du contexte précieux.

Comment fonctionne la compaction itérative

JieGou surveille le nombre de tokens de chaque conversation en temps réel. Quand l’utilisation dépasse 80 % de la fenêtre de contexte du modèle, le système de compaction s’active.

Voici le processus :

1. Mesurer l'utilisation totale de tokens sur tous les messages
2. Si utilisation > seuil de 80 % → déclencher la compaction
3. Sélectionner les messages plus anciens (tout sauf les N échanges les plus récents)
4. Générer un résumé structuré des messages sélectionnés
5. Remplacer les messages sélectionnés par le résumé
6. Injecter le résumé comme message système
7. Continuer la conversation avec le résumé + les messages récents

Le résumé n’est pas un paragraphe vague. C’est un document structuré avec des sections clairement définies :

Structure du résumé

## Décisions clés
- Décidé d'utiliser PostgreSQL au lieu de MongoDB pour le stockage utilisateurs
- Accord sur REST plutôt que GraphQL pour l'API publique

## Questions ouvertes
- Stratégie de cache pour les résultats de recherche encore à déterminer
- Flux d'authentification pour les clients mobiles à définir

## Actions à faire
- [ ] Rédiger le schéma de base de données basé sur l'ERD convenu
- [ ] Configurer le pipeline CI avec le nouveau framework de test

## Contexte
- Travail sur une plateforme SaaS B2B pour la gestion d'inventaire
- Date de lancement cible : T3 2026
- Équipe de 4 ingénieurs, utilisant TypeScript partout

Cette structure garantit que le modèle retient les décisions et l’intention — pas seulement un souvenir flou de ce qui a été discuté.

Ce qui se passe pendant la compaction

Quand la compaction se déclenche, le système :

Identifie la frontière. Les messages les plus récents (typiquement les 4-6 derniers échanges) sont conservés intacts. Tout ce qui précède cette frontière est éligible à la compaction.
Génère le résumé. Le prompt de compaction instruit le modèle d’extraire les décisions, questions ouvertes, actions à faire et faits contextuels. Le modèle parcourt les messages plus anciens et produit le résumé structuré.
Remplace les messages plus anciens. Les messages originaux sont retirés du contexte actif et remplacés par un seul message système contenant le résumé.
Préserve les références. Les noms de fichiers, noms de variables, URL et autres références concrètes mentionnées dans les messages précédents sont préservés mot pour mot dans le résumé. Cela empêche le mode de défaillance courant où le modèle « oublie » un chemin de fichier ou un endpoint spécifique discuté il y a 20 messages.
Itère selon les besoins. Si la conversation continue de croître, les compactions suivantes mettent à jour le résumé existant plutôt que d’en créer un nouveau à partir de zéro. Cela évite le problème de dégradation du « résumé d’un résumé ».

L’expérience utilisateur

Du point de vue de l’utilisateur, la compaction est presque invisible. Quand elle se produit :

Un petit indicateur « Contexte compacté » apparaît dans la chronologie de conversation
La conversation continue sans interruption
Les réponses du modèle restent cohérentes et contextuellement pertinentes
Les messages précédents restent visibles dans l’interface pour référence (ils sont retirés du contexte LLM, pas de l’affichage)

Aucune action n’est requise de la part de l’utilisateur. Pas de prompt « démarrer une nouvelle conversation ». Pas de résumé manuel.

Pourquoi 80 % ?

Le seuil de 80 % est délibéré. Il laisse assez de marge pour :

Le résumé de compaction lui-même (qui consomme des tokens)
Le prochain message de l’utilisateur et la réponse du modèle
Tout appel d’outil ou sortie de fonction dans le prochain échange

Déclencher trop tôt gaspille la capacité de contexte. Déclencher trop tard risque d’échouer en cours de génération quand le modèle manque d’espace. 80 % équilibre ces préoccupations.

Fonctionne avec chaque modèle

La compaction s’adapte automatiquement à la fenêtre de contexte du modèle. Si vous passez de Claude Sonnet (contexte 200K) à GPT-4o-mini (contexte 128K) en cours de conversation, le système recalcule le seuil et peut déclencher une compaction immédiate pour s’adapter à la fenêtre plus petite.

Cela signifie que vous pouvez :

Démarrer une conversation avec un modèle à grand contexte pour une exploration complexe
Passer à un modèle plus petit et plus rapide pour des suivis rapides
La conversation continue sans intervention manuelle

Compaction + Agent de Codage

L’étape de workflow Agent de Codage utilise le même système de compaction. Les tâches de codage complexes qui nécessitent plus de 30 tours de lecture de fichiers, d’édition et de tests bénéficient énormément de la compaction — l’agent conserve ses objectifs et sa progression même quand la conversation dépasse largement la limite de contexte brut de n’importe quel modèle.

Compaction + Branchement de session

Quand vous branchez une conversation, la branche hérite de l’état compacté actuel. Cela signifie que vous pouvez brancher depuis une conversation profondément compactée et les deux branches démarrent avec la même base contextuelle.

Disponibilité

La compaction itérative de conversation est disponible sur tous les plans, y compris le plan gratuit. Elle fonctionne avec tous les fournisseurs LLM supportés — Anthropic, OpenAI, Google et toute configuration BYOK.

Aucune configuration n’est requise. Elle s’active automatiquement quand nécessaire.

Essayez-le vous-même

Démarrez une longue conversation. Collez des documents. Posez des questions de suivi. Poussez les limites de ce que vous tenteriez normalement en une seule session. JieGou maintiendra le fil en vie.

Démarrer une conversation