Kontext nie verlieren: Wie JieGou unbegrenzte Konversationslänge handhabt

Jedes LLM hat ein Kontextfenster — eine feste Anzahl von Token, die es gleichzeitig verarbeiten kann. GPT-4o erreicht maximal 128K. Claude 200K. Gemini 1M. Diese Zahlen klingen groß, aber in der Praxis kann eine geschäftige Konversation mit Tool-Aufrufen, Code-Blöcken und detaillierten Anweisungen 200K Token in 30-40 Austauschen verbrauchen.

Wenn Sie an die Grenze stoßen, scheitern die meisten Plattformen einfach. Die Konversation stoppt. Sie fangen von vorne an und erklären Kontext neu, den Sie eine Stunde lang aufgebaut haben. Das ist die frustrierendste Erfahrung in der konversationellen AI.

JieGou löst das mit iterativer Konversationskompaktierung.

Das Problem in Zahlen

Betrachten Sie eine typische Power-User-Sitzung:

System-Prompt: ~2.000 Token
Jede Nutzernachricht: ~200 Token
Jede Assistenten-Antwort: ~800 Token
Tool-Aufrufe und Ergebnisse: ~500 Token pro Runde

Nach 40 Austauschen sind Sie bei etwa 60.000 Token. Mit einem 128K-Modell nähern Sie sich bereits 50% Kapazität. Fügen Sie ein paar lange Dokumente oder Code-Dateien hinzu und Sie sind am Limit, lange bevor sich die Konversation “fertig” anfühlt.

Die naiven Lösungen — alte Nachrichten abschneiden oder einfach die Fortsetzung verweigern — verlieren beide wertvollen Kontext.

Wie iterative Kompaktierung funktioniert

JieGou überwacht die Token-Anzahl jeder Konversation in Echtzeit. Wenn die Nutzung 80% des Kontextfensters des Modells überschreitet, aktiviert sich das Kompaktierungssystem.

Hier ist der Prozess:

1. Gesamte Token-Nutzung über alle Nachrichten messen
2. Wenn Nutzung > 80% Schwellenwert → Kompaktierung auslösen
3. Ältere Nachrichten auswählen (alles außer den letzten N Austauschen)
4. Strukturierte Zusammenfassung der ausgewählten Nachrichten generieren
5. Ausgewählte Nachrichten durch die Zusammenfassung ersetzen
6. Zusammenfassung als Systemnachricht einfügen
7. Konversation mit Zusammenfassung + neuesten Nachrichten fortsetzen

Die Zusammenfassung ist kein vager Absatz. Es ist ein strukturiertes Dokument mit klar definierten Abschnitten:

Zusammenfassungsstruktur

## Schlüsselentscheidungen
- Entschied sich für PostgreSQL statt MongoDB für den User-Store
- REST über GraphQL für die öffentliche API vereinbart

## Offene Fragen
- Caching-Strategie für Suchergebnisse noch zu klären
- Authentifizierungsablauf für mobile Clients offen

## Aktionspunkte
- [ ] Datenbankschema basierend auf dem vereinbarten ERD entwerfen
- [ ] CI-Pipeline mit dem neuen Test-Framework einrichten

## Kontext
- Arbeitet an einer B2B-SaaS-Plattform für Bestandsmanagement
- Ziel-Startdatum ist Q3 2026
- Team hat 4 Ingenieure, verwendet durchgängig TypeScript

Diese Struktur stellt sicher, dass das Modell die Entscheidungen und die Absicht behält — nicht nur eine verschwommene Erinnerung an das, was besprochen wurde.

Was während der Kompaktierung passiert

Wenn die Kompaktierung auslöst, führt das System folgendes durch:

Identifiziert die Grenze. Die neuesten Nachrichten (typischerweise die letzten 4-6 Austausche) bleiben intakt. Alles vor dieser Grenze ist für die Kompaktierung geeignet.
Generiert die Zusammenfassung. Der Kompaktierungs-Prompt weist das Modell an, Entscheidungen, offene Fragen, Aktionspunkte und kontextuelle Fakten zu extrahieren. Das Modell liest die älteren Nachrichten durch und produziert die strukturierte Zusammenfassung.
Ersetzt ältere Nachrichten. Die ursprünglichen Nachrichten werden aus dem aktiven Kontext entfernt und durch eine einzelne Systemnachricht mit der Zusammenfassung ersetzt.
Bewahrt Referenzen. Dateinamen, Variablennamen, URLs und andere konkrete Referenzen, die in früheren Nachrichten erwähnt wurden, werden wörtlich in der Zusammenfassung bewahrt. Dies verhindert den häufigen Fehlermodus, bei dem das Modell einen bestimmten Dateipfad oder Endpunkt “vergisst”, der 20 Nachrichten zuvor besprochen wurde.
Iteriert bei Bedarf. Wenn die Konversation weiter wächst, aktualisieren nachfolgende Kompaktierungen die bestehende Zusammenfassung, anstatt eine neue von Grund auf zu erstellen. Dies vermeidet das “Zusammenfassung einer Zusammenfassung”-Degradierungsproblem.

Die Nutzererfahrung

Aus der Perspektive des Nutzers ist die Kompaktierung nahezu unsichtbar. Wenn sie auftritt:

Ein kleiner “Kontext kompaktiert”-Indikator erscheint in der Konversationszeitleiste
Die Konversation geht ohne Unterbrechung weiter
Die Antworten des Modells bleiben kohärent und kontextbewusst
Vorherige Nachrichten sind weiterhin in der Benutzeroberfläche zur Referenz sichtbar (sie werden aus dem LLM-Kontext entfernt, nicht aus der Anzeige)

Es ist keine Aktion des Nutzers erforderlich. Keine “Neue Konversation starten”-Aufforderung. Keine manuelle Zusammenfassung.

Warum 80%?

Der 80%-Schwellenwert ist bewusst gewählt. Er lässt genügend Raum für:

Die Kompaktierungszusammenfassung selbst (die Token verbraucht)
Die nächste Nachricht des Nutzers und die Antwort des Modells
Alle Tool-Aufrufe oder Funktionsausgaben im nächsten Austausch

Zu früh auslösen verschwendet Kontextkapazität. Zu spät auslösen riskiert ein Scheitern mitten in der Generierung, wenn das Modell keinen Platz mehr hat. 80% balanciert diese Bedenken.

Funktioniert mit jedem Modell

Kompaktierung passt sich automatisch an das Kontextfenster des Modells an. Wenn Sie mitten in der Konversation von Claude Sonnet (200K Kontext) zu GPT-4o-mini (128K Kontext) wechseln, berechnet das System den Schwellenwert neu und löst möglicherweise eine sofortige Kompaktierung aus, um in das kleinere Fenster zu passen.

Das bedeutet, Sie können:

Eine Konversation mit einem Modell mit großem Kontext für komplexe Erkundung starten
Zu einem kleineren, schnelleren Modell für schnelle Nachfragen wechseln
Die Konversation geht ohne manuellen Eingriff weiter

Kompaktierung + Coding Agent

Der Coding Agent-Workflow-Schritt nutzt dasselbe Kompaktierungssystem. Komplexe Coding-Aufgaben, die 30+ Runden Dateilesen, -bearbeiten und -testen erfordern, profitieren enorm von der Kompaktierung — der Agent behält seine Ziele und seinen Fortschritt, selbst wenn die Konversation weit über das rohe Kontextlimit eines jeden Modells hinauswächst.

Kompaktierung + Sitzungsverzweigung

Wenn Sie eine Konversation verzweigen, erbt die Verzweigung den aktuellen kompaktierten Zustand. Das bedeutet, Sie können von einer tief kompaktierten Konversation verzweigen und beide Zweige starten mit derselben kontextuellen Grundlage.

Verfügbarkeit

Iterative Konversationskompaktierung ist in allen Tarifen verfügbar, einschließlich des kostenlosen Tarifs. Sie funktioniert mit allen unterstützten LLM-Anbietern — Anthropic, OpenAI, Google und jeder BYOK-Konfiguration.

Es ist keine Konfiguration erforderlich. Sie aktiviert sich automatisch bei Bedarf.

Probieren Sie es selbst

Starten Sie eine lange Konversation. Fügen Sie Dokumente ein. Stellen Sie Nachfragen. Testen Sie die Grenzen dessen, was Sie normalerweise in einer einzelnen Sitzung versuchen würden. JieGou hält den Thread am Leben.

Starten Sie eine Konversation