每個 LLM 都有上下文視窗 — 它一次能處理的固定 token 數量。GPT-4o 上限為 128K。Claude 為 200K。Gemini 為 1M。這些數字聽起來很大,但在實際使用中,一個包含工具呼叫、程式碼區塊和詳細指令的繁忙對話,可以在 30-40 次交流中耗盡 200K token。
當你碰壁時,大多數平台就直接失敗。對話停止。你必須重新開始,重新解釋花了一小時才建立的上下文。這是對話式 AI 中最令人沮喪的體驗。
JieGou 用迭代對話壓縮解決了這個問題。
用數字說明問題
考慮一個典型的進階使用者工作階段:
- 系統提示:約 2,000 token
- 每則使用者訊息:約 200 token
- 每則助手回應:約 800 token
- 工具呼叫和結果:每輪約 500 token
40 次交流後,你大約使用了 60,000 token。使用 128K 的模型,你已經接近 50% 的容量。再加上幾個長文件或程式碼檔案,你在對話感覺「完成」之前就已經達到上限了。
簡單的解決方案 — 截斷舊訊息或直接拒絕繼續 — 都會遺失寶貴的上下文。
迭代壓縮如何運作
JieGou 即時監控每個對話的 token 計數。當使用量超過模型上下文視窗的 80% 時,壓縮系統就會啟動。
以下是流程:
1. 測量所有訊息的總 token 使用量
2. 如果使用量 > 80% 閾值 → 觸發壓縮
3. 選擇較舊的訊息(除了最近 N 次交流以外的所有內容)
4. 生成所選訊息的結構化摘要
5. 用摘要替換所選訊息
6. 將摘要作為系統訊息注入
7. 用摘要 + 最近的訊息繼續對話
摘要不是模糊的段落。它是一個具有明確定義區段的結構化文件:
摘要結構
## 關鍵決策
- 決定使用 PostgreSQL 而非 MongoDB 作為使用者儲存
- 同意公開 API 使用 REST 而非 GraphQL
## 待解問題
- 仍需確定搜尋結果的快取策略
- 行動客戶端的認證流程待定
## 行動項目
- [ ] 根據商定的 ERD 起草資料庫結構
- [ ] 使用新的測試框架建立 CI 管線
## 上下文
- 正在開發用於庫存管理的 B2B SaaS 平台
- 目標上線日期為 2026 年第三季
- 團隊有 4 名工程師,全程使用 TypeScript
這個結構確保模型保留決策和意圖 — 而不僅僅是對討論內容的模糊記憶。
壓縮過程中發生了什麼
當壓縮觸發時,系統會:
-
確定邊界。 最近的訊息(通常是最後 4-6 次交流)保持不變。邊界之前的所有內容都可以被壓縮。
-
生成摘要。 壓縮提示指示模型提取決策、待解問題、行動項目和上下文事實。模型讀取較舊的訊息並生成結構化摘要。
-
替換較舊的訊息。 原始訊息從活躍上下文中移除,並用包含摘要的單一系統訊息替換。
-
保留參考資料。 早期訊息中提到的檔案名稱、變數名稱、URL 和其他具體參考資料會在摘要中逐字保留。這防止了模型「遺忘」20 則訊息前討論的特定檔案路徑或端點的常見失敗模式。
-
按需迭代。 如果對話繼續增長,後續壓縮會更新現有摘要而不是從頭建立新的。這避免了「摘要的摘要」品質退化問題。
使用者體驗
從使用者的角度來看,壓縮幾乎是不可見的。當它發生時:
- 對話時間軸中出現一個小的**「上下文已壓縮」**指示器
- 對話不中斷地繼續
- 模型的回應保持連貫且有上下文意識
- 先前的訊息仍然在 UI 中可見供參考(它們從 LLM 上下文中移除,而非從顯示中移除)
使用者不需要任何操作。沒有「開始新對話」的提示。沒有手動摘要。
為什麼是 80%?
80% 的閾值是刻意設計的。它為以下內容留出足夠空間:
- 壓縮摘要本身(會消耗 token)
- 使用者的下一則訊息和模型的回應
- 下一次交流中的任何工具呼叫或函數輸出
觸發太早會浪費上下文容量。觸發太晚則有在模型生成過程中空間不足而失敗的風險。80% 平衡了這些考量。
適用於所有模型
壓縮會自動適應模型的上下文視窗。如果你在對話中從 Claude Sonnet(200K 上下文)切換到 GPT-4o-mini(128K 上下文),系統會重新計算閾值,並可能觸發即時壓縮以適應較小的視窗。
這意味著你可以:
- 用大上下文模型開始對話進行複雜探索
- 切換到更小、更快的模型進行快速追問
- 對話無需手動介入即可繼續
壓縮 + Coding Agent
Coding Agent 工作流程步驟使用相同的壓縮系統。需要 30 次以上的檔案讀取、編輯和測試輪次的複雜編碼任務,從壓縮中獲益巨大 — 即使對話增長遠超任何模型的原始上下文限制,代理仍能保留其目標和進度。
壓縮 + 對話分支
當你對對話進行分支時,分支會繼承當前的壓縮狀態。這意味著你可以從一個深度壓縮的對話中分支,兩個分支都以相同的上下文基礎開始。
可用性
迭代對話壓縮在所有方案中可用,包括免費方案。它適用於所有支援的 LLM 提供商 — Anthropic、OpenAI、Google 以及任何 BYOK 設定。
不需要任何配置。它會在需要時自動啟動。
親自試試
開始一個長對話。貼上文件。提出後續問題。突破你通常在單一工作階段中會嘗試的界限。JieGou 會保持對話持續進行。