永不遺失上下文：JieGou 如何處理無限長度對話

每個 LLM 都有上下文視窗 — 它一次能處理的固定 token 數量。GPT-4o 上限為 128K。Claude 為 200K。Gemini 為 1M。這些數字聽起來很大，但在實際使用中，一個包含工具呼叫、程式碼區塊和詳細指令的繁忙對話，可以在 30-40 次交流中耗盡 200K token。

當你碰壁時，大多數平台就直接失敗。對話停止。你必須重新開始，重新解釋花了一小時才建立的上下文。這是對話式 AI 中最令人沮喪的體驗。

JieGou 用迭代對話壓縮解決了這個問題。

用數字說明問題

考慮一個典型的進階使用者工作階段：

系統提示：約 2,000 token
每則使用者訊息：約 200 token
每則助手回應：約 800 token
工具呼叫和結果：每輪約 500 token

40 次交流後，你大約使用了 60,000 token。使用 128K 的模型，你已經接近 50% 的容量。再加上幾個長文件或程式碼檔案，你在對話感覺「完成」之前就已經達到上限了。

簡單的解決方案 — 截斷舊訊息或直接拒絕繼續 — 都會遺失寶貴的上下文。

迭代壓縮如何運作

JieGou 即時監控每個對話的 token 計數。當使用量超過模型上下文視窗的 80% 時，壓縮系統就會啟動。

以下是流程：

1. 測量所有訊息的總 token 使用量
2. 如果使用量 > 80% 閾值 → 觸發壓縮
3. 選擇較舊的訊息（除了最近 N 次交流以外的所有內容）
4. 生成所選訊息的結構化摘要
5. 用摘要替換所選訊息
6. 將摘要作為系統訊息注入
7. 用摘要 + 最近的訊息繼續對話

摘要不是模糊的段落。它是一個具有明確定義區段的結構化文件：

摘要結構

## 關鍵決策
- 決定使用 PostgreSQL 而非 MongoDB 作為使用者儲存
- 同意公開 API 使用 REST 而非 GraphQL

## 待解問題
- 仍需確定搜尋結果的快取策略
- 行動客戶端的認證流程待定

## 行動項目
- [ ] 根據商定的 ERD 起草資料庫結構
- [ ] 使用新的測試框架建立 CI 管線

## 上下文
- 正在開發用於庫存管理的 B2B SaaS 平台
- 目標上線日期為 2026 年第三季
- 團隊有 4 名工程師，全程使用 TypeScript

這個結構確保模型保留決策和意圖 — 而不僅僅是對討論內容的模糊記憶。

壓縮過程中發生了什麼

當壓縮觸發時，系統會：

確定邊界。 最近的訊息（通常是最後 4-6 次交流）保持不變。邊界之前的所有內容都可以被壓縮。
生成摘要。 壓縮提示指示模型提取決策、待解問題、行動項目和上下文事實。模型讀取較舊的訊息並生成結構化摘要。
替換較舊的訊息。 原始訊息從活躍上下文中移除，並用包含摘要的單一系統訊息替換。
保留參考資料。 早期訊息中提到的檔案名稱、變數名稱、URL 和其他具體參考資料會在摘要中逐字保留。這防止了模型「遺忘」20 則訊息前討論的特定檔案路徑或端點的常見失敗模式。
按需迭代。 如果對話繼續增長，後續壓縮會更新現有摘要而不是從頭建立新的。這避免了「摘要的摘要」品質退化問題。

使用者體驗

從使用者的角度來看，壓縮幾乎是不可見的。當它發生時：

對話時間軸中出現一個小的**「上下文已壓縮」**指示器
對話不中斷地繼續
模型的回應保持連貫且有上下文意識
先前的訊息仍然在 UI 中可見供參考（它們從 LLM 上下文中移除，而非從顯示中移除）

使用者不需要任何操作。沒有「開始新對話」的提示。沒有手動摘要。

為什麼是 80%？

80% 的閾值是刻意設計的。它為以下內容留出足夠空間：

壓縮摘要本身（會消耗 token）
使用者的下一則訊息和模型的回應
下一次交流中的任何工具呼叫或函數輸出

觸發太早會浪費上下文容量。觸發太晚則有在模型生成過程中空間不足而失敗的風險。80% 平衡了這些考量。

適用於所有模型

壓縮會自動適應模型的上下文視窗。如果你在對話中從 Claude Sonnet（200K 上下文）切換到 GPT-4o-mini（128K 上下文），系統會重新計算閾值，並可能觸發即時壓縮以適應較小的視窗。

這意味著你可以：

用大上下文模型開始對話進行複雜探索
切換到更小、更快的模型進行快速追問
對話無需手動介入即可繼續

壓縮 + Coding Agent

Coding Agent 工作流程步驟使用相同的壓縮系統。需要 30 次以上的檔案讀取、編輯和測試輪次的複雜編碼任務，從壓縮中獲益巨大 — 即使對話增長遠超任何模型的原始上下文限制，代理仍能保留其目標和進度。

壓縮 + 對話分支

當你對對話進行分支時，分支會繼承當前的壓縮狀態。這意味著你可以從一個深度壓縮的對話中分支，兩個分支都以相同的上下文基礎開始。

可用性

迭代對話壓縮在所有方案中可用，包括免費方案。它適用於所有支援的 LLM 提供商 — Anthropic、OpenAI、Google 以及任何 BYOK 設定。

不需要任何配置。它會在需要時自動啟動。

親自試試

開始一個長對話。貼上文件。提出後續問題。突破你通常在單一工作階段中會嘗試的界限。JieGou 會保持對話持續進行。

開始對話