開源 LLM 的轉捩點
2026 年初,情況發生了轉變。Mistral 3 在標準基準測試中達到 GPT-5.2 品質的 92% — 而成本僅為 15%。DeepSeek-V3.2 展示了六個月前還只有頂級模型才具備的推理能力。Qwen3 在多語言任務上進一步縮小了差距。而 Meta 的 Llama 4 帶來了參數高效的架構,可以在通用硬體上運行,且不再需要過去無法避免的品質妥協。
開源不再是一種妥協。對於越來越多的使用場景來說,它是策略上更優越的選擇 — 更低的成本、無供應商依賴、本地部署選項,以及對任務而言足夠接近(甚至更好)的品質。
但「足夠接近」這個詞承載了很多含義。開源和商用模型之間的差距並不均勻。它因任務類型而有巨大差異,而唯一能知道開源在哪裡勝出、在哪裡不足的方法就是測量。不是基準測試 — 而是在你實際的工作負載上,用你實際的數據來測量。
這就是 Bakeoff 的用途。
JieGou Bakeoff 如何運作
Bakeoff 是兩個或多個模型配置的結構化比較,使用 LLM 作為評審,以相同的輸入進行評估,並附帶統計信賴區間。以下是設定方式:
組別(Arms)。 每個組別是你想測試的模型配置。一個組別指定模型提供者、模型 ID、溫度、最大 token 數及其他參數。你可以在單次 Bakeoff 中比較兩個組別(A/B 測試)或最多八個組別。
輸入。 每個組別處理的測試數據。你可以使用來自 Recipe 歷史記錄的真實生產輸入、手動製作的邊界案例,或由 JieGou 輸入產生器生成的合成輸入。每次 Bakeoff 支援最多 10 個輸入,總計上限為 40 個單元格(組別乘以輸入)。
評估。 每個單元格由 LLM 評審根據加權標準評分 — 預設包括相關性、完整性、清晰度、準確性和格式。分數範圍從 0 到 100。位置隨機化防止順序偏差。多評審模式運行 2-3 個獨立評審,並使用 Kendall’s tau 相關性衡量評審間一致性。
成本追蹤。 每個單元格記錄 token 數量和每組別成本,因此你不僅能看到哪個模型更好,還能看到哪個模型每花費一美元表現更好。
信賴區間。 結果包含 95% 信賴區間。當組別之間的區間重疊時,JieGou 會標記 — 差異可能沒有意義。這防止團隊基於雜訊做出決策。
案例研究:10 個 Recipe 類別,3 個模型
我們在 10 個代表性 Recipe 類別中進行了 Bakeoff,每個類別 100 個輸入(每個模型共 1,000 次 Recipe 執行)。三個組別:
- Llama 4 (70B) — Meta 最新的開源模型,在 2x A100 GPU 上自行託管
- Claude Sonnet 4.6 — Anthropic 的中階商用模型,透過 API 存取
- GPT-5.2 — OpenAI 的旗艦模型,透過 API 存取
每個輸入由兩個獨立評審(Claude Opus 4.6 和 GPT-5.2)以位置隨機化方式評分。分數取評審和輸入的平均值。成本以實際 API 支出(Claude 和 GPT-5.2)和推算的計算成本(自行託管的 Llama 4)來衡量。
結果
| 類別 | Llama 4 | Claude Sonnet 4.6 | GPT-5.2 | 成本/次 (Llama) | 成本/次 (Claude) | 成本/次 (GPT) | 勝出者 |
|---|---|---|---|---|---|---|---|
| 內容生成 | 81 | 89 | 87 | $0.003 | $0.018 | $0.024 | Claude |
| 數據擷取 | 88 | 90 | 89 | $0.002 | $0.014 | $0.019 | Llama (成本調整) |
| 摘要 | 84 | 88 | 87 | $0.004 | $0.021 | $0.028 | Claude |
| 分類 | 91 | 92 | 91 | $0.001 | $0.008 | $0.011 | Llama (成本調整) |
| 翻譯 | 86 | 84 | 85 | $0.003 | $0.016 | $0.022 | Llama |
| 程式碼審查 | 74 | 88 | 86 | $0.005 | $0.025 | $0.032 | Claude |
| 客戶支援 | 82 | 87 | 85 | $0.003 | $0.015 | $0.020 | Claude |
| 研究 | 79 | 86 | 88 | $0.006 | $0.028 | $0.035 | GPT-5.2 |
| 分析 | 76 | 87 | 85 | $0.005 | $0.024 | $0.031 | Claude |
| 創意寫作 | 77 | 91 | 84 | $0.004 | $0.020 | $0.026 | Claude |
主要發現:
-
Llama 4 在成本敏感任務上勝出。 對於分類、數據擷取和翻譯 — 品質差距小(1-3 分)且數量大的任務 — Llama 4 每次執行成本低 5-8 倍。以每月 10,000 次執行計算,差異就是 10 美元的帳單和 80 美元的帳單。對於大規模運行這些 Recipe 的部門來說,節省是實質的。
-
Claude Sonnet 4.6 在細微差異上勝出。 內容生成、創意寫作、程式碼審查和分析 — 需要理解語境、維持語調和產出細膩輸出的任務 — Claude 展現出一致的 8-15 分品質優勢。當輸出品質直接影響商業成果時,成本溢價(比 Llama 4 高 5-7 倍)是合理的。
-
GPT-5.2 具有競爭力但最昂貴。 GPT-5.2 在研究類別中完全勝出,在大多數其他類別中與 Claude 相差 1-2 分。但每次執行成本比 Claude 高 30-40%,價值主張有限。當其特定優勢(深度研究、特定推理模式)與任務一致時,它是最佳選擇。
-
品質差距取決於任務。 Llama 4 在結構化任務上與商用模型相差 2 分以內(分類:91 對 92;數據擷取:88 對 90)。在開放式任務上(創意寫作:77 對 91;分析:76 對 87),差距顯著擴大。沒有單一的「最佳模型」— 只有每個任務的最佳模型。
何時使用開源 vs. 商用模型
根據這些結果和數百次客戶 Bakeoff,以下是決策框架:
使用開源(Llama 4、Mistral 3、DeepSeek-V3.2、Qwen3)的時機:
- 成本優先於品質要求。 如果任務是高量且品質標準為「足夠好」(分類、擷取、簡單摘要),開源模型 5-8 倍的成本節省會快速累積。每月執行 50,000 次的 Recipe 可以節省數千美元。
- 數據必須留在本地。 自行託管的模型意味著你的數據永遠不會離開你的基礎設施。對於處理 PHI 的醫療機構、有數據居留要求的金融機構,或處理機密資訊的政府機關,這不是偏好 — 而是強制要求。
- 延遲要求嚴格。 專用硬體上的自行託管模型提供一致的低於 100ms 推理延遲。基於 API 的商用模型會增加網路往返時間、佇列等待時間和速率限制,可能將 p99 延遲推高到 2 秒以上。
- 你需要完全控制模型。 微調、量化、自定義分詞器、推理優化 — 開源讓你可以修改整個技術棧。商用 API 只提供參數。
使用商用(Claude、GPT-5.2)的時機:
- 品質至關重要。 對於面向客戶的內容、法律文件分析、複雜程式碼審查和細膩的創意任務,商用模型 8-15 分的品質優勢直接轉化為更好的商業成果。一個好 10% 的客服回覆可能就是留住客戶和流失客戶的差別。
- 需要複雜推理。 多步驟推理、長語境理解,以及需要在數千個 token 之間保持連貫性的任務,仍然偏向商用模型。差距正在縮小,但尚未消失。
- 合規要求特定提供者。 某些企業合規框架指定了批准的 AI 供應商。如果你的組織安全審查已批准 Anthropic 或 OpenAI 但尚未評估開源模型,在審查完成之前,商用模型是合規的選擇。
- 你需要託管基礎設施。 基於 API 的模型不需要任何基礎設施管理。無需 GPU 採購、無需模型服務、無需版本升級、無需容量規劃。對於缺乏 ML 基礎設施專業知識的團隊來說,這種營運簡便性有實際價值。
混合策略
最精明的 JieGou 客戶不會只選擇其中一種。他們使用 Bakeoff 為每個 Recipe 找到最佳模型,並建立多模型工作流:
- 步驟 1(分類): Llama 4 — 快速、便宜、準確度足夠
- 步驟 2(分析): Claude Sonnet 4.6 — 需要細膩的推理
- 步驟 3(格式化): Llama 4 — 結構化輸出,不需要創意
- 步驟 4(審查摘要): Claude Sonnet 4.6 — 面向客戶的品質
此工作流比每個步驟都使用 Claude 節省 40% 的成本,且最終輸出沒有可衡量的品質損失。JieGou 的 BYOK 架構使這變得輕而易舉 — 工作流中的每個步驟都可以使用不同的提供者和模型。
執行你自己的 Bakeoff
這些結果作為起點很有用,但唯一重要的結果是在你的數據上、用你的提示詞、針對你的品質標準所測量的結果。每個組織的工作負載都不同,最佳模型組合取決於你的特定需求。
JieGou 的 Bakeoff 系統讓你可以並排比較任何模型:配置你的組別、提供你的輸入(或生成合成輸入)、定義你的評估標準,然後在幾分鐘內獲得附帶信賴區間和成本追蹤的評分結果。
你可以在 console.jiegou.ai/bakeoffs/new 開始新的 Bakeoff。無最低承諾、無需設定 — 只需選擇你的模型和數據。
根據基準排行榜選擇模型的時代已經結束。在重要的工作負載上測量重要的指標,讓數據來決定。