我們在 Llama 4 和 Claude 上執行了 1,000 個 Recipe — 以下是我們的發現

開源 LLM 的轉捩點

2026 年初,情況發生了轉變。Mistral 3 在標準基準測試中達到 GPT-5.2 品質的 92% — 而成本僅為 15%。DeepSeek-V3.2 展示了六個月前還只有頂級模型才具備的推理能力。Qwen3 在多語言任務上進一步縮小了差距。而 Meta 的 Llama 4 帶來了參數高效的架構,可以在通用硬體上運行,且不再需要過去無法避免的品質妥協。

開源不再是一種妥協。對於越來越多的使用場景來說,它是策略上更優越的選擇 — 更低的成本、無供應商依賴、本地部署選項,以及對任務而言足夠接近(甚至更好)的品質。

但「足夠接近」這個詞承載了很多含義。開源和商用模型之間的差距並不均勻。它因任務類型而有巨大差異,而唯一能知道開源在哪裡勝出、在哪裡不足的方法就是測量。不是基準測試 — 而是在你實際的工作負載上,用你實際的數據來測量。

這就是 Bakeoff 的用途。

JieGou Bakeoff 如何運作

Bakeoff 是兩個或多個模型配置的結構化比較,使用 LLM 作為評審,以相同的輸入進行評估,並附帶統計信賴區間。以下是設定方式:

組別(Arms)。 每個組別是你想測試的模型配置。一個組別指定模型提供者、模型 ID、溫度、最大 token 數及其他參數。你可以在單次 Bakeoff 中比較兩個組別(A/B 測試)或最多八個組別。

輸入。 每個組別處理的測試數據。你可以使用來自 Recipe 歷史記錄的真實生產輸入、手動製作的邊界案例,或由 JieGou 輸入產生器生成的合成輸入。每次 Bakeoff 支援最多 10 個輸入,總計上限為 40 個單元格(組別乘以輸入)。

評估。 每個單元格由 LLM 評審根據加權標準評分 — 預設包括相關性、完整性、清晰度、準確性和格式。分數範圍從 0 到 100。位置隨機化防止順序偏差。多評審模式運行 2-3 個獨立評審,並使用 Kendall’s tau 相關性衡量評審間一致性。

成本追蹤。 每個單元格記錄 token 數量和每組別成本,因此你不僅能看到哪個模型更好,還能看到哪個模型每花費一美元表現更好。

信賴區間。 結果包含 95% 信賴區間。當組別之間的區間重疊時,JieGou 會標記 — 差異可能沒有意義。這防止團隊基於雜訊做出決策。

案例研究:10 個 Recipe 類別,3 個模型

我們在 10 個代表性 Recipe 類別中進行了 Bakeoff,每個類別 100 個輸入(每個模型共 1,000 次 Recipe 執行)。三個組別:

Llama 4 (70B) — Meta 最新的開源模型,在 2x A100 GPU 上自行託管
Claude Sonnet 4.6 — Anthropic 的中階商用模型,透過 API 存取
GPT-5.2 — OpenAI 的旗艦模型,透過 API 存取

每個輸入由兩個獨立評審(Claude Opus 4.6 和 GPT-5.2)以位置隨機化方式評分。分數取評審和輸入的平均值。成本以實際 API 支出(Claude 和 GPT-5.2)和推算的計算成本(自行託管的 Llama 4)來衡量。

結果

類別	Llama 4	Claude Sonnet 4.6	GPT-5.2	成本/次 (Llama)	成本/次 (Claude)	成本/次 (GPT)	勝出者
內容生成	81	89	87	$0.003	$0.018	$0.024	Claude
數據擷取	88	90	89	$0.002	$0.014	$0.019	Llama (成本調整)
摘要	84	88	87	$0.004	$0.021	$0.028	Claude
分類	91	92	91	$0.001	$0.008	$0.011	Llama (成本調整)
翻譯	86	84	85	$0.003	$0.016	$0.022	Llama
程式碼審查	74	88	86	$0.005	$0.025	$0.032	Claude
客戶支援	82	87	85	$0.003	$0.015	$0.020	Claude
研究	79	86	88	$0.006	$0.028	$0.035	GPT-5.2
分析	76	87	85	$0.005	$0.024	$0.031	Claude
創意寫作	77	91	84	$0.004	$0.020	$0.026	Claude

主要發現：

Llama 4 在成本敏感任務上勝出。 對於分類、數據擷取和翻譯 — 品質差距小(1-3 分)且數量大的任務 — Llama 4 每次執行成本低 5-8 倍。以每月 10,000 次執行計算,差異就是 10 美元的帳單和 80 美元的帳單。對於大規模運行這些 Recipe 的部門來說,節省是實質的。
Claude Sonnet 4.6 在細微差異上勝出。 內容生成、創意寫作、程式碼審查和分析 — 需要理解語境、維持語調和產出細膩輸出的任務 — Claude 展現出一致的 8-15 分品質優勢。當輸出品質直接影響商業成果時,成本溢價(比 Llama 4 高 5-7 倍)是合理的。
GPT-5.2 具有競爭力但最昂貴。 GPT-5.2 在研究類別中完全勝出,在大多數其他類別中與 Claude 相差 1-2 分。但每次執行成本比 Claude 高 30-40%,價值主張有限。當其特定優勢(深度研究、特定推理模式)與任務一致時,它是最佳選擇。
品質差距取決於任務。 Llama 4 在結構化任務上與商用模型相差 2 分以內(分類：91 對 92；數據擷取：88 對 90)。在開放式任務上(創意寫作：77 對 91；分析：76 對 87),差距顯著擴大。沒有單一的「最佳模型」— 只有每個任務的最佳模型。

何時使用開源 vs. 商用模型

根據這些結果和數百次客戶 Bakeoff,以下是決策框架：

使用開源（Llama 4、Mistral 3、DeepSeek-V3.2、Qwen3）的時機：

成本優先於品質要求。 如果任務是高量且品質標準為「足夠好」（分類、擷取、簡單摘要）,開源模型 5-8 倍的成本節省會快速累積。每月執行 50,000 次的 Recipe 可以節省數千美元。
數據必須留在本地。 自行託管的模型意味著你的數據永遠不會離開你的基礎設施。對於處理 PHI 的醫療機構、有數據居留要求的金融機構,或處理機密資訊的政府機關,這不是偏好 — 而是強制要求。
延遲要求嚴格。 專用硬體上的自行託管模型提供一致的低於 100ms 推理延遲。基於 API 的商用模型會增加網路往返時間、佇列等待時間和速率限制,可能將 p99 延遲推高到 2 秒以上。
你需要完全控制模型。 微調、量化、自定義分詞器、推理優化 — 開源讓你可以修改整個技術棧。商用 API 只提供參數。

使用商用（Claude、GPT-5.2）的時機：

品質至關重要。 對於面向客戶的內容、法律文件分析、複雜程式碼審查和細膩的創意任務,商用模型 8-15 分的品質優勢直接轉化為更好的商業成果。一個好 10% 的客服回覆可能就是留住客戶和流失客戶的差別。
需要複雜推理。 多步驟推理、長語境理解,以及需要在數千個 token 之間保持連貫性的任務,仍然偏向商用模型。差距正在縮小,但尚未消失。
合規要求特定提供者。 某些企業合規框架指定了批准的 AI 供應商。如果你的組織安全審查已批准 Anthropic 或 OpenAI 但尚未評估開源模型,在審查完成之前,商用模型是合規的選擇。
你需要託管基礎設施。 基於 API 的模型不需要任何基礎設施管理。無需 GPU 採購、無需模型服務、無需版本升級、無需容量規劃。對於缺乏 ML 基礎設施專業知識的團隊來說,這種營運簡便性有實際價值。

混合策略

最精明的 JieGou 客戶不會只選擇其中一種。他們使用 Bakeoff 為每個 Recipe 找到最佳模型,並建立多模型工作流：

步驟 1（分類）： Llama 4 — 快速、便宜、準確度足夠
步驟 2（分析）： Claude Sonnet 4.6 — 需要細膩的推理
步驟 3（格式化）： Llama 4 — 結構化輸出,不需要創意
步驟 4（審查摘要）： Claude Sonnet 4.6 — 面向客戶的品質

此工作流比每個步驟都使用 Claude 節省 40% 的成本,且最終輸出沒有可衡量的品質損失。JieGou 的 BYOK 架構使這變得輕而易舉 — 工作流中的每個步驟都可以使用不同的提供者和模型。

執行你自己的 Bakeoff

這些結果作為起點很有用,但唯一重要的結果是在你的數據上、用你的提示詞、針對你的品質標準所測量的結果。每個組織的工作負載都不同,最佳模型組合取決於你的特定需求。

JieGou 的 Bakeoff 系統讓你可以並排比較任何模型：配置你的組別、提供你的輸入（或生成合成輸入）、定義你的評估標準,然後在幾分鐘內獲得附帶信賴區間和成本追蹤的評分結果。

你可以在 console.jiegou.ai/bakeoffs/new 開始新的 Bakeoff。無最低承諾、無需設定 — 只需選擇你的模型和數據。

根據基準排行榜選擇模型的時代已經結束。在重要的工作負載上測量重要的指標,讓數據來決定。