我们在 Llama 4 和 Claude 上执行了 1,000 个 Recipe — 以下是我们的发现

开源 LLM 的转捩点

2026 年初,情况发生了转变。Mistral 3 在标准基准测试中达到 GPT-5.2 品质的 92% — 而成本仅为 15%。DeepSeek-V3.2 展示了六个月前还只有顶级模型才具备的推理能力。Qwen3 在多语言任务上进一步缩小了差距。而 Meta 的 Llama 4 带来了参数高效的架构,可以在通用硬体上运行,且不再需要过去无法避免的品质妥协。

开源不再是一种妥协。对于越来越多的使用场景来说,它是策略上更优越的选择 — 更低的成本、无供应商依赖、本地部署选项,以及对任务而言足够接近(甚至更好)的品质。

但「足够接近」这个词承载了很多含义。开源和商用模型之间的差距并不均匀。它因任务类型而有巨大差异,而唯一能知道开源在哪里胜出、在哪里不足的方法就是测量。不是基准测试 — 而是在你实际的工作负载上,用你实际的数据来测量。

这就是 Bakeoff 的用途。

JieGou Bakeoff 如何运作

Bakeoff 是两个或多个模型配置的结构化比较,使用 LLM 作为评审,以相同的输入进行评估,并附带统计信赖区间。以下是设定方式:

组别(Arms)。 每个组别是你想测试的模型配置。一个组别指定模型提供者、模型 ID、温度、最大 token 数及其他参数。你可以在单次 Bakeoff 中比较两个组别(A/B 测试)或最多八个组别。

输入。 每个组别处理的测试数据。你可以使用来自 Recipe 历史记录的真实生产输入、手动制作的边界案例,或由 JieGou 输入产生器生成的合成输入。每次 Bakeoff 支援最多 10 个输入,总计上限为 40 个单元格(组别乘以输入)。

评估。 每个单元格由 LLM 评审根据加权标准评分 — 预设包括相关性、完整性、清晰度、准确性和格式。分数范围从 0 到 100。位置随机化防止顺序偏差。多评审模式运行 2-3 个独立评审,并使用 Kendall’s tau 相关性衡量评审间一致性。

成本追踪。 每个单元格记录 token 数量和每组别成本,因此你不仅能看到哪个模型更好,还能看到哪个模型每花费一美元表现更好。

信赖区间。 结果包含 95% 信赖区间。当组别之间的区间重叠时,JieGou 会标记 — 差异可能没有意义。这防止团队基于杂讯做出决策。

案例研究:10 个 Recipe 类别,3 个模型

我们在 10 个代表性 Recipe 类别中进行了 Bakeoff,每个类别 100 个输入(每个模型共 1,000 次 Recipe 执行)。三个组别:

Llama 4 (70B) — Meta 最新的开源模型,在 2x A100 GPU 上自行托管
Claude Sonnet 4.6 — Anthropic 的中阶商用模型,透过 API 存取
GPT-5.2 — OpenAI 的旗舰模型,透过 API 存取

每个输入由两个独立评审(Claude Opus 4.6 和 GPT-5.2)以位置随机化方式评分。分数取评审和输入的平均值。成本以实际 API 支出(Claude 和 GPT-5.2)和推算的计算成本(自行托管的 Llama 4)来衡量。

结果

类别	Llama 4	Claude Sonnet 4.6	GPT-5.2	成本/次 (Llama)	成本/次 (Claude)	成本/次 (GPT)	胜出者
内容生成	81	89	87	$0.003	$0.018	$0.024	Claude
数据撷取	88	90	89	$0.002	$0.014	$0.019	Llama (成本调整)
摘要	84	88	87	$0.004	$0.021	$0.028	Claude
分类	91	92	91	$0.001	$0.008	$0.011	Llama (成本调整)
翻译	86	84	85	$0.003	$0.016	$0.022	Llama
程式码审查	74	88	86	$0.005	$0.025	$0.032	Claude
客户支援	82	87	85	$0.003	$0.015	$0.020	Claude
研究	79	86	88	$0.006	$0.028	$0.035	GPT-5.2
分析	76	87	85	$0.005	$0.024	$0.031	Claude
创意写作	77	91	84	$0.004	$0.020	$0.026	Claude

主要发现：

Llama 4 在成本敏感任务上胜出。 对于分类、数据撷取和翻译 — 品质差距小(1-3 分)且数量大的任务 — Llama 4 每次执行成本低 5-8 倍。以每月 10,000 次执行计算,差异就是 10 美元的帐单和 80 美元的帐单。对于大规模运行这些 Recipe 的部门来说,节省是实质的。
Claude Sonnet 4.6 在细微差异上胜出。 内容生成、创意写作、程式码审查和分析 — 需要理解语境、维持语调和产出细腻输出的任务 — Claude 展现出一致的 8-15 分品质优势。当输出品质直接影响商业成果时,成本溢价(比 Llama 4 高 5-7 倍)是合理的。
GPT-5.2 具有竞争力但最昂贵。 GPT-5.2 在研究类别中完全胜出,在大多数其他类别中与 Claude 相差 1-2 分。但每次执行成本比 Claude 高 30-40%,价值主张有限。当其特定优势(深度研究、特定推理模式)与任务一致时,它是最佳选择。
品质差距取决于任务。 Llama 4 在结构化任务上与商用模型相差 2 分以内(分类：91 对 92；数据撷取：88 对 90)。在开放式任务上(创意写作：77 对 91；分析：76 对 87),差距显著扩大。没有单一的「最佳模型」— 只有每个任务的最佳模型。

何时使用开源 vs. 商用模型

根据这些结果和数百次客户 Bakeoff,以下是决策框架：

使用开源（Llama 4、Mistral 3、DeepSeek-V3.2、Qwen3）的时机：

成本优先于品质要求。 如果任务是高量且品质标准为「足够好」（分类、撷取、简单摘要）,开源模型 5-8 倍的成本节省会快速累积。每月执行 50,000 次的 Recipe 可以节省数千美元。
数据必须留在本地。 自行托管的模型意味着你的数据永远不会离开你的基础设施。对于处理 PHI 的医疗机构、有数据居留要求的金融机构,或处理机密资讯的政府机关,这不是偏好 — 而是强制要求。
延迟要求严格。 专用硬体上的自行托管模型提供一致的低于 100ms 推理延迟。基于 API 的商用模型会增加网路往返时间、伫列等待时间和速率限制,可能将 p99 延迟推高到 2 秒以上。
你需要完全控制模型。 微调、量化、自定义分词器、推理优化 — 开源让你可以修改整个技术栈。商用 API 只提供参数。

使用商用（Claude、GPT-5.2）的时机：

品质至关重要。 对于面向客户的内容、法律文件分析、复杂程式码审查和细腻的创意任务,商用模型 8-15 分的品质优势直接转化为更好的商业成果。一个好 10% 的客服回复可能就是留住客户和流失客户的差别。
需要复杂推理。 多步骤推理、长语境理解,以及需要在数千个 token 之间保持连贯性的任务,仍然偏向商用模型。差距正在缩小,但尚未消失。
合规要求特定提供者。 某些企业合规框架指定了批准的 AI 供应商。如果你的组织安全审查已批准 Anthropic 或 OpenAI 但尚未评估开源模型,在审查完成之前,商用模型是合规的选择。
你需要托管基础设施。 基于 API 的模型不需要任何基础设施管理。无需 GPU 采购、无需模型服务、无需版本升级、无需容量规划。对于缺乏 ML 基础设施专业知识的团队来说,这种营运简便性有实际价值。

混合策略

最精明的 JieGou 客户不会只选择其中一种。他们使用 Bakeoff 为每个 Recipe 找到最佳模型,并建立多模型工作流：

步骤 1（分类）： Llama 4 — 快速、便宜、准确度足够
步骤 2（分析）： Claude Sonnet 4.6 — 需要细腻的推理
步骤 3（格式化）： Llama 4 — 结构化输出,不需要创意
步骤 4（审查摘要）： Claude Sonnet 4.6 — 面向客户的品质

此工作流比每个步骤都使用 Claude 节省 40% 的成本,且最终输出没有可衡量的品质损失。JieGou 的 BYOK 架构使这变得轻而易举 — 工作流中的每个步骤都可以使用不同的提供者和模型。

执行你自己的 Bakeoff

这些结果作为起点很有用,但唯一重要的结果是在你的数据上、用你的提示词、针对你的品质标准所测量的结果。每个组织的工作负载都不同,最佳模型组合取决于你的特定需求。

JieGou 的 Bakeoff 系统让你可以并排比较任何模型：配置你的组别、提供你的输入（或生成合成输入）、定义你的评估标准,然后在几分钟内获得附带信赖区间和成本追踪的评分结果。

你可以在 console.jiegou.ai/bakeoffs/new 开始新的 Bakeoff。无最低承诺、无需设定 — 只需选择你的模型和数据。

根据基准排行榜选择模型的时代已经结束。在重要的工作负载上测量重要的指标,让数据来决定。