Skip to content
产品

我们在 Llama 4 和 Claude 上执行了 1,000 个 Recipe — 以下是我们的发现

一场结构化的比较测试,横跨 10 个 Recipe 类别比较 Llama 4、Claude Sonnet 4.6 和 GPT-5.2 — 附带品质评分、成本数据,以及选择开源或商用 LLM 的决策框架。

JT
JieGou Team
· · 5 分钟阅读

开源 LLM 的转捩点

2026 年初,情况发生了转变。Mistral 3 在标准基准测试中达到 GPT-5.2 品质的 92% — 而成本仅为 15%。DeepSeek-V3.2 展示了六个月前还只有顶级模型才具备的推理能力。Qwen3 在多语言任务上进一步缩小了差距。而 Meta 的 Llama 4 带来了参数高效的架构,可以在通用硬体上运行,且不再需要过去无法避免的品质妥协。

开源不再是一种妥协。对于越来越多的使用场景来说,它是策略上更优越的选择 — 更低的成本、无供应商依赖、本地部署选项,以及对任务而言足够接近(甚至更好)的品质。

但「足够接近」这个词承载了很多含义。开源和商用模型之间的差距并不均匀。它因任务类型而有巨大差异,而唯一能知道开源在哪里胜出、在哪里不足的方法就是测量。不是基准测试 — 而是在你实际的工作负载上,用你实际的数据来测量。

这就是 Bakeoff 的用途。

JieGou Bakeoff 如何运作

Bakeoff 是两个或多个模型配置的结构化比较,使用 LLM 作为评审,以相同的输入进行评估,并附带统计信赖区间。以下是设定方式:

组别(Arms)。 每个组别是你想测试的模型配置。一个组别指定模型提供者、模型 ID、温度、最大 token 数及其他参数。你可以在单次 Bakeoff 中比较两个组别(A/B 测试)或最多八个组别。

输入。 每个组别处理的测试数据。你可以使用来自 Recipe 历史记录的真实生产输入、手动制作的边界案例,或由 JieGou 输入产生器生成的合成输入。每次 Bakeoff 支援最多 10 个输入,总计上限为 40 个单元格(组别乘以输入)。

评估。 每个单元格由 LLM 评审根据加权标准评分 — 预设包括相关性、完整性、清晰度、准确性和格式。分数范围从 0 到 100。位置随机化防止顺序偏差。多评审模式运行 2-3 个独立评审,并使用 Kendall’s tau 相关性衡量评审间一致性。

成本追踪。 每个单元格记录 token 数量和每组别成本,因此你不仅能看到哪个模型更好,还能看到哪个模型每花费一美元表现更好。

信赖区间。 结果包含 95% 信赖区间。当组别之间的区间重叠时,JieGou 会标记 — 差异可能没有意义。这防止团队基于杂讯做出决策。

案例研究:10 个 Recipe 类别,3 个模型

我们在 10 个代表性 Recipe 类别中进行了 Bakeoff,每个类别 100 个输入(每个模型共 1,000 次 Recipe 执行)。三个组别:

  • Llama 4 (70B) — Meta 最新的开源模型,在 2x A100 GPU 上自行托管
  • Claude Sonnet 4.6 — Anthropic 的中阶商用模型,透过 API 存取
  • GPT-5.2 — OpenAI 的旗舰模型,透过 API 存取

每个输入由两个独立评审(Claude Opus 4.6 和 GPT-5.2)以位置随机化方式评分。分数取评审和输入的平均值。成本以实际 API 支出(Claude 和 GPT-5.2)和推算的计算成本(自行托管的 Llama 4)来衡量。

结果

类别Llama 4Claude Sonnet 4.6GPT-5.2成本/次 (Llama)成本/次 (Claude)成本/次 (GPT)胜出者
内容生成818987$0.003$0.018$0.024Claude
数据撷取889089$0.002$0.014$0.019Llama (成本调整)
摘要848887$0.004$0.021$0.028Claude
分类919291$0.001$0.008$0.011Llama (成本调整)
翻译868485$0.003$0.016$0.022Llama
程式码审查748886$0.005$0.025$0.032Claude
客户支援828785$0.003$0.015$0.020Claude
研究798688$0.006$0.028$0.035GPT-5.2
分析768785$0.005$0.024$0.031Claude
创意写作779184$0.004$0.020$0.026Claude

主要发现:

  • Llama 4 在成本敏感任务上胜出。 对于分类、数据撷取和翻译 — 品质差距小(1-3 分)且数量大的任务 — Llama 4 每次执行成本低 5-8 倍。以每月 10,000 次执行计算,差异就是 10 美元的帐单和 80 美元的帐单。对于大规模运行这些 Recipe 的部门来说,节省是实质的。

  • Claude Sonnet 4.6 在细微差异上胜出。 内容生成、创意写作、程式码审查和分析 — 需要理解语境、维持语调和产出细腻输出的任务 — Claude 展现出一致的 8-15 分品质优势。当输出品质直接影响商业成果时,成本溢价(比 Llama 4 高 5-7 倍)是合理的。

  • GPT-5.2 具有竞争力但最昂贵。 GPT-5.2 在研究类别中完全胜出,在大多数其他类别中与 Claude 相差 1-2 分。但每次执行成本比 Claude 高 30-40%,价值主张有限。当其特定优势(深度研究、特定推理模式)与任务一致时,它是最佳选择。

  • 品质差距取决于任务。 Llama 4 在结构化任务上与商用模型相差 2 分以内(分类:91 对 92;数据撷取:88 对 90)。在开放式任务上(创意写作:77 对 91;分析:76 对 87),差距显著扩大。没有单一的「最佳模型」— 只有每个任务的最佳模型。

何时使用开源 vs. 商用模型

根据这些结果和数百次客户 Bakeoff,以下是决策框架:

使用开源(Llama 4、Mistral 3、DeepSeek-V3.2、Qwen3)的时机:

  • 成本优先于品质要求。 如果任务是高量且品质标准为「足够好」(分类、撷取、简单摘要),开源模型 5-8 倍的成本节省会快速累积。每月执行 50,000 次的 Recipe 可以节省数千美元。
  • 数据必须留在本地。 自行托管的模型意味着你的数据永远不会离开你的基础设施。对于处理 PHI 的医疗机构、有数据居留要求的金融机构,或处理机密资讯的政府机关,这不是偏好 — 而是强制要求。
  • 延迟要求严格。 专用硬体上的自行托管模型提供一致的低于 100ms 推理延迟。基于 API 的商用模型会增加网路往返时间、伫列等待时间和速率限制,可能将 p99 延迟推高到 2 秒以上。
  • 你需要完全控制模型。 微调、量化、自定义分词器、推理优化 — 开源让你可以修改整个技术栈。商用 API 只提供参数。

使用商用(Claude、GPT-5.2)的时机:

  • 品质至关重要。 对于面向客户的内容、法律文件分析、复杂程式码审查和细腻的创意任务,商用模型 8-15 分的品质优势直接转化为更好的商业成果。一个好 10% 的客服回复可能就是留住客户和流失客户的差别。
  • 需要复杂推理。 多步骤推理、长语境理解,以及需要在数千个 token 之间保持连贯性的任务,仍然偏向商用模型。差距正在缩小,但尚未消失。
  • 合规要求特定提供者。 某些企业合规框架指定了批准的 AI 供应商。如果你的组织安全审查已批准 Anthropic 或 OpenAI 但尚未评估开源模型,在审查完成之前,商用模型是合规的选择。
  • 你需要托管基础设施。 基于 API 的模型不需要任何基础设施管理。无需 GPU 采购、无需模型服务、无需版本升级、无需容量规划。对于缺乏 ML 基础设施专业知识的团队来说,这种营运简便性有实际价值。

混合策略

最精明的 JieGou 客户不会只选择其中一种。他们使用 Bakeoff 为每个 Recipe 找到最佳模型,并建立多模型工作流:

  • 步骤 1(分类): Llama 4 — 快速、便宜、准确度足够
  • 步骤 2(分析): Claude Sonnet 4.6 — 需要细腻的推理
  • 步骤 3(格式化): Llama 4 — 结构化输出,不需要创意
  • 步骤 4(审查摘要): Claude Sonnet 4.6 — 面向客户的品质

此工作流比每个步骤都使用 Claude 节省 40% 的成本,且最终输出没有可衡量的品质损失。JieGou 的 BYOK 架构使这变得轻而易举 — 工作流中的每个步骤都可以使用不同的提供者和模型。

执行你自己的 Bakeoff

这些结果作为起点很有用,但唯一重要的结果是在你的数据上、用你的提示词、针对你的品质标准所测量的结果。每个组织的工作负载都不同,最佳模型组合取决于你的特定需求。

JieGou 的 Bakeoff 系统让你可以并排比较任何模型:配置你的组别、提供你的输入(或生成合成输入)、定义你的评估标准,然后在几分钟内获得附带信赖区间和成本追踪的评分结果。

你可以在 console.jiegou.ai/bakeoffs/new 开始新的 Bakeoff。无最低承诺、无需设定 — 只需选择你的模型和数据。

根据基准排行榜选择模型的时代已经结束。在重要的工作负载上测量重要的指标,让数据来决定。

bakeoff open-source llm evaluation llama claude cost-optimization
分享这篇文章

喜欢这篇文章吗?

在您的信箱中获取工作流程技巧、产品更新和自动化指南。

No spam. Unsubscribe anytime.