如何为您的使用情境找到最佳的 LLM

JieGou 支援来自 Anthropic (Claude)、OpenAI (GPT、o-series) 和 Google (Gemini) 的模型。您可以为每个 recipe 和每个 workflow 步骤选择不同的模型。但面对这么多选项,您该如何决定在哪里使用哪个模型?

本指南将介绍一个实用的模型选择框架。

从任务类型开始

不同的模型有不同的优势。根据我们用户群中数千次 recipe 执行的经验,以下是一些通用模式:

长篇写作和细腻度 — Claude (Sonnet 和 Opus) 往往能产生更自然、更细腻的文字。如果您的 recipe 需要生成面向客户的内容、行销文案或详细分析,Claude 是一个很好的起点。

结构化提取和分类 — GPT 模型通常擅长从非结构化文本中提取结构化数据。发票解析、工单分类和数据转换任务通常在 GPT 上表现良好。

速度敏感的任务 — 对于延迟比质量上限更重要的任务(聊天回应、即时建议),较小的模型如 Claude Haiku、GPT-5-mini 或 Gemini Flash 能以较低成本提供更快的回应。

推理密集型任务 — 对于需要多步骤逻辑、规划或数学推理的任务,o-series 模型 (o3、o4-mini) 和 Gemini Pro 值得测试。

这些是指导原则,而非硬性规则。适合您特定 recipe 的模型取决于您的提示词、您的数据和您的质量标准。

与其猜测,不如使用 JieGou 的 bakeoff 系统进行实证测试。以下是一个实用的工作流程:

创建一个 recipe bakeoff,比较您的前 3 个候选模型在 10 个代表性输入上的表现。使用单一 LLM 评审。这只需要几分钟,就能给您一个方向性的信号。

寻找明显的赢家和输家。如果某个模型的得分明显较低,就淘汰它。如果两个模型得分接近,它们都进入第二轮。

取前 2 名候选者,使用 50 个输入和多评审评估进行更严格的 bakeoff。检查信赖区间 — 如果它们没有重叠,您就有了赢家。如果重叠,表示这些模型在此任务上功能上是等效的,您应该根据成本或速度来决定。

如果离线评估结果不明确,或者您需要生产环境验证,请设置即时 A/B 测试。在两个变体之间分配流量 48-72 小时,让自动停止机制根据实际表现确定赢家。

模型定价差异很大。一个前沿模型可能在质量上高出 5%,但每个 token 的成本却是 10 倍。对于许多任务来说,这种权衡并不值得。

JieGou bakeoffs 会在质量分数旁边显示成本比较,让您做出明智的决策。常见的发现:

JieGou 的优势之一是在 workflows 中可以为每个步骤选择模型。一个常见的模式:

每个步骤都使用最适合其任务类型的模型,在整个 workflow 中优化质量和成本。

模型能力会随着新版本发布而改变。六个月前排名第二的模型今天可能是最佳选择。设置提醒每季度重新运行您的 bakeoffs,特别是在重大模型更新之后。

JieGou 让这变得很容易 — 您的 bakeoff 配置会被保存,所以使用更新的模型重新运行只需点击一次。

所有方案都提供多供应商模型支援。Pro 方案提供用于模型比较的 Bakeoffs。探索所有支援的模型或开始您的第一个 bakeoff。