JieGou 支援来自 Anthropic (Claude)、OpenAI (GPT、o-series) 和 Google (Gemini) 的模型。您可以为每个 recipe 和每个 workflow 步骤选择不同的模型。但面对这么多选项,您该如何决定在哪里使用哪个模型?
本指南将介绍一个实用的模型选择框架。
从任务类型开始
不同的模型有不同的优势。根据我们用户群中数千次 recipe 执行的经验,以下是一些通用模式:
长篇写作和细腻度 — Claude (Sonnet 和 Opus) 往往能产生更自然、更细腻的文字。如果您的 recipe 需要生成面向客户的内容、行销文案或详细分析,Claude 是一个很好的起点。
结构化提取和分类 — GPT 模型通常擅长从非结构化文本中提取结构化数据。发票解析、工单分类和数据转换任务通常在 GPT 上表现良好。
速度敏感的任务 — 对于延迟比质量上限更重要的任务(聊天回应、即时建议),较小的模型如 Claude Haiku、GPT-5-mini 或 Gemini Flash 能以较低成本提供更快的回应。
推理密集型任务 — 对于需要多步骤逻辑、规划或数学推理的任务,o-series 模型 (o3、o4-mini) 和 Gemini Pro 值得测试。
这些是指导原则,而非硬性规则。适合您特定 recipe 的模型取决于您的提示词、您的数据和您的质量标准。
使用 bakeoffs 进行验证
与其猜测,不如使用 JieGou 的 bakeoff 系统进行实证测试。以下是一个实用的工作流程:
第一轮:快速筛选 (3 个模型,10 个输入)
创建一个 recipe bakeoff,比较您的前 3 个候选模型在 10 个代表性输入上的表现。使用单一 LLM 评审。这只需要几分钟,就能给您一个方向性的信号。
寻找明显的赢家和输家。如果某个模型的得分明显较低,就淘汰它。如果两个模型得分接近,它们都进入第二轮。
第二轮:统计评估 (2 个模型,50 个输入)
取前 2 名候选者,使用 50 个输入和多评审评估进行更严格的 bakeoff。检查信赖区间 — 如果它们没有重叠,您就有了赢家。如果重叠,表示这些模型在此任务上功能上是等效的,您应该根据成本或速度来决定。
第三轮:生产环境 A/B 测试 (可选)
如果离线评估结果不明确,或者您需要生产环境验证,请设置即时 A/B 测试。在两个变体之间分配流量 48-72 小时,让自动停止机制根据实际表现确定赢家。
考虑成本与质量的权衡
模型定价差异很大。一个前沿模型可能在质量上高出 5%,但每个 token 的成本却是 10 倍。对于许多任务来说,这种权衡并不值得。
JieGou bakeoffs 会在质量分数旁边显示成本比较,让您做出明智的决策。常见的发现:
- 对于 80% 的内部任务(摘要、草稿、分类),中阶模型以一小部分成本就能产生与前沿模型相当的质量
- 对于面向客户的内容和高风险分析,前沿模型的质量差异值得付出成本
- 对于高量、低复杂度的任务(分类、提取),使用最小但足够的模型最省钱
在 workflows 中混合使用模型
JieGou 的优势之一是在 workflows 中可以为每个步骤选择模型。一个常见的模式:
- 提取步骤 — 使用快速、便宜的模型 (Haiku、GPT-5-mini) 从输入中提取结构化数据
- 分析步骤 — 使用专注于推理的模型 (o3、Gemini Pro) 分析提取的数据
- 写作步骤 — 使用强大的写作模型 (Claude Sonnet、GPT-5) 产生最终输出
每个步骤都使用最适合其任务类型的模型,在整个 workflow 中优化质量和成本。
定期重新评估
模型能力会随着新版本发布而改变。六个月前排名第二的模型今天可能是最佳选择。设置提醒每季度重新运行您的 bakeoffs,特别是在重大模型更新之后。
JieGou 让这变得很容易 — 您的 bakeoff 配置会被保存,所以使用更新的模型重新运行只需点击一次。
开始使用
所有方案都提供多供应商模型支援。Pro 方案提供用于模型比较的 Bakeoffs。探索所有支援的模型 或 开始您的第一个 bakeoff。