JieGou 支援来自 Anthropic、OpenAI 和 Google 的模型。我们之所以这样设计,是因为没有任何单一模型在所有任务上都是最佳选择——在我们的 Recipe Factory pipeline 执行数千次自动化测试后,数据证实了这一点。
以下是我们观察到的模型在实际商业任务上的表现,而非合成基准测试的结果。
内容生成:Claude 在结构化方面领先
在部落格文章大纲、电子邮件草稿、提案摘要和客户沟通等任务中,Claude 模型持续产出结构更好的内容。其写作内容组织成清晰的段落,紧密遵循要求的格式,并保持专业语调而不显僵硬。
Claude Sonnet 4.5 是大多数内容生成任务的最佳选择。它的速度足以应付互动式使用,产出高品质文案,并能可靠地遵循输出 schema。Opus 4.5 在复杂写作任务上产出稍微更好的内容,但成本和延迟明显更高。
GPT-5.1 在内容生成方面具有竞争力,特别是在较短的输出上,如电子邮件主旨、社群媒体贴文和广告文案。在给定范例时,它擅长匹配特定的语调和风格。
Gemini 2.5 Pro 能胜任内容生成,但倾向于产出较冗长的内容。当你想要全面涵盖某个主题时效果很好,但需要更多 schema 规范来保持输出聚焦。
资料萃取:较便宜的模型就够用了
从非结构化文字中萃取结构化资料——发票处理、履历筛选、工单分类——不需要最前沿的模型。任务定义明确:读取输入、识别相关栏位、填入 schema。
Claude Haiku 4.5 和 GPT-5-mini 在萃取任务上表现都很好,成本只是一小部分。它们能可靠地遵循输出 schema,并能处理输入文字中的格式变化而不会出现问题。
Gemini 2.5 Flash Lite 是高量萃取任务最具成本效益的选择。效能与其他轻量级模型相当,但 token 价格更低。
关键洞察:当任务是模式比对时,不要为推理能力付费。一个每百万 token 成本 $0.25 的模型,萃取发票资料的效果与每百万 token 成本 $15 的模型一样好。
复杂分析:推理模型物有所值
SWOT 分析、合约条款审查、交易风险评估和策略规划需要模型考虑多个因素、权衡取舍,并产出细致的结论。这正是前沿和推理模型展现差异的地方。
Claude Opus 4.5 搭配延伸思考产出最彻底的分析。思考预算(10K tokens)让它有空间在产出最终输出前处理复杂推理。它能捕捉到更快模型会遗漏的边缘案例和限定条件。
o3(OpenAI 的推理模型)采取不同的方法——预设使用中等力度的思维链推理。输出在逻辑分析和量化推理方面表现强劲。它特别擅长具有明确标准的任务(交易评分、合规检查)。
Gemini 3 Pro 搭配推理支援产出扎实的分析,但偶尔会包含需要 schema 规范来约束的旁枝观察。
Schema 遵循性:所有现代模型都表现良好
团队担心的一个问题是 AI 是否真的会遵循输出 schema。在我们数千次执行的测试中,所有当前世代的模型产生有效结构化输出的比率都超过 95%。关键因素不是模型——而是 schema 定义。
具有栏位描述、列举约束和范例的清晰 schema,比让模型猜测的最小化 schema 产生更好的遵循性。定义为 risk_level (enum: high, medium, low) — 基于条款分析的整体风险评估 的栏位,比 risk_level (string) 更可靠地被正确填入。
网路搜寻:因供应商而异
对于需要最新资讯的 recipe——潜在客户研究、竞争分析、法规更新——网路搜寻能力很重要。
三家供应商都支援网路搜寻,但实作方式不同:
- Claude 搭配网路搜寻产出来源明确的研究,附有具体引用
- GPT-5.x 搭配网路搜寻擅长将多个来源综合成连贯的叙述
- Gemini 搭配网路搜寻受益于 Google 的搜寻基础设施,倾向于挖掘更多元的来源
特别是在潜在客户研究方面,我们发现 Claude 和 GPT 产出最可行的输出。对于更广泛的市场研究,Gemini 的搜寻广度可以挖掘出其他模型遗漏的来源。
实用建议
大多数团队不需要执行基准测试。以下是适用于大多数使用情境的起始配置:
| 任务类型 | 建议模型 | 原因 |
|---|---|---|
| 内容生成 | Claude Sonnet 4.5 | 最佳结构和语调 |
| 资料萃取 | Claude Haiku 4.5 | 快速、便宜、准确 |
| 复杂分析 | Claude Opus 4.5 | 最深入的推理 |
| 快速分类 | GPT-5-mini | 最低延迟 |
| 高量批次处理 | Gemini 2.5 Flash Lite | 最低成本 |
| 网路搜寻研究 | Claude Sonnet 4.5 | 最佳来源输出 |
然后从那里优化。使用相同的输入,用不同的模型执行同一个 recipe,并比较输出品质。JieGou 追踪执行时间、token 数量,并让你为每次执行附加品质回馈,使比较变得简单直接。
工作流程中的步骤级优化
真正的威力在于在单一工作流程中组合模型。一个五步骤的 workflow 可能使用三种不同的模型:
- 萃取资料(Haiku)——快速、便宜
- 分析模式(Sonnet)——平衡
- 草拟摘要(Haiku)——快速、便宜
- 生成策略建议(Opus)——最高品质
- 格式化为电子邮件(Haiku)——快速、便宜
步骤 1、3 和 5 不需要昂贵的推理。步骤 2 和 4 需要。在步骤层级混合模型可以同时优化整个 workflow 的成本和品质。