何时该用 Claude、GPT 还是 Gemini(来自数千个工作流程的实战经验)

JieGou 支援来自 Anthropic、OpenAI 和 Google 的模型。我们之所以这样设计,是因为没有任何单一模型在所有任务上都是最佳选择——在我们的 Recipe Factory pipeline 执行数千次自动化测试后,数据证实了这一点。

以下是我们观察到的模型在实际商业任务上的表现,而非合成基准测试的结果。

内容生成:Claude 在结构化方面领先

在部落格文章大纲、电子邮件草稿、提案摘要和客户沟通等任务中,Claude 模型持续产出结构更好的内容。其写作内容组织成清晰的段落,紧密遵循要求的格式,并保持专业语调而不显僵硬。

Claude Sonnet 4.5 是大多数内容生成任务的最佳选择。它的速度足以应付互动式使用,产出高品质文案,并能可靠地遵循输出 schema。Opus 4.5 在复杂写作任务上产出稍微更好的内容,但成本和延迟明显更高。

GPT-5.1 在内容生成方面具有竞争力,特别是在较短的输出上,如电子邮件主旨、社群媒体贴文和广告文案。在给定范例时,它擅长匹配特定的语调和风格。

Gemini 2.5 Pro 能胜任内容生成,但倾向于产出较冗长的内容。当你想要全面涵盖某个主题时效果很好,但需要更多 schema 规范来保持输出聚焦。

从非结构化文字中萃取结构化资料——发票处理、履历筛选、工单分类——不需要最前沿的模型。任务定义明确:读取输入、识别相关栏位、填入 schema。

Claude Haiku 4.5 和 GPT-5-mini 在萃取任务上表现都很好,成本只是一小部分。它们能可靠地遵循输出 schema,并能处理输入文字中的格式变化而不会出现问题。

Gemini 2.5 Flash Lite 是高量萃取任务最具成本效益的选择。效能与其他轻量级模型相当,但 token 价格更低。

关键洞察:当任务是模式比对时,不要为推理能力付费。一个每百万 token 成本 $0.25 的模型,萃取发票资料的效果与每百万 token 成本 $15 的模型一样好。

SWOT 分析、合约条款审查、交易风险评估和策略规划需要模型考虑多个因素、权衡取舍,并产出细致的结论。这正是前沿和推理模型展现差异的地方。

Claude Opus 4.5 搭配延伸思考产出最彻底的分析。思考预算(10K tokens)让它有空间在产出最终输出前处理复杂推理。它能捕捉到更快模型会遗漏的边缘案例和限定条件。

o3(OpenAI 的推理模型)采取不同的方法——预设使用中等力度的思维链推理。输出在逻辑分析和量化推理方面表现强劲。它特别擅长具有明确标准的任务(交易评分、合规检查)。

Gemini 3 Pro 搭配推理支援产出扎实的分析,但偶尔会包含需要 schema 规范来约束的旁枝观察。

团队担心的一个问题是 AI 是否真的会遵循输出 schema。在我们数千次执行的测试中,所有当前世代的模型产生有效结构化输出的比率都超过 95%。关键因素不是模型——而是 schema 定义。

具有栏位描述、列举约束和范例的清晰 schema,比让模型猜测的最小化 schema 产生更好的遵循性。定义为 risk_level (enum: high, medium, low) — 基于条款分析的整体风险评估 的栏位,比 risk_level (string) 更可靠地被正确填入。

对于需要最新资讯的 recipe——潜在客户研究、竞争分析、法规更新——网路搜寻能力很重要。

三家供应商都支援网路搜寻,但实作方式不同:

特别是在潜在客户研究方面,我们发现 Claude 和 GPT 产出最可行的输出。对于更广泛的市场研究,Gemini 的搜寻广度可以挖掘出其他模型遗漏的来源。

大多数团队不需要执行基准测试。以下是适用于大多数使用情境的起始配置:

然后从那里优化。使用相同的输入,用不同的模型执行同一个 recipe,并比较输出品质。JieGou 追踪执行时间、token 数量,并让你为每次执行附加品质回馈,使比较变得简单直接。

真正的威力在于在单一工作流程中组合模型。一个五步骤的 workflow 可能使用三种不同的模型:

步骤 1、3 和 5 不需要昂贵的推理。步骤 2 和 4 需要。在步骤层级混合模型可以同时优化整个 workflow 的成本和品质。