JieGouはAnthropic、OpenAI、Googleのモデルをサポートしています。単一のモデルがすべてに最適ではないためにこのように構築しました——そしてRecipe Factoryパイプラインを数千の自動テスト実行にわたって実行した後、データがこれを裏付けています。
合成ベンチマークではなく、実際のビジネスタスクにわたるモデルパフォーマンスについて観察したことをご紹介します。
コンテンツ生成:Claudeが構造でリード
ブログ記事のアウトライン、メール起草、提案書のサマリー、顧客コミュニケーションなどのタスクでは、Claudeモデルが一貫して構造のより良い出力を生成します。文章は明確なセクションに整理され、要求されたフォーマットに忠実に従い、堅苦しくないプロフェッショナルなトーンを維持します。
Claude Sonnet 4.5はほとんどのコンテンツ生成のスイートスポットです。インタラクティブ使用に十分な速度で、高品質な散文を生成し、出力スキーマに確実に従います。Opus 4.5は複雑なライティングタスクでわずかに良い出力を生成しますが、コストとレイテンシーが大幅に高くなります。
GPT-5.1はコンテンツ生成で競争力があり、特にメールの件名、ソーシャルメディア投稿、広告コピーなどの短い出力に強いです。例が与えられた場合の特定のトーンやスタイルのマッチングに優れています。
Gemini 2.5 Proはコンテンツ生成を十分にこなしますが、より冗長な出力になる傾向があります。トピックの包括的なカバレッジが必要な場合にはうまく機能しますが、出力を焦点化するにはスキーマの規律が必要です。
データ抽出:安価なモデルで十分
非構造化テキストからの構造化データ抽出——請求書処理、履歴書スクリーニング、チケットトリアージ——にはフロンティアモデルは不要です。タスクは明確に定義されています:入力を読み取り、関連するフィールドを特定し、スキーマを埋めます。
Claude Haiku 4.5とGPT-5-miniはどちらもコストの一部で抽出タスクを良好にこなします。出力スキーマに確実に従い、入力テキストのフォーマット変動を問題なく処理します。
Gemini 2.5 Flash Liteは大量抽出に最もコスト効率の良いオプションです。パフォーマンスは他の軽量モデルと同等で、トークン価格が低くなっています。
重要なインサイト:タスクがパターンマッチングの場合、推論能力にお金を払わないでください。100万トークンあたり$0.25のモデルは、100万トークンあたり$15のモデルと同様に請求書データを抽出できます。
複雑な分析:推論モデルはコストに見合う
SWOT分析、契約条項レビュー、取引リスク評価、戦略立案では、モデルが複数の要因を考慮し、トレードオフを比較検討し、ニュアンスのある結論を出す必要があります。ここでフロンティアモデルと推論モデルが差別化されます。
Claude Opus 4.5の拡張思考は最も徹底的な分析を生成します。思考予算(10Kトークン)により、最終出力を生成する前に複雑な推論を行う余地があります。高速モデルが見逃すエッジケースや条件を捕捉します。
o3(OpenAIの推論モデル)は異なるアプローチを取ります——デフォルトで中程度の労力の連鎖思考推論を使用します。論理分析と定量的推論に強い出力です。明確な基準を持つタスク(取引スコアリング、コンプライアンスチェック)に特に優れています。
Gemini 3 Proの推論サポートは堅実な分析を生成しますが、時折制約するためにスキーマの規律が必要な傍論的な観察を含むことがあります。
スキーマ準拠:最新のモデルはすべて優秀
チームが懸念することの1つは、AIが実際に出力スキーマに従うかどうかです。数千回の実行にわたるテストでは、すべての現世代モデルが95%以上の率で有効な構造化出力を生成します。主要な要因はモデルではなく——スキーマ定義です。
フィールドの説明、enum制約、例を含む明確なスキーマは、モデルに推測させる最小限のスキーマよりも良いコンプライアンスを生み出します。risk_level (enum: high, medium, low) — Overall risk assessment based on clause analysisと定義されたフィールドは、risk_level (string)よりも確実に正しく入力されます。
Web検索:プロバイダーによって異なる
最新の情報が必要なrecipe——見込み客調査、競合分析、規制更新——にはWeb検索機能が重要です。
3つのプロバイダーすべてがWeb検索をサポートしていますが、実装は異なります:
- Web検索付きClaudeは、具体的な引用を含む十分にソースされたリサーチを生成
- Web検索付きGPT-5.xは、複数のソースを一貫したナラティブに統合するのに優れている
- Web検索付きGeminiはGoogleの検索インフラストラクチャの恩恵を受け、より多様なソースを表面化する傾向がある
見込み客調査に関しては、特にClaudeとGPTが最も実用的な出力を生成することが分かっています。より広い市場調査では、Geminiの検索範囲が他のモデルが見逃すソースを浮き上がらせることがあります。
実践的な推奨
ほとんどのチームはベンチマークを実行する必要はありません。大多数のユースケースで機能する初期設定は以下の通りです:
| タスクタイプ | 推奨モデル | 理由 |
|---|---|---|
| コンテンツ生成 | Claude Sonnet 4.5 | 最高の構造とトーン |
| データ抽出 | Claude Haiku 4.5 | 高速、安価、正確 |
| 複雑な分析 | Claude Opus 4.5 | 最も深い推論 |
| 高速分類 | GPT-5-mini | 最低レイテンシー |
| 大量バッチ | Gemini 2.5 Flash Lite | 最低コスト |
| Web検索付きリサーチ | Claude Sonnet 4.5 | 最もソースされた出力 |
そこから最適化してください。同じ入力で同じrecipeを異なるモデルで実行し、出力品質を比較してください。JieGouは実行時間、トークン数を追跡し、各実行に品質フィードバックを添付できるため、比較が簡単です。
workflow内のステップごとの最適化
本当の力は、単一のworkflow内でモデルを組み合わせることです。5ステップのworkflowでは3つの異なるモデルを使用するかもしれません:
- データ抽出(Haiku)— 高速、安価
- パターン分析(Sonnet)— バランス型
- サマリー起草(Haiku)— 高速、安価
- 戦略的推奨の生成(Opus)— 最高品質
- メール用フォーマット(Haiku)— 高速、安価
ステップ1、3、5は高価な推論を必要としません。ステップ2と4は必要です。ステップレベルでモデルを混合することで、workflow全体のコストと品質の両方を最適化できます。