AIレシピを構築した時、それが最良のバージョンだとどう分かりますか?モデルを選んだ時、そのジョブに適切だとどう分かりますか?ほとんどのチームは直感に頼っています — 数回実行し、出力を目で確認して次に進みます。プロトタイピングには機能しますが、本番には不十分です。
本日、Bakeoffをローンチします:厳密な自動評価でAIレシピ、モデル、ワークフロー全体を比較するビルトインシステムです。
Bakeoffとは
Bakeoffは同じ入力を2つ以上のAI構成に通し、結果をスコアリングします。スコアリングは独立したLLMジャッジ — 出力を生成したモデルではない — によって行われるため、自動評価として可能な限り客観的です。
6つのモードで比較できます:
- レシピ vs. レシピ — 同じ入力を処理する2つの異なるレシピ
- モデル vs. モデル — 異なるLLMプロバイダーでの同じレシピ(例:Claude vs. GPT)
- フルマトリクス — すべてのレシピ x すべてのモデルの組み合わせを単一の評価グリッドで
- ワークフロー vs. ワークフロー — 完全なエンドツーエンドワークフロー実行のサイドバイサイド比較
- ワークフローモデル vs. モデル — 異なるLLMプロバイダーでの同じワークフロー実行
- A/Bテスト — 実際のレシピ実行を2つのバリアント間でルーティングするライブトラフィック分割
スコアリングの仕組み
各出力はLLMジャッジによって品質、精度、関連性、完全性などの次元でスコアリングされます。
より高い信頼度のために、2〜3の独立したジャッジによるマルチジャッジモードを有効にできます。JieGouはKendallのtauとSpearmanのrho順位相関係数を使用してジャッジ間の一致度を計算します。結果には95%信頼区間と標準偏差が含まれます。
合成入力
意味のある比較に十分な実データがありませんか?合成入力ジェネレーターがレシピまたはワークフローの入力スキーマから多様なテストケースを作成します。
A/Bテストルーティング
既に本番にあるレシピとワークフローについて、BakeoffはライブA/Bテストルーティングをサポートします。トラフィックは2つのバリアント間で分割され、JieGouがカイ二乗統計テストを使用してパフォーマンスを追跡します。
利用可能プラン
レシピとモデルBakeoffはProプランで利用可能です。ワークフローBakeoffとA/BテストルーティングはEnterpriseで利用可能です。Bakeoffについて詳しく学ぶ。