Bakeoff導入：AIレシピ、モデル、ワークフローを比較

AIレシピを構築した時、それが最良のバージョンだとどう分かりますか？モデルを選んだ時、そのジョブに適切だとどう分かりますか？ほとんどのチームは直感に頼っています — 数回実行し、出力を目で確認して次に進みます。プロトタイピングには機能しますが、本番には不十分です。

本日、Bakeoffをローンチします：厳密な自動評価でAIレシピ、モデル、ワークフロー全体を比較するビルトインシステムです。

Bakeoffとは

Bakeoffは同じ入力を2つ以上のAI構成に通し、結果をスコアリングします。スコアリングは独立したLLMジャッジ — 出力を生成したモデルではない — によって行われるため、自動評価として可能な限り客観的です。

6つのモードで比較できます：

各出力はLLMジャッジによって品質、精度、関連性、完全性などの次元でスコアリングされます。

より高い信頼度のために、2〜3の独立したジャッジによるマルチジャッジモードを有効にできます。JieGouはKendallのtauとSpearmanのrho順位相関係数を使用してジャッジ間の一致度を計算します。結果には95%信頼区間と標準偏差が含まれます。

意味のある比較に十分な実データがありませんか？合成入力ジェネレーターがレシピまたはワークフローの入力スキーマから多様なテストケースを作成します。

既に本番にあるレシピとワークフローについて、BakeoffはライブA/Bテストルーティングをサポートします。トラフィックは2つのバリアント間で分割され、JieGouがカイ二乗統計テストを使用してパフォーマンスを追跡します。

レシピとモデルBakeoffはProプランで利用可能です。ワークフローBakeoffとA/BテストルーティングはEnterpriseで利用可能です。Bakeoffについて詳しく学ぶ。