AI出力の評価は応用AIにおける最も難しい問題の1つです。人間の評価はゴールドスタンダードですが、遅く、高価で、スケールしません。JieGouのBakeoffシステムはLLM-as-judge — 1つの言語モデルが別の言語モデルの出力を評価する技術 — を使用して、統計的厳密さで品質スコアリングを自動化します。
基本セットアップ
Bakeoffでは、2つのバリアント(レシピ、モデル、またはワークフロー)が同じ入力セットを処理します。独立したLLMジャッジが各出力を事前定義された次元でスコアリングします。
なぜLLMをジャッジとして使うか
手動評価の代替手段:すべての出力ペアを人間が読んでスコアリングします。小規模テスト(5〜10入力)では実行可能です。統計的に意味のある分析(50〜100以上の入力)ではボトルネックになります。
トレードオフとして、LLMジャッジには既知のバイアスがあります。JieGouはプレゼンテーション順序のランダム化とマルチジャッジコンセンサスでこれを軽減します。
マルチジャッジコンセンサス
2〜3の独立したジャッジをサポートします。ジャッジ間の一致度を2つの順位相関メトリクスで測定:
Kendallのtau — 一致ペア vs. 不一致ペアの割合を測定。tauが0.7以上は強い一致を示します。
Spearmanのrho — 順位相関を測定。rhoが0.8以上は強い一致を示します。
統計的信頼度
すべてのスコアに含まれるもの:
- すべての入力にわたる平均スコア
- スコアの一貫性を示す標準偏差
- 真のパフォーマンス範囲を示す95%信頼区間
実践的推奨事項
- 初期シグナルには20〜30入力で開始し、本番判断には50〜100にスケール
- 十分なリアルデータがない場合は合成入力を使用
- 明確な差(1ポイント以上のギャップ)にはシングルジャッジで十分。接戦にはマルチジャッジを使用
- 行動前に信頼区間を確認 — 重なる区間はより多くのデータが必要なことを意味し、決定ではない
- ジャッジを変える — ClaudeでClaude出力をジャッジすると自己選好バイアスが生じる可能性あり
BakeoffはProおよびEnterpriseプランで利用可能です。Bakeoff機能ページで6つの評価モードすべての詳細をご覧ください。