评估 AI 输出是应用 AI 领域中最困难的问题之一。人工评估是黄金标准,但速度慢、成本高且无法扩展。JieGou 的 bakeoff 系统使用 LLM-as-judge 技术——由一个语言模型评估另一个语言模型的输出——以统计严谨性自动化品质评分。
以下是其底层运作原理。
基本架构
在 bakeoff 中,两个变体(recipe、模型或 workflow)处理相同的输入集。每个变体产生一个输出。一个独立的 LLM 评审——与被评估的模型分离——根据预定义的维度对每个输出评分。
评审看到两个输出(匿名化为「输出 A」和「输出 B」)以及原始输入和评分标准。它为每个维度产生结构化评分:品质、准确性、相关性、完整性,以及整体胜者。
为什么使用 LLM 作为评审?
替代方案是人工评估:让人类阅读每一对输出并评分。对于小型测试(5-10 个输入),这是可行的。对于有意义的统计分析(50-100+ 个输入),这会成为瓶颈。
LLM 评审可以线性扩展——当并行运行时,评估 100 对输入与评估 10 对所需的实际时间相同。成本可预测(只是 token),而且评估一致。人类的判断在长时间评估过程中会漂移;LLM 不会。
权衡是 LLM 评审有已知的偏差:它们倾向于偏好较长的输出、较正式的语言,以及符合其自身训练分布的输出。JieGou 透过随机化呈现顺序(A/B 位置)和支援多评审共识来减轻这一点。
多评审共识
对于高风险评估,JieGou 支援 2-3 个独立评审。每个评审独立评分,系统使用两个排名相关性指标来测量评审间的一致性:
Kendall’s tau 测量评审之间一致排名对与不一致排名对的比例。tau 值为 1.0 表示完全一致;0.0 表示无相关性。实际上,tau 值高于 0.7 表示强一致性。
Spearman’s rho 测量排名顺序相关性。它类似于 Kendall’s tau,但对大型排名分歧更敏感。Rho 值高于 0.8 表示强一致性。
当评审显著不一致时(低 tau/rho),系统会标记 bakeoff 进行人工审查,而不是宣布胜者——因为评审不一致通常意味着输出品质接近或评估标准不明确。
统计信赖度
bakeoff 中的每个分数都包括:
- 平均分数 跨所有输入
- 标准差 显示分数一致性
- 95% 信赖区间 让您了解真实性能的范围
一个显示变体 A 得分 7.2(信赖区间:6.8-7.6)vs. 变体 B 得分 7.0(信赖区间:6.5-7.5)的 bakeoff 有重叠的信赖区间——这意味着差异在统计上不显著。您需要更多输入或不同的评估方法。
一个显示变体 A 得分 8.1(信赖区间:7.7-8.5)vs. 变体 B 得分 6.3(信赖区间:5.9-6.7)的 bakeoff 有不重叠的区间——这是明确的胜者。
成本考量
LLM-as-judge 在基础执行成本之上增加评估成本。每次评审呼叫处理两个输出加上评分提示,通常是单个输出 token 数量的 2-4 倍。
多评审模式会倍增这一点:3 个评审意味着 3 倍的评估成本。JieGou 在您运行 bakeoff 之前显示估计成本,以便您决定评估预算是否值得。
对于成本敏感的情境,具有更多输入的单评审模式通常比具有较少输入的多评审模式提供更好的统计效力。
实用建议
根据我们内部运行数千次 bakeoff 的经验:
- 从 20-30 个输入开始 获得初步信号,然后扩展到 50-100 个用于生产决策
- 使用合成输入 当您没有足够的真实数据时——它们涵盖真实数据可能遗漏的边缘案例
- 单一评审就足够 对于明显差异(> 1 分差距)。对于接近的情况使用多评审
- 在行动前检查信赖区间 ——重叠的区间意味着您需要更多数据,而不是决策
- 变化您的评审 ——使用 Claude 评审 Claude 输出可能引入自我偏好偏差;跨供应商评审可减少这种情况
了解更多
Bakeoff 功能适用于 Pro 和 Enterprise 方案。查看完整的 bakeoff 功能页面了解所有六种评估模式的详细资讯。