LLM-as-Judge:自動化 AI 評估的運作原理

評估 AI 輸出是應用 AI 領域中最困難的問題之一。人工評估是黃金標準,但速度慢、成本高且無法擴展。JieGou 的 bakeoff 系統使用 LLM-as-judge 技術——由一個語言模型評估另一個語言模型的輸出——以統計嚴謹性自動化品質評分。

以下是其底層運作原理。

基本架構

在 bakeoff 中,兩個變體(recipe、模型或 workflow)處理相同的輸入集。每個變體產生一個輸出。一個獨立的 LLM 評審——與被評估的模型分離——根據預定義的維度對每個輸出評分。

評審看到兩個輸出(匿名化為「輸出 A」和「輸出 B」)以及原始輸入和評分標準。它為每個維度產生結構化評分:品質、準確性、相關性、完整性,以及整體勝者。

替代方案是人工評估:讓人類閱讀每一對輸出並評分。對於小型測試(5-10 個輸入),這是可行的。對於有意義的統計分析(50-100+ 個輸入),這會成為瓶頸。

LLM 評審可以線性擴展——當並行運行時,評估 100 對輸入與評估 10 對所需的實際時間相同。成本可預測(只是 token),而且評估一致。人類的判斷在長時間評估過程中會漂移;LLM 不會。

權衡是 LLM 評審有已知的偏差:它們傾向於偏好較長的輸出、較正式的語言,以及符合其自身訓練分布的輸出。JieGou 透過隨機化呈現順序(A/B 位置)和支援多評審共識來減輕這一點。

對於高風險評估,JieGou 支援 2-3 個獨立評審。每個評審獨立評分,系統使用兩個排名相關性指標來測量評審間的一致性:

Kendall’s tau 測量評審之間一致排名對與不一致排名對的比例。tau 值為 1.0 表示完全一致;0.0 表示無相關性。實際上,tau 值高於 0.7 表示強一致性。

Spearman’s rho 測量排名順序相關性。它類似於 Kendall’s tau,但對大型排名分歧更敏感。Rho 值高於 0.8 表示強一致性。

當評審顯著不一致時(低 tau/rho),系統會標記 bakeoff 進行人工審查,而不是宣布勝者——因為評審不一致通常意味著輸出品質接近或評估標準不明確。

bakeoff 中的每個分數都包括:

一個顯示變體 A 得分 7.2(信賴區間:6.8-7.6)vs. 變體 B 得分 7.0(信賴區間:6.5-7.5)的 bakeoff 有重疊的信賴區間——這意味著差異在統計上不顯著。您需要更多輸入或不同的評估方法。

一個顯示變體 A 得分 8.1(信賴區間:7.7-8.5)vs. 變體 B 得分 6.3(信賴區間:5.9-6.7)的 bakeoff 有不重疊的區間——這是明確的勝者。

LLM-as-judge 在基礎執行成本之上增加評估成本。每次評審呼叫處理兩個輸出加上評分提示,通常是單個輸出 token 數量的 2-4 倍。

多評審模式會倍增這一點:3 個評審意味著 3 倍的評估成本。JieGou 在您運行 bakeoff 之前顯示估計成本,以便您決定評估預算是否值得。

對於成本敏感的情境,具有更多輸入的單評審模式通常比具有較少輸入的多評審模式提供更好的統計效力。

根據我們內部運行數千次 bakeoff 的經驗:

Bakeoff 功能適用於 Pro 和 Enterprise 方案。查看完整的 bakeoff 功能頁面了解所有六種評估模式的詳細資訊。