Skip to content
工程

LLM-as-Judge:自動化 AI 評估的運作原理

深入探討 JieGou 如何使用 LLM 評審來評分 AI 輸出,包括多評審共識、排名相關性和信賴區間。

JT
JieGou Team
· · 3 分鐘閱讀

評估 AI 輸出是應用 AI 領域中最困難的問題之一。人工評估是黃金標準,但速度慢、成本高且無法擴展。JieGou 的 bakeoff 系統使用 LLM-as-judge 技術——由一個語言模型評估另一個語言模型的輸出——以統計嚴謹性自動化品質評分。

以下是其底層運作原理。

基本架構

在 bakeoff 中,兩個變體(recipe、模型或 workflow)處理相同的輸入集。每個變體產生一個輸出。一個獨立的 LLM 評審——與被評估的模型分離——根據預定義的維度對每個輸出評分。

評審看到兩個輸出(匿名化為「輸出 A」和「輸出 B」)以及原始輸入和評分標準。它為每個維度產生結構化評分:品質、準確性、相關性、完整性,以及整體勝者。

為什麼使用 LLM 作為評審?

替代方案是人工評估:讓人類閱讀每一對輸出並評分。對於小型測試(5-10 個輸入),這是可行的。對於有意義的統計分析(50-100+ 個輸入),這會成為瓶頸。

LLM 評審可以線性擴展——當並行運行時,評估 100 對輸入與評估 10 對所需的實際時間相同。成本可預測(只是 token),而且評估一致。人類的判斷在長時間評估過程中會漂移;LLM 不會。

權衡是 LLM 評審有已知的偏差:它們傾向於偏好較長的輸出、較正式的語言,以及符合其自身訓練分布的輸出。JieGou 透過隨機化呈現順序(A/B 位置)和支援多評審共識來減輕這一點。

多評審共識

對於高風險評估,JieGou 支援 2-3 個獨立評審。每個評審獨立評分,系統使用兩個排名相關性指標來測量評審間的一致性:

Kendall’s tau 測量評審之間一致排名對與不一致排名對的比例。tau 值為 1.0 表示完全一致;0.0 表示無相關性。實際上,tau 值高於 0.7 表示強一致性。

Spearman’s rho 測量排名順序相關性。它類似於 Kendall’s tau,但對大型排名分歧更敏感。Rho 值高於 0.8 表示強一致性。

當評審顯著不一致時(低 tau/rho),系統會標記 bakeoff 進行人工審查,而不是宣布勝者——因為評審不一致通常意味著輸出品質接近或評估標準不明確。

統計信賴度

bakeoff 中的每個分數都包括:

  • 平均分數 跨所有輸入
  • 標準差 顯示分數一致性
  • 95% 信賴區間 讓您了解真實性能的範圍

一個顯示變體 A 得分 7.2(信賴區間:6.8-7.6)vs. 變體 B 得分 7.0(信賴區間:6.5-7.5)的 bakeoff 有重疊的信賴區間——這意味著差異在統計上不顯著。您需要更多輸入或不同的評估方法。

一個顯示變體 A 得分 8.1(信賴區間:7.7-8.5)vs. 變體 B 得分 6.3(信賴區間:5.9-6.7)的 bakeoff 有不重疊的區間——這是明確的勝者。

成本考量

LLM-as-judge 在基礎執行成本之上增加評估成本。每次評審呼叫處理兩個輸出加上評分提示,通常是單個輸出 token 數量的 2-4 倍。

多評審模式會倍增這一點:3 個評審意味著 3 倍的評估成本。JieGou 在您運行 bakeoff 之前顯示估計成本,以便您決定評估預算是否值得。

對於成本敏感的情境,具有更多輸入的單評審模式通常比具有較少輸入的多評審模式提供更好的統計效力。

實用建議

根據我們內部運行數千次 bakeoff 的經驗:

  • 從 20-30 個輸入開始 獲得初步信號,然後擴展到 50-100 個用於生產決策
  • 使用合成輸入 當您沒有足夠的真實數據時——它們涵蓋真實數據可能遺漏的邊緣案例
  • 單一評審就足夠 對於明顯差異(> 1 分差距)。對於接近的情況使用多評審
  • 在行動前檢查信賴區間 ——重疊的區間意味著您需要更多數據,而不是決策
  • 變化您的評審 ——使用 Claude 評審 Claude 輸出可能引入自我偏好偏差;跨供應商評審可減少這種情況

了解更多

Bakeoff 功能適用於 Pro 和 Enterprise 方案。查看完整的 bakeoff 功能頁面了解所有六種評估模式的詳細資訊。

bakeoffs llm evaluation quality engineering
分享這篇文章

喜歡這篇文章嗎?

在您的信箱中獲取工作流程技巧、產品更新和自動化指南。

No spam. Unsubscribe anytime.