如何對你的 AI workflow 進行 A/B 測試

離線評估能告訴你哪個 AI 設定在測試資料上看起來較好。A/B 測試則告訴你哪個在生產環境中表現更好,面對真實使用者和真實輸入時。JieGou 的 bakeoff 系統兩者皆支援——而本指南著重在即時 A/B 測試的部分。

何時該使用 A/B 測試(相對於離線評估)

離線 bakeoff(在固定的輸入集合上比較輸出)適合用於:

即時 A/B 測試較適合當:

以下是在 JieGou 中的逐步流程:

進入 bakeoff 區塊並選擇「A/B Test Routing」作為模式。選擇你想比較的兩個變體——這些可以是兩個 recipe、兩個模型設定,或兩個 workflow。

預設情況下,流量在變體之間以 50/50 分配。如果你想保守一點,可以調整這個比例——例如 90/10 來限制實驗變體的曝光,同時仍能收集資料。

JieGou 使用卡方統計檢定來判斷何時一個變體明顯優於另一個。你可以配置:

當達到自動停止條件時,JieGou 會自動將 100% 的流量路由到獲勝的變體並通知你。

測試執行期間,bakeoff 儀表板會顯示:

當測試結束時(透過自動停止或手動決定),檢視完整結果:分數分布、信賴區間、成本比較,以及執行時間差異。然後將獲勝的變體提升為預設值。

A/B 路由決策會快取在 Redis 中。一旦特定的執行環境被分配到某個變體,它在測試期間會持續使用該變體。這避免了同一個 recipe 在連續執行時產生不同結果的混淆情況。

LLM judge 分數是主要指標,但也要考慮這些額外的訊號:

A/B 測試路由適用於 Enterprise 方案。離線 bakeoff(recipe 對 recipe、模型對模型)適用於 Pro 方案。深入了解所有 bakeoff 模式。