如何為您的使用情境找到最佳的 LLM

JieGou 支援來自 Anthropic (Claude)、OpenAI (GPT、o-series) 和 Google (Gemini) 的模型。您可以為每個 recipe 和每個 workflow 步驟選擇不同的模型。但面對這麼多選項,您該如何決定在哪裡使用哪個模型?

本指南將介紹一個實用的模型選擇框架。

從任務類型開始

不同的模型有不同的優勢。根據我們用戶群中數千次 recipe 執行的經驗,以下是一些通用模式:

長篇寫作和細膩度 — Claude (Sonnet 和 Opus) 往往能產生更自然、更細膩的文字。如果您的 recipe 需要生成面向客戶的內容、行銷文案或詳細分析,Claude 是一個很好的起點。

結構化提取和分類 — GPT 模型通常擅長從非結構化文本中提取結構化數據。發票解析、工單分類和數據轉換任務通常在 GPT 上表現良好。

速度敏感的任務 — 對於延遲比質量上限更重要的任務(聊天回應、即時建議),較小的模型如 Claude Haiku、GPT-5-mini 或 Gemini Flash 能以較低成本提供更快的回應。

推理密集型任務 — 對於需要多步驟邏輯、規劃或數學推理的任務,o-series 模型 (o3、o4-mini) 和 Gemini Pro 值得測試。

這些是指導原則,而非硬性規則。適合您特定 recipe 的模型取決於您的提示詞、您的數據和您的質量標準。

與其猜測,不如使用 JieGou 的 bakeoff 系統進行實證測試。以下是一個實用的工作流程:

創建一個 recipe bakeoff,比較您的前 3 個候選模型在 10 個代表性輸入上的表現。使用單一 LLM 評審。這只需要幾分鐘,就能給您一個方向性的信號。

尋找明顯的贏家和輸家。如果某個模型的得分明顯較低,就淘汰它。如果兩個模型得分接近,它們都進入第二輪。

取前 2 名候選者,使用 50 個輸入和多評審評估進行更嚴格的 bakeoff。檢查信賴區間 — 如果它們沒有重疊,您就有了贏家。如果重疊,表示這些模型在此任務上功能上是等效的,您應該根據成本或速度來決定。

如果離線評估結果不明確,或者您需要生產環境驗證,請設置即時 A/B 測試。在兩個變體之間分配流量 48-72 小時,讓自動停止機制根據實際表現確定贏家。

模型定價差異很大。一個前沿模型可能在質量上高出 5%,但每個 token 的成本卻是 10 倍。對於許多任務來說,這種權衡並不值得。

JieGou bakeoffs 會在質量分數旁邊顯示成本比較,讓您做出明智的決策。常見的發現:

JieGou 的優勢之一是在 workflows 中可以為每個步驟選擇模型。一個常見的模式:

每個步驟都使用最適合其任務類型的模型,在整個 workflow 中優化質量和成本。

模型能力會隨著新版本發布而改變。六個月前排名第二的模型今天可能是最佳選擇。設置提醒每季度重新運行您的 bakeoffs,特別是在重大模型更新之後。

JieGou 讓這變得很容易 — 您的 bakeoff 配置會被保存,所以使用更新的模型重新運行只需點擊一次。

所有方案都提供多供應商模型支援。Pro 方案提供用於模型比較的 Bakeoffs。探索所有支援的模型或開始您的第一個 bakeoff。