Skip to content
使用指南

如何為您的使用情境找到最佳的 LLM

使用 JieGou 的多供應商支援和 bakeoff 評估,為每個 AI recipe 和 workflow 步驟選擇合適語言模型的實用指南。

JT
JieGou Team
· · 3 分鐘閱讀

JieGou 支援來自 Anthropic (Claude)、OpenAI (GPT、o-series) 和 Google (Gemini) 的模型。您可以為每個 recipe 和每個 workflow 步驟選擇不同的模型。但面對這麼多選項,您該如何決定在哪裡使用哪個模型?

本指南將介紹一個實用的模型選擇框架。

從任務類型開始

不同的模型有不同的優勢。根據我們用戶群中數千次 recipe 執行的經驗,以下是一些通用模式:

長篇寫作和細膩度 — Claude (Sonnet 和 Opus) 往往能產生更自然、更細膩的文字。如果您的 recipe 需要生成面向客戶的內容、行銷文案或詳細分析,Claude 是一個很好的起點。

結構化提取和分類 — GPT 模型通常擅長從非結構化文本中提取結構化數據。發票解析、工單分類和數據轉換任務通常在 GPT 上表現良好。

速度敏感的任務 — 對於延遲比質量上限更重要的任務(聊天回應、即時建議),較小的模型如 Claude Haiku、GPT-5-mini 或 Gemini Flash 能以較低成本提供更快的回應。

推理密集型任務 — 對於需要多步驟邏輯、規劃或數學推理的任務,o-series 模型 (o3、o4-mini) 和 Gemini Pro 值得測試。

這些是指導原則,而非硬性規則。適合您特定 recipe 的模型取決於您的提示詞、您的數據和您的質量標準。

使用 bakeoffs 進行驗證

與其猜測,不如使用 JieGou 的 bakeoff 系統進行實證測試。以下是一個實用的工作流程:

第一輪:快速篩選 (3 個模型,10 個輸入)

創建一個 recipe bakeoff,比較您的前 3 個候選模型在 10 個代表性輸入上的表現。使用單一 LLM 評審。這只需要幾分鐘,就能給您一個方向性的信號。

尋找明顯的贏家和輸家。如果某個模型的得分明顯較低,就淘汰它。如果兩個模型得分接近,它們都進入第二輪。

第二輪:統計評估 (2 個模型,50 個輸入)

取前 2 名候選者,使用 50 個輸入和多評審評估進行更嚴格的 bakeoff。檢查信賴區間 — 如果它們沒有重疊,您就有了贏家。如果重疊,表示這些模型在此任務上功能上是等效的,您應該根據成本或速度來決定。

第三輪:生產環境 A/B 測試 (可選)

如果離線評估結果不明確,或者您需要生產環境驗證,請設置即時 A/B 測試。在兩個變體之間分配流量 48-72 小時,讓自動停止機制根據實際表現確定贏家。

考慮成本與質量的權衡

模型定價差異很大。一個前沿模型可能在質量上高出 5%,但每個 token 的成本卻是 10 倍。對於許多任務來說,這種權衡並不值得。

JieGou bakeoffs 會在質量分數旁邊顯示成本比較,讓您做出明智的決策。常見的發現:

  • 對於 80% 的內部任務(摘要、草稿、分類),中階模型以一小部分成本就能產生與前沿模型相當的質量
  • 對於面向客戶的內容和高風險分析,前沿模型的質量差異值得付出成本
  • 對於高量、低複雜度的任務(分類、提取),使用最小但足夠的模型最省錢

在 workflows 中混合使用模型

JieGou 的優勢之一是在 workflows 中可以為每個步驟選擇模型。一個常見的模式:

  1. 提取步驟 — 使用快速、便宜的模型 (Haiku、GPT-5-mini) 從輸入中提取結構化數據
  2. 分析步驟 — 使用專注於推理的模型 (o3、Gemini Pro) 分析提取的數據
  3. 寫作步驟 — 使用強大的寫作模型 (Claude Sonnet、GPT-5) 產生最終輸出

每個步驟都使用最適合其任務類型的模型,在整個 workflow 中優化質量和成本。

定期重新評估

模型能力會隨著新版本發布而改變。六個月前排名第二的模型今天可能是最佳選擇。設置提醒每季度重新運行您的 bakeoffs,特別是在重大模型更新之後。

JieGou 讓這變得很容易 — 您的 bakeoff 配置會被保存,所以使用更新的模型重新運行只需點擊一次。

開始使用

所有方案都提供多供應商模型支援。Pro 方案提供用於模型比較的 Bakeoffs。探索所有支援的模型開始您的第一個 bakeoff

bakeoffs models comparison guides llm
分享這篇文章

喜歡這篇文章嗎?

在您的信箱中獲取工作流程技巧、產品更新和自動化指南。

No spam. Unsubscribe anytime.