自帶模型：JieGou 如何支援從 Claude 到 Llama 的每一個 LLM

每個 AI 自動化平台都聲稱支援「多模型」。實際上，這通常意味著您可以在設定下拉選單中切換 GPT-4o 和 GPT-5。也許 Claude 也列出來了。如果您想執行開源模型，就只能靠自己了。

JieGou 採取不同的方法。我們建構了一個通用模型層，將每個 LLM——無論是雲端託管還是自託管、專有還是開源——都視為一等公民。這篇文章解釋了它的運作方式以及為什麼重要。

同一平台中的四個提供商層級

第一層：帶有 BYOK 的雲端提供商

為 Anthropic（Claude Sonnet 4.6、Haiku 4.5、Opus 4.6）、OpenAI（GPT-5.2、GPT-5-mini、GPT-5-nano、o3、o4-mini）和 Google（Gemini 3.1 Pro、Gemini 3 Flash、Gemini 2.5 Pro/Flash）帶入您自己的 API 金鑰。

您的金鑰使用 AES-256-GCM 加密，通過 HKDF-SHA256 衍生的帳戶專屬金鑰。它們僅在執行時在記憶體中解密，永不以明文儲存。您也可以在免費層使用平台提供的金鑰，無需輸入任何憑證即可開始。

第二層：認證的開源模型

我們在 vLLM 上端對端測試了四個開源模型，並認證它們完全相容 JieGou——包括工具呼叫、結構化 JSON 輸出和配方執行：

模型	參數量	工具呼叫	結構化輸出	視覺	上下文
Llama 4 Maverick	400B+ MoE	是	是	是	1M tokens
DeepSeek V3.2	671B MoE	是	是	否	128K tokens
Qwen 3 235B	235B MoE	是	是	否	128K tokens
Mistral 3 Large	123B dense	是	是	是	128K tokens

「認證」意味著我們已針對這些模型執行了數千次配方，驗證了工具呼叫和結構化輸出是否正確運作，並記錄了相容性等級。您可以放心地部署它們。

第三層：社群模型

任何可通過 OpenAI 相容 API 存取的模型都可以與 JieGou 配合使用。我們沒有測試過它，所以它得到「社群」層級標籤——但整合方式完全相同。如果它支援 OpenAI API 格式，JieGou 就能使用它。

第四層：自動發現的本地模型

JieGou 在啟動時探測本地推理伺服器：

http://ollama:11434（Docker Compose 服務名稱）
http://localhost:11434（本地 Ollama）
http://localhost:8000（本地 vLLM）
OLLAMA_BASE_URL 環境變數

當它找到伺服器時，會查詢模型列表並使這些模型在模型選擇器中可用。無需手動設定。發現結果會快取 5 分鐘，以避免頻繁存取您的推理伺服器。

逐步模型選擇

這是讓多提供商支援真正有用的功能，而不僅僅是比較表上的一個勾選框。

在 JieGou 工作流程中，每個步驟都可以使用不同的模型。典型的設定：

工作流程步驟	任務	模型	原因
1. 研究	深度競爭分析	Claude Opus 4.6	最佳推理品質
2. 分類	分類研究結果	GPT-5-nano	快速且便宜的分類
3. 擷取	提取結構化資料	Llama 4 Maverick	最低成本的大量處理
4. 摘要	撰寫執行摘要	Claude Sonnet 4.6	強大的寫作品質
5. 翻譯	本地化為 5 種語言	Qwen 3 235B	最佳多語言表現

同樣的靈活性適用於配方（每個配方有自己的模型設定）、對話（每次聊天選擇模型）和批次執行（所選模型適用於所有行）。

模型推薦引擎

為每個任務選擇正確的模型聽起來很強大但也很複雜。推薦引擎讓這變得實用。

在配方執行超過 10 次後，引擎有足夠的資料為您使用過的每個模型評分：

score = successRate × 0.5 + costEfficiency × 0.3 + speed × 0.2

它查看過去 60 天的執行歷史並比較：

成功率 — 完成且無錯誤的執行百分比
成本效率 — 每次成功執行的成本（越低越好）
速度 — 平均執行時間（越快越好）

如果您當前的模型在 10 次以上的執行中有 ≥90% 的成功率，引擎會確認這是個好選擇。否則，它會推薦得分最高的替代方案，並提供完整的指標，讓您做出明智的切換。

如需嚴格比較，您可以執行 Bakeoff——使用 LLM 作為評審的正面對決評估，具有 95% 信賴區間。Bakeoff 可以比較任何兩個模型、任何兩個配方或任何兩個工作流程。

企業級韌性

在多個提供商之間執行生產工作負載需要的不僅僅是 API 金鑰管理。JieGou 包含三個韌性層：

斷路器

每個提供商都有自己的斷路器。如果 60 秒內有 5 次呼叫失敗，電路開啟——後續呼叫快速失敗而不是超時等待。30 秒後，電路進入半開狀態並發送探測請求。如果成功，電路關閉，流量恢復。

對於 openai-compatible 提供商，斷路器的範圍限定在每個帳戶（因為每個客戶可能有不同的端點）。雲端提供商共享全域斷路器。

關鍵是，斷路器是故障開放的——如果 Redis 停機且我們無法檢查電路狀態，我們會讓呼叫通過。這意味著監控故障永遠不會阻塞您的工作流程。

並行限制

全域信號量限制每個帳戶的並行 LLM 呼叫，以防止失控使用。限制隨您的方案而擴展：

方案層級	全域容量份額	每帳戶上限
Enterprise	100%（150 個插槽）	10 個並行
Pro	83%（125 個插槽）	10 個並行
Starter	67%（100 個插槽）	10 個並行

成本追蹤

每次 LLM 呼叫都記錄 token 使用量和估計成本。當您使用 BYOK 時，成本會單獨追蹤——它會顯示在您的分析儀表板中，但不計入平台使用限制，因為您直接向提供商付費。

成本估算器使用您最近 20 次成功執行的歷史平均值來預測執行前的成本。您可以看到每個配方、每個工作流程步驟和每個批次執行的預期花費。

零知識金鑰架構

JieGou 永遠不會在靜態時看到您的 API 金鑰明文。加密流程：

根金鑰從 Secret Manager 或環境變數載入（64 字元十六進位）
每帳戶金鑰通過 HKDF-SHA256 衍生：HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32)
加密：AES-256-GCM，使用隨機 12 位元組 IV 和 16 位元組驗證標籤
儲存：只有密文 + IV + 驗證標籤儲存在 Firestore 中
解密：在執行時在記憶體中進行，永不持久化

支援金鑰輪換——系統可以從舊版全域加密方案遷移到每帳戶信封加密，無需停機。

如果 API 呼叫返回 401 或 403，系統會自動將金鑰標記為無效並顯示清楚的錯誤。您可以從設定頁面重新驗證或更換金鑰。

開始使用

免費層：使用平台提供的 Anthropic、OpenAI 和 Google 金鑰——無需憑證
BYOK：前往設定 > API 金鑰，添加您的提供商金鑰，它們會立即加密
開源：輸入自訂基礎 URL（例如 http://your-vllm-server:8000/v1）和模型名稱
自動發現：如果 Ollama 或 vLLM 在本地執行，模型會自動出現

多提供商模型存取適用於所有方案。OpenAI 相容端點和模型推薦引擎適用於 Pro 及以上。認證模型註冊表和自動發現是 Enterprise 功能。

探索多提供商模型支援或開始免費試用。