Skip to content
產品

自帶模型:JieGou 如何支援從 Claude 到 Llama 的每一個 LLM

JieGou 的多提供商架構如何讓您從單一平台執行 Claude、GPT-5、Gemini 和開源模型如 Llama 4——具備逐步選擇、自動發現和零知識金鑰加密。

JT
JieGou Team
· · 4 分鐘閱讀

每個 AI 自動化平台都聲稱支援「多模型」。實際上,這通常意味著您可以在設定下拉選單中切換 GPT-4o 和 GPT-5。也許 Claude 也列出來了。如果您想執行開源模型,就只能靠自己了。

JieGou 採取不同的方法。我們建構了一個通用模型層,將每個 LLM——無論是雲端託管還是自託管、專有還是開源——都視為一等公民。這篇文章解釋了它的運作方式以及為什麼重要。

同一平台中的四個提供商層級

第一層:帶有 BYOK 的雲端提供商

Anthropic(Claude Sonnet 4.6、Haiku 4.5、Opus 4.6)、OpenAI(GPT-5.2、GPT-5-mini、GPT-5-nano、o3、o4-mini)和 Google(Gemini 3.1 Pro、Gemini 3 Flash、Gemini 2.5 Pro/Flash)帶入您自己的 API 金鑰。

您的金鑰使用 AES-256-GCM 加密,通過 HKDF-SHA256 衍生的帳戶專屬金鑰。它們僅在執行時在記憶體中解密,永不以明文儲存。您也可以在免費層使用平台提供的金鑰,無需輸入任何憑證即可開始。

第二層:認證的開源模型

我們在 vLLM 上端對端測試了四個開源模型,並認證它們完全相容 JieGou——包括工具呼叫、結構化 JSON 輸出和配方執行:

模型參數量工具呼叫結構化輸出視覺上下文
Llama 4 Maverick400B+ MoE1M tokens
DeepSeek V3.2671B MoE128K tokens
Qwen 3 235B235B MoE128K tokens
Mistral 3 Large123B dense128K tokens

「認證」意味著我們已針對這些模型執行了數千次配方,驗證了工具呼叫和結構化輸出是否正確運作,並記錄了相容性等級。您可以放心地部署它們。

第三層:社群模型

任何可通過 OpenAI 相容 API 存取的模型都可以與 JieGou 配合使用。我們沒有測試過它,所以它得到「社群」層級標籤——但整合方式完全相同。如果它支援 OpenAI API 格式,JieGou 就能使用它。

第四層:自動發現的本地模型

JieGou 在啟動時探測本地推理伺服器:

  1. http://ollama:11434(Docker Compose 服務名稱)
  2. http://localhost:11434(本地 Ollama)
  3. http://localhost:8000(本地 vLLM)
  4. OLLAMA_BASE_URL 環境變數

當它找到伺服器時,會查詢模型列表並使這些模型在模型選擇器中可用。無需手動設定。發現結果會快取 5 分鐘,以避免頻繁存取您的推理伺服器。

逐步模型選擇

這是讓多提供商支援真正有用的功能,而不僅僅是比較表上的一個勾選框。

在 JieGou 工作流程中,每個步驟都可以使用不同的模型。典型的設定:

工作流程步驟任務模型原因
1. 研究深度競爭分析Claude Opus 4.6最佳推理品質
2. 分類分類研究結果GPT-5-nano快速且便宜的分類
3. 擷取提取結構化資料Llama 4 Maverick最低成本的大量處理
4. 摘要撰寫執行摘要Claude Sonnet 4.6強大的寫作品質
5. 翻譯本地化為 5 種語言Qwen 3 235B最佳多語言表現

同樣的靈活性適用於配方(每個配方有自己的模型設定)、對話(每次聊天選擇模型)和批次執行(所選模型適用於所有行)。

模型推薦引擎

為每個任務選擇正確的模型聽起來很強大但也很複雜。推薦引擎讓這變得實用。

在配方執行超過 10 次後,引擎有足夠的資料為您使用過的每個模型評分:

score = successRate × 0.5 + costEfficiency × 0.3 + speed × 0.2

它查看過去 60 天的執行歷史並比較:

  • 成功率 — 完成且無錯誤的執行百分比
  • 成本效率 — 每次成功執行的成本(越低越好)
  • 速度 — 平均執行時間(越快越好)

如果您當前的模型在 10 次以上的執行中有 ≥90% 的成功率,引擎會確認這是個好選擇。否則,它會推薦得分最高的替代方案,並提供完整的指標,讓您做出明智的切換。

如需嚴格比較,您可以執行 Bakeoff——使用 LLM 作為評審的正面對決評估,具有 95% 信賴區間。Bakeoff 可以比較任何兩個模型、任何兩個配方或任何兩個工作流程。

企業級韌性

在多個提供商之間執行生產工作負載需要的不僅僅是 API 金鑰管理。JieGou 包含三個韌性層:

斷路器

每個提供商都有自己的斷路器。如果 60 秒內有 5 次呼叫失敗,電路開啟——後續呼叫快速失敗而不是超時等待。30 秒後,電路進入半開狀態並發送探測請求。如果成功,電路關閉,流量恢復。

對於 openai-compatible 提供商,斷路器的範圍限定在每個帳戶(因為每個客戶可能有不同的端點)。雲端提供商共享全域斷路器。

關鍵是,斷路器是故障開放的——如果 Redis 停機且我們無法檢查電路狀態,我們會讓呼叫通過。這意味著監控故障永遠不會阻塞您的工作流程。

並行限制

全域信號量限制每個帳戶的並行 LLM 呼叫,以防止失控使用。限制隨您的方案而擴展:

方案層級全域容量份額每帳戶上限
Enterprise100%(150 個插槽)10 個並行
Pro83%(125 個插槽)10 個並行
Starter67%(100 個插槽)10 個並行

成本追蹤

每次 LLM 呼叫都記錄 token 使用量和估計成本。當您使用 BYOK 時,成本會單獨追蹤——它會顯示在您的分析儀表板中,但不計入平台使用限制,因為您直接向提供商付費。

成本估算器使用您最近 20 次成功執行的歷史平均值來預測執行前的成本。您可以看到每個配方、每個工作流程步驟和每個批次執行的預期花費。

零知識金鑰架構

JieGou 永遠不會在靜態時看到您的 API 金鑰明文。加密流程:

  1. 根金鑰從 Secret Manager 或環境變數載入(64 字元十六進位)
  2. 每帳戶金鑰通過 HKDF-SHA256 衍生:HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32)
  3. 加密:AES-256-GCM,使用隨機 12 位元組 IV 和 16 位元組驗證標籤
  4. 儲存:只有密文 + IV + 驗證標籤儲存在 Firestore 中
  5. 解密:在執行時在記憶體中進行,永不持久化

支援金鑰輪換——系統可以從舊版全域加密方案遷移到每帳戶信封加密,無需停機。

如果 API 呼叫返回 401 或 403,系統會自動將金鑰標記為無效並顯示清楚的錯誤。您可以從設定頁面重新驗證或更換金鑰。

開始使用

  1. 免費層:使用平台提供的 Anthropic、OpenAI 和 Google 金鑰——無需憑證
  2. BYOK:前往設定 > API 金鑰,添加您的提供商金鑰,它們會立即加密
  3. 開源:輸入自訂基礎 URL(例如 http://your-vllm-server:8000/v1)和模型名稱
  4. 自動發現:如果 Ollama 或 vLLM 在本地執行,模型會自動出現

多提供商模型存取適用於所有方案。OpenAI 相容端點和模型推薦引擎適用於 Pro 及以上。認證模型註冊表和自動發現是 Enterprise 功能。

探索多提供商模型支援開始免費試用

byom byok multi-provider open-source llama deepseek vllm ollama model-selection
分享這篇文章

喜歡這篇文章嗎?

在您的信箱中獲取工作流程技巧、產品更新和自動化指南。

No spam. Unsubscribe anytime.