Skip to content
产品

自带模型:JieGou 如何支援从 Claude 到 Llama 的每一个 LLM

JieGou 的多提供商架构如何让您从单一平台执行 Claude、GPT-5、Gemini 和开源模型如 Llama 4——具备逐步选择、自动发现和零知识金钥加密。

JT
JieGou Team
· · 4 分钟阅读

每个 AI 自动化平台都声称支援「多模型」。实际上,这通常意味着您可以在设定下拉选单中切换 GPT-4o 和 GPT-5。也许 Claude 也列出来了。如果您想执行开源模型,就只能靠自己了。

JieGou 采取不同的方法。我们建构了一个通用模型层,将每个 LLM——无论是云端托管还是自托管、专有还是开源——都视为一等公民。这篇文章解释了它的运作方式以及为什么重要。

同一平台中的四个提供商层级

第一层:带有 BYOK 的云端提供商

Anthropic(Claude Sonnet 4.6、Haiku 4.5、Opus 4.6)、OpenAI(GPT-5.2、GPT-5-mini、GPT-5-nano、o3、o4-mini)和 Google(Gemini 3.1 Pro、Gemini 3 Flash、Gemini 2.5 Pro/Flash)带入您自己的 API 金钥。

您的金钥使用 AES-256-GCM 加密,通过 HKDF-SHA256 衍生的帐户专属金钥。它们仅在执行时在记忆体中解密,永不以明文储存。您也可以在免费层使用平台提供的金钥,无需输入任何凭证即可开始。

第二层:认证的开源模型

我们在 vLLM 上端对端测试了四个开源模型,并认证它们完全相容 JieGou——包括工具呼叫、结构化 JSON 输出和配方执行:

模型参数量工具呼叫结构化输出视觉上下文
Llama 4 Maverick400B+ MoE1M tokens
DeepSeek V3.2671B MoE128K tokens
Qwen 3 235B235B MoE128K tokens
Mistral 3 Large123B dense128K tokens

「认证」意味着我们已针对这些模型执行了数千次配方,验证了工具呼叫和结构化输出是否正确运作,并记录了相容性等级。您可以放心地部署它们。

第三层:社群模型

任何可通过 OpenAI 相容 API 存取的模型都可以与 JieGou 配合使用。我们没有测试过它,所以它得到「社群」层级标签——但整合方式完全相同。如果它支援 OpenAI API 格式,JieGou 就能使用它。

第四层:自动发现的本地模型

JieGou 在启动时探测本地推理伺服器:

  1. http://ollama:11434(Docker Compose 服务名称)
  2. http://localhost:11434(本地 Ollama)
  3. http://localhost:8000(本地 vLLM)
  4. OLLAMA_BASE_URL 环境变数

当它找到伺服器时,会查询模型列表并使这些模型在模型选择器中可用。无需手动设定。发现结果会快取 5 分钟,以避免频繁存取您的推理伺服器。

逐步模型选择

这是让多提供商支援真正有用的功能,而不仅仅是比较表上的一个勾选框。

在 JieGou 工作流程中,每个步骤都可以使用不同的模型。典型的设定:

工作流程步骤任务模型原因
1. 研究深度竞争分析Claude Opus 4.6最佳推理品质
2. 分类分类研究结果GPT-5-nano快速且便宜的分类
3. 撷取提取结构化资料Llama 4 Maverick最低成本的大量处理
4. 摘要撰写执行摘要Claude Sonnet 4.6强大的写作品质
5. 翻译本地化为 5 种语言Qwen 3 235B最佳多语言表现

同样的灵活性适用于配方(每个配方有自己的模型设定)、对话(每次聊天选择模型)和批次执行(所选模型适用于所有行)。

模型推荐引擎

为每个任务选择正确的模型听起来很强大但也很复杂。推荐引擎让这变得实用。

在配方执行超过 10 次后,引擎有足够的资料为您使用过的每个模型评分:

score = successRate × 0.5 + costEfficiency × 0.3 + speed × 0.2

它查看过去 60 天的执行历史并比较:

  • 成功率 — 完成且无错误的执行百分比
  • 成本效率 — 每次成功执行的成本(越低越好)
  • 速度 — 平均执行时间(越快越好)

如果您当前的模型在 10 次以上的执行中有 ≥90% 的成功率,引擎会确认这是个好选择。否则,它会推荐得分最高的替代方案,并提供完整的指标,让您做出明智的切换。

如需严格比较,您可以执行 Bakeoff——使用 LLM 作为评审的正面对决评估,具有 95% 信赖区间。Bakeoff 可以比较任何两个模型、任何两个配方或任何两个工作流程。

企业级韧性

在多个提供商之间执行生产工作负载需要的不仅仅是 API 金钥管理。JieGou 包含三个韧性层:

断路器

每个提供商都有自己的断路器。如果 60 秒内有 5 次呼叫失败,电路开启——后续呼叫快速失败而不是超时等待。30 秒后,电路进入半开状态并发送探测请求。如果成功,电路关闭,流量恢复。

对于 openai-compatible 提供商,断路器的范围限定在每个帐户(因为每个客户可能有不同的端点)。云端提供商共享全域断路器。

关键是,断路器是故障开放的——如果 Redis 停机且我们无法检查电路状态,我们会让呼叫通过。这意味着监控故障永远不会阻塞您的工作流程。

并行限制

全域信号量限制每个帐户的并行 LLM 呼叫,以防止失控使用。限制随您的方案而扩展:

方案层级全域容量份额每帐户上限
Enterprise100%(150 个插槽)10 个并行
Pro83%(125 个插槽)10 个并行
Starter67%(100 个插槽)10 个并行

成本追踪

每次 LLM 呼叫都记录 token 使用量和估计成本。当您使用 BYOK 时,成本会单独追踪——它会显示在您的分析仪表板中,但不计入平台使用限制,因为您直接向提供商付费。

成本估算器使用您最近 20 次成功执行的历史平均值来预测执行前的成本。您可以看到每个配方、每个工作流程步骤和每个批次执行的预期花费。

零知识金钥架构

JieGou 永远不会在静态时看到您的 API 金钥明文。加密流程:

  1. 根金钥从 Secret Manager 或环境变数载入(64 字元十六进位)
  2. 每帐户金钥通过 HKDF-SHA256 衍生:HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32)
  3. 加密:AES-256-GCM,使用随机 12 位元组 IV 和 16 位元组验证标签
  4. 储存:只有密文 + IV + 验证标签储存在 Firestore 中
  5. 解密:在执行时在记忆体中进行,永不持久化

支援金钥轮换——系统可以从旧版全域加密方案迁移到每帐户信封加密,无需停机。

如果 API 呼叫返回 401 或 403,系统会自动将金钥标记为无效并显示清楚的错误。您可以从设定页面重新验证或更换金钥。

开始使用

  1. 免费层:使用平台提供的 Anthropic、OpenAI 和 Google 金钥——无需凭证
  2. BYOK:前往设定 > API 金钥,添加您的提供商金钥,它们会立即加密
  3. 开源:输入自订基础 URL(例如 http://your-vllm-server:8000/v1)和模型名称
  4. 自动发现:如果 Ollama 或 vLLM 在本地执行,模型会自动出现

多提供商模型存取适用于所有方案。OpenAI 相容端点和模型推荐引擎适用于 Pro 及以上。认证模型注册表和自动发现是 Enterprise 功能。

探索多提供商模型支援开始免费试用

byom byok multi-provider open-source llama deepseek vllm ollama model-selection
分享这篇文章

喜欢这篇文章吗?

在您的信箱中获取工作流程技巧、产品更新和自动化指南。

No spam. Unsubscribe anytime.