自带模型：JieGou 如何支援从 Claude 到 Llama 的每一个 LLM

每个 AI 自动化平台都声称支援「多模型」。实际上，这通常意味着您可以在设定下拉选单中切换 GPT-4o 和 GPT-5。也许 Claude 也列出来了。如果您想执行开源模型，就只能靠自己了。

JieGou 采取不同的方法。我们建构了一个通用模型层，将每个 LLM——无论是云端托管还是自托管、专有还是开源——都视为一等公民。这篇文章解释了它的运作方式以及为什么重要。

同一平台中的四个提供商层级

第一层：带有 BYOK 的云端提供商

为 Anthropic（Claude Sonnet 4.6、Haiku 4.5、Opus 4.6）、OpenAI（GPT-5.2、GPT-5-mini、GPT-5-nano、o3、o4-mini）和 Google（Gemini 3.1 Pro、Gemini 3 Flash、Gemini 2.5 Pro/Flash）带入您自己的 API 金钥。

您的金钥使用 AES-256-GCM 加密，通过 HKDF-SHA256 衍生的帐户专属金钥。它们仅在执行时在记忆体中解密，永不以明文储存。您也可以在免费层使用平台提供的金钥，无需输入任何凭证即可开始。

第二层：认证的开源模型

我们在 vLLM 上端对端测试了四个开源模型，并认证它们完全相容 JieGou——包括工具呼叫、结构化 JSON 输出和配方执行：

模型	参数量	工具呼叫	结构化输出	视觉	上下文
Llama 4 Maverick	400B+ MoE	是	是	是	1M tokens
DeepSeek V3.2	671B MoE	是	是	否	128K tokens
Qwen 3 235B	235B MoE	是	是	否	128K tokens
Mistral 3 Large	123B dense	是	是	是	128K tokens

「认证」意味着我们已针对这些模型执行了数千次配方，验证了工具呼叫和结构化输出是否正确运作，并记录了相容性等级。您可以放心地部署它们。

第三层：社群模型

任何可通过 OpenAI 相容 API 存取的模型都可以与 JieGou 配合使用。我们没有测试过它，所以它得到「社群」层级标签——但整合方式完全相同。如果它支援 OpenAI API 格式，JieGou 就能使用它。

第四层：自动发现的本地模型

JieGou 在启动时探测本地推理伺服器：

http://ollama:11434（Docker Compose 服务名称）
http://localhost:11434（本地 Ollama）
http://localhost:8000（本地 vLLM）
OLLAMA_BASE_URL 环境变数

当它找到伺服器时，会查询模型列表并使这些模型在模型选择器中可用。无需手动设定。发现结果会快取 5 分钟，以避免频繁存取您的推理伺服器。

逐步模型选择

这是让多提供商支援真正有用的功能，而不仅仅是比较表上的一个勾选框。

在 JieGou 工作流程中，每个步骤都可以使用不同的模型。典型的设定：

工作流程步骤	任务	模型	原因
1. 研究	深度竞争分析	Claude Opus 4.6	最佳推理品质
2. 分类	分类研究结果	GPT-5-nano	快速且便宜的分类
3. 撷取	提取结构化资料	Llama 4 Maverick	最低成本的大量处理
4. 摘要	撰写执行摘要	Claude Sonnet 4.6	强大的写作品质
5. 翻译	本地化为 5 种语言	Qwen 3 235B	最佳多语言表现

同样的灵活性适用于配方（每个配方有自己的模型设定）、对话（每次聊天选择模型）和批次执行（所选模型适用于所有行）。

模型推荐引擎

为每个任务选择正确的模型听起来很强大但也很复杂。推荐引擎让这变得实用。

在配方执行超过 10 次后，引擎有足够的资料为您使用过的每个模型评分：

score = successRate × 0.5 + costEfficiency × 0.3 + speed × 0.2

它查看过去 60 天的执行历史并比较：

成功率 — 完成且无错误的执行百分比
成本效率 — 每次成功执行的成本（越低越好）
速度 — 平均执行时间（越快越好）

如果您当前的模型在 10 次以上的执行中有 ≥90% 的成功率，引擎会确认这是个好选择。否则，它会推荐得分最高的替代方案，并提供完整的指标，让您做出明智的切换。

如需严格比较，您可以执行 Bakeoff——使用 LLM 作为评审的正面对决评估，具有 95% 信赖区间。Bakeoff 可以比较任何两个模型、任何两个配方或任何两个工作流程。

企业级韧性

在多个提供商之间执行生产工作负载需要的不仅仅是 API 金钥管理。JieGou 包含三个韧性层：

断路器

每个提供商都有自己的断路器。如果 60 秒内有 5 次呼叫失败，电路开启——后续呼叫快速失败而不是超时等待。30 秒后，电路进入半开状态并发送探测请求。如果成功，电路关闭，流量恢复。

对于 openai-compatible 提供商，断路器的范围限定在每个帐户（因为每个客户可能有不同的端点）。云端提供商共享全域断路器。

关键是，断路器是故障开放的——如果 Redis 停机且我们无法检查电路状态，我们会让呼叫通过。这意味着监控故障永远不会阻塞您的工作流程。

并行限制

全域信号量限制每个帐户的并行 LLM 呼叫，以防止失控使用。限制随您的方案而扩展：

方案层级	全域容量份额	每帐户上限
Enterprise	100%（150 个插槽）	10 个并行
Pro	83%（125 个插槽）	10 个并行
Starter	67%（100 个插槽）	10 个并行

成本追踪

每次 LLM 呼叫都记录 token 使用量和估计成本。当您使用 BYOK 时，成本会单独追踪——它会显示在您的分析仪表板中，但不计入平台使用限制，因为您直接向提供商付费。

成本估算器使用您最近 20 次成功执行的历史平均值来预测执行前的成本。您可以看到每个配方、每个工作流程步骤和每个批次执行的预期花费。

零知识金钥架构

JieGou 永远不会在静态时看到您的 API 金钥明文。加密流程：

根金钥从 Secret Manager 或环境变数载入（64 字元十六进位）
每帐户金钥通过 HKDF-SHA256 衍生：HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32)
加密：AES-256-GCM，使用随机 12 位元组 IV 和 16 位元组验证标签
储存：只有密文 + IV + 验证标签储存在 Firestore 中
解密：在执行时在记忆体中进行，永不持久化

支援金钥轮换——系统可以从旧版全域加密方案迁移到每帐户信封加密，无需停机。

如果 API 呼叫返回 401 或 403，系统会自动将金钥标记为无效并显示清楚的错误。您可以从设定页面重新验证或更换金钥。

开始使用

免费层：使用平台提供的 Anthropic、OpenAI 和 Google 金钥——无需凭证
BYOK：前往设定 > API 金钥，添加您的提供商金钥，它们会立即加密
开源：输入自订基础 URL（例如 http://your-vllm-server:8000/v1）和模型名称
自动发现：如果 Ollama 或 vLLM 在本地执行，模型会自动出现

多提供商模型存取适用于所有方案。OpenAI 相容端点和模型推荐引擎适用于 Pro 及以上。认证模型注册表和自动发现是 Enterprise 功能。

探索多提供商模型支援或开始免费试用。