每个 AI 自动化平台都声称支援「多模型」。实际上,这通常意味着您可以在设定下拉选单中切换 GPT-4o 和 GPT-5。也许 Claude 也列出来了。如果您想执行开源模型,就只能靠自己了。
JieGou 采取不同的方法。我们建构了一个通用模型层,将每个 LLM——无论是云端托管还是自托管、专有还是开源——都视为一等公民。这篇文章解释了它的运作方式以及为什么重要。
同一平台中的四个提供商层级
第一层:带有 BYOK 的云端提供商
为 Anthropic(Claude Sonnet 4.6、Haiku 4.5、Opus 4.6)、OpenAI(GPT-5.2、GPT-5-mini、GPT-5-nano、o3、o4-mini)和 Google(Gemini 3.1 Pro、Gemini 3 Flash、Gemini 2.5 Pro/Flash)带入您自己的 API 金钥。
您的金钥使用 AES-256-GCM 加密,通过 HKDF-SHA256 衍生的帐户专属金钥。它们仅在执行时在记忆体中解密,永不以明文储存。您也可以在免费层使用平台提供的金钥,无需输入任何凭证即可开始。
第二层:认证的开源模型
我们在 vLLM 上端对端测试了四个开源模型,并认证它们完全相容 JieGou——包括工具呼叫、结构化 JSON 输出和配方执行:
| 模型 | 参数量 | 工具呼叫 | 结构化输出 | 视觉 | 上下文 |
|---|---|---|---|---|---|
| Llama 4 Maverick | 400B+ MoE | 是 | 是 | 是 | 1M tokens |
| DeepSeek V3.2 | 671B MoE | 是 | 是 | 否 | 128K tokens |
| Qwen 3 235B | 235B MoE | 是 | 是 | 否 | 128K tokens |
| Mistral 3 Large | 123B dense | 是 | 是 | 是 | 128K tokens |
「认证」意味着我们已针对这些模型执行了数千次配方,验证了工具呼叫和结构化输出是否正确运作,并记录了相容性等级。您可以放心地部署它们。
第三层:社群模型
任何可通过 OpenAI 相容 API 存取的模型都可以与 JieGou 配合使用。我们没有测试过它,所以它得到「社群」层级标签——但整合方式完全相同。如果它支援 OpenAI API 格式,JieGou 就能使用它。
第四层:自动发现的本地模型
JieGou 在启动时探测本地推理伺服器:
http://ollama:11434(Docker Compose 服务名称)http://localhost:11434(本地 Ollama)http://localhost:8000(本地 vLLM)OLLAMA_BASE_URL环境变数
当它找到伺服器时,会查询模型列表并使这些模型在模型选择器中可用。无需手动设定。发现结果会快取 5 分钟,以避免频繁存取您的推理伺服器。
逐步模型选择
这是让多提供商支援真正有用的功能,而不仅仅是比较表上的一个勾选框。
在 JieGou 工作流程中,每个步骤都可以使用不同的模型。典型的设定:
| 工作流程步骤 | 任务 | 模型 | 原因 |
|---|---|---|---|
| 1. 研究 | 深度竞争分析 | Claude Opus 4.6 | 最佳推理品质 |
| 2. 分类 | 分类研究结果 | GPT-5-nano | 快速且便宜的分类 |
| 3. 撷取 | 提取结构化资料 | Llama 4 Maverick | 最低成本的大量处理 |
| 4. 摘要 | 撰写执行摘要 | Claude Sonnet 4.6 | 强大的写作品质 |
| 5. 翻译 | 本地化为 5 种语言 | Qwen 3 235B | 最佳多语言表现 |
同样的灵活性适用于配方(每个配方有自己的模型设定)、对话(每次聊天选择模型)和批次执行(所选模型适用于所有行)。
模型推荐引擎
为每个任务选择正确的模型听起来很强大但也很复杂。推荐引擎让这变得实用。
在配方执行超过 10 次后,引擎有足够的资料为您使用过的每个模型评分:
score = successRate × 0.5 + costEfficiency × 0.3 + speed × 0.2
它查看过去 60 天的执行历史并比较:
- 成功率 — 完成且无错误的执行百分比
- 成本效率 — 每次成功执行的成本(越低越好)
- 速度 — 平均执行时间(越快越好)
如果您当前的模型在 10 次以上的执行中有 ≥90% 的成功率,引擎会确认这是个好选择。否则,它会推荐得分最高的替代方案,并提供完整的指标,让您做出明智的切换。
如需严格比较,您可以执行 Bakeoff——使用 LLM 作为评审的正面对决评估,具有 95% 信赖区间。Bakeoff 可以比较任何两个模型、任何两个配方或任何两个工作流程。
企业级韧性
在多个提供商之间执行生产工作负载需要的不仅仅是 API 金钥管理。JieGou 包含三个韧性层:
断路器
每个提供商都有自己的断路器。如果 60 秒内有 5 次呼叫失败,电路开启——后续呼叫快速失败而不是超时等待。30 秒后,电路进入半开状态并发送探测请求。如果成功,电路关闭,流量恢复。
对于 openai-compatible 提供商,断路器的范围限定在每个帐户(因为每个客户可能有不同的端点)。云端提供商共享全域断路器。
关键是,断路器是故障开放的——如果 Redis 停机且我们无法检查电路状态,我们会让呼叫通过。这意味着监控故障永远不会阻塞您的工作流程。
并行限制
全域信号量限制每个帐户的并行 LLM 呼叫,以防止失控使用。限制随您的方案而扩展:
| 方案层级 | 全域容量份额 | 每帐户上限 |
|---|---|---|
| Enterprise | 100%(150 个插槽) | 10 个并行 |
| Pro | 83%(125 个插槽) | 10 个并行 |
| Starter | 67%(100 个插槽) | 10 个并行 |
成本追踪
每次 LLM 呼叫都记录 token 使用量和估计成本。当您使用 BYOK 时,成本会单独追踪——它会显示在您的分析仪表板中,但不计入平台使用限制,因为您直接向提供商付费。
成本估算器使用您最近 20 次成功执行的历史平均值来预测执行前的成本。您可以看到每个配方、每个工作流程步骤和每个批次执行的预期花费。
零知识金钥架构
JieGou 永远不会在静态时看到您的 API 金钥明文。加密流程:
- 根金钥从 Secret Manager 或环境变数载入(64 字元十六进位)
- 每帐户金钥通过 HKDF-SHA256 衍生:
HKDF(rootKey, "", "jiegou-byok-envelope-v1:{accountId}", 32) - 加密:AES-256-GCM,使用随机 12 位元组 IV 和 16 位元组验证标签
- 储存:只有密文 + IV + 验证标签储存在 Firestore 中
- 解密:在执行时在记忆体中进行,永不持久化
支援金钥轮换——系统可以从旧版全域加密方案迁移到每帐户信封加密,无需停机。
如果 API 呼叫返回 401 或 403,系统会自动将金钥标记为无效并显示清楚的错误。您可以从设定页面重新验证或更换金钥。
开始使用
- 免费层:使用平台提供的 Anthropic、OpenAI 和 Google 金钥——无需凭证
- BYOK:前往设定 > API 金钥,添加您的提供商金钥,它们会立即加密
- 开源:输入自订基础 URL(例如
http://your-vllm-server:8000/v1)和模型名称 - 自动发现:如果 Ollama 或 vLLM 在本地执行,模型会自动出现
多提供商模型存取适用于所有方案。OpenAI 相容端点和模型推荐引擎适用于 Pro 及以上。认证模型注册表和自动发现是 Enterprise 功能。