2026 年 3 月 2 日,Anthropic 经历了全球故障。Claude——每个模型、每个层级——全部宕机。对于在单一供应商上构建 AI 自动化体系的组织来说,结果是即时且全面的:工作流停止、客服机器人沉默、内容管道停滞、团队已依赖的内部工具直接消失。
如果您的整个 AI 战略依赖一个供应商,供应商故障就是组织故障。
企业 AI 现在是关键基础设施
两年前,AI 是实验性的。团队在沙盒中运行它。如果模型几小时不可用,没人注意。
那个世界已经过去了。在 2026 年,AI 驱动面向客户的支持自动化、实时文档处理、合规审查管道、销售情报工作流和高管报告。这些不是锦上添花。它们是承重系统。当它们停止时,人们在几分钟内就会注意到。
3 月 2 日的 Anthropic 故障是一记警钟。不是因为 Anthropic 做错了什么——每个云服务都有故障——而是因为它暴露了许多组织部署 AI 方式中的一个根本架构缺陷:单一供应商、单点故障。
没有企业会在单一供应商上运行整个数据库而没有复制策略。没有 CTO 会批准没有故障转移路径的网络架构。然而组织常规地在一个供应商的一个模型上构建整个 AI 自动化体系,就算完事了。
BYOM 方式:设计中的韧性
JieGou 的自带模型(BYOM)架构从第一天就设计为将供应商多样性视为核心基础设施要求,而不是功能复选框。
以下是实践中的含义:
三个云供应商,完整支持。 Anthropic(Claude Sonnet 4.6、Haiku 4.5、Opus 4.6)、OpenAI(GPT-5.2、GPT-5-mini、o3、o4-mini)和 Google(Gemini 3.1 Pro、Gemini 3 Flash、Gemini 2.5 Pro/Flash)。每个都支持自带密钥和 AES-256-GCM 加密。
四个认证的开源模型。 Llama 4 Maverick、DeepSeek V3.2、Qwen 3 235B 和 Mistral 3 Large——全部在 vLLM 上端到端测试,经验证的工具调用和结构化输出。这些运行在您自己的基础设施上,完全独立于任何云供应商的正常运行时间。
任何兼容 OpenAI 的端点。 Ollama、vLLM、Together AI、Groq 或您自己微调的模型在自定义 API 后面。JieGou 自动发现本地推理服务器并自动将它们添加到模型选择器。
当 Anthropic 在 3 月 2 日宕机时,具有多供应商配置的 JieGou 客户继续运行。他们基于 Claude 的工作流暂停了,但 GPT-5 和 Gemini 工作流不间断继续。那些在本地基础设施上运行 Llama 或 DeepSeek 的客户经历了零中断。
按配方、按步骤的模型选择
多供应商支持只有在切换供应商不意味着重建工作流时才有意义。
在 JieGou 中,每个配方和每个工作流步骤都有自己的模型选择。一个典型的企业工作流可能在第一步使用 Claude Opus 进行深度分析,在第二步使用 GPT-5-nano 进行快速分类,在第三步使用 Llama 4 Maverick 进行大批量数据提取。每个步骤独立配置。
当供应商宕机时,您只需更改每个受影响步骤的一个下拉菜单。提示保持不变。输入/输出模式保持不变。工作流逻辑保持不变。您切换模型继续运行。
更好的是,因为 JieGou 的按供应商断路器自动检测故障(60 秒内 5 个错误触发断路器),您的系统可以优雅降级而不是在整个管道中级联错误。断路器在 30 秒后自动重新打开以检查供应商是否恢复。
AI Bakeoff:在需要之前了解您的后备
最糟糕的了解后备模型的时机是在故障期间。这就是 JieGou 的 Bakeoff 系统存在的原因。
Bakeoff 让您将任意两个模型——或任意两个配方——使用相同输入进行正面对比,并用 LLM 作为评审进行评估。您获得统计置信区间、成本比较和速度基准。
主动运行 Bakeoff。 在故障迫使您动手之前,将您的主要模型与两三个替代方案进行测试。了解哪个模型对每个工作流提供可接受的质量。记录成本和速度权衡。当下次故障发生时,您已经有了经过测试的后备,几秒钟内就能部署。
这与传统基础设施中灾难恢复测试的原则相同:您不会等到数据中心着火了才看看备份是否有效。
多模型不仅是灵活性。更是业务连续性。
围绕多供应商 AI 的讨论一直被灵活性角度主导:“为每个任务使用最佳模型。“这是对的,也很重要。但 3 月 2 日暴露了多模型架构对企业不可或缺的更深层原因。
这是业务连续性。
单一供应商 AI 部署是 2026 年的等价物——在单一服务器上运行生产数据库而没有副本。它工作到不工作为止,当它不工作时,一切停止。
JieGou 的 BYOM 架构意味着:
- 没有单点故障。 三个云供应商加上在您自己基础设施上运行的开源模型。
- 即时模型切换。 按配方或按工作流步骤更改模型,无需触碰提示或模式。
- 自动故障检测。 按供应商的断路器检测故障并防止级联失败。
- 经过测试的后备。 Bakeoff 让您在需要之前验证替代模型。
- 完整数据主权。 vLLM 或 Ollama 上的开源模型意味着您最敏感的工作流永远不依赖外部 API。
现在该怎么做
如果 3 月 2 日的故障让您的团队措手不及,以下是实用行动计划:
-
审计您的供应商集中度。 您有多少活跃配方和工作流依赖单一供应商?如果答案是”全部”,您有单点故障。
-
添加第二个供应商。 至少连接两个云供应商的 API 密钥。JieGou 的 BYOK 系统用 AES-256-GCM 独立加密每个密钥。
-
对关键工作流运行 Bakeoff。 对于每个如果停止会造成业务影响的工作流,运行 Bakeoff 将您的主要模型与至少一个替代方案比较。记录哪些模型是可接受的后备。
-
考虑开源作为基线韧性。 在本地基础设施上运行 Llama 4 或 DeepSeek 给您一个不受任何云故障影响的独立于供应商的后备。
-
测试您的切换。 在安静时段,手动将一个工作流从其主要模型切换到后备。验证输出质量。测量切换所需时间。这是您 AI 基础设施的恢复时间目标(RTO)。
供应商故障不是是否的问题,而是何时的问题。能优雅应对的组织将是那些从一开始就为韧性而建的组织——而不是那些在系统宕机时手忙脚乱寻找替代方案的组织。
多供应商 AI 不是奢侈功能。它是任何在生产环境运行 AI 的组织的基本要求。