Skip to content
产品

Operations Hub:在单一仪表板中监控营收、可用性与安全性

JieGou 的 Operations Hub 现在可追踪 MRR/ARR、帐务健康状态、使用者采用率、SLA 合规性和安全威胁——经营 SaaS 业务所需的一切,与您的 AI 自动化指标并列呈现。

JT
JieGou Team
· · 4 分钟阅读

JieGou 的 Operations Hub 最初是一个让您查看 AI 自动化运作状况的地方——哪些部门正在活动、谁拥有什么权限、正在执行多少次运行。实用,但不够完整。如果您在 JieGou 上经营业务,您需要看到的不仅仅是自动化指标。

今天我们正在扩展 Operations Hub,新增营收分析、可用性监控、帐务健康状态、使用者采用率追踪、安全监控和死信伫列仪表板。这是一个完整的 SaaS 营运中心。

营收分析

营收仪表板从 Stripe 提取即时资料,呈现最重要的数字:

MRR 和 ARR — 根据活跃订阅计算,并针对年度方案进行标准化。您可以看到总 MRR、按方案等级的细分,以及趋势追踪资料。ARPU 会根据付费帐户数量自动计算。

流失率与留存率 — 客户流失率(流失的帐户数)、营收流失率(流失的 MRR)和净营收留存率(NRR)。NRR 将升级带来的扩展营收和降级带来的收缩纳入计算,让您全面了解现有客户是在成长还是萎缩。扩展和收缩透过 Stripe 订阅更新事件搭配 previous_attributes 比对来追踪,因此每次方案变更都会被记录。

单位经济效益 — 按帐户检视 MRR 与成本(token 使用量)的对比。JieGou 会计算每个帐户的利润率百分比,让您能识别哪些客户是有利润的,哪些客户的消耗超过了他们的付费金额。成本从使用记录中追踪,并按月汇总。

营收快照每日储存,可进行期间对比和基于已知起始基线的准确流失率计算。

帐务健康状态

整体营收看起来可能很健康,但个别帐务问题可能隐藏在资料噪音中。帐务健康仪表板会将这些问题浮现出来:

  • 失败的付款 — 过去 30 天内失败的扣款,包含失败原因和风险金额
  • 逾期订阅 — 有逾期付款需要催收处理的帐户
  • 近期退款 — 过去 30 天内发出的退款及原因代码
  • 即将到期的续约 — 未来 7 天内即将续约的订阅,让您能主动处理任何问题
  • 营收对帐 — 预期 MRR 与实际收取的营收(包含超额费用)对比,并显示差异百分比

使用者采用率

知道谁在付费是一回事。知道谁真正在使用产品是另一回事。

活跃使用者 — DAU、WAU 和 MAU 透过 Redis HyperLogLog 追踪。HyperLogLog 在使用极少记忆体的情况下提供低于 2% 误差范围的基数估计——无需储存个别使用者 ID。DAU/MAU 比率让您一目了然地了解产品的黏着度。

功能采用率 — 个别追踪十个关键功能:聊天、代理、workflows、排程、触发器、比较测试、批次运行、文件、品牌语调和 MCP 工具。对于每个功能,您可以看到使用它的唯一帐户数和总使用次数,加上相对于总付费帐户的采用率。

启用漏斗 — 从首次登入到进阶使用者的七个里程碑:选择部门、执行首次 AI 任务、提供回馈、排程任务、邀请团队成员、建立 workflow、查看品质趋势。每个阶段的转换率显示使用者在哪里卡住。

30 天 DAU 趋势图表完善了整体画面,显示过去一个月的每日活跃使用者数量。

可用性与 SLA 监控

正常运行时间不是可选项。可用性监控系统以每分钟的解析度记录健康检查,追踪 Firestore 和 Redis 元件状态。

正常运行时间计算 — 当月和滚动 30 天的正常运行时间百分比,以 99.9% 的 SLA 目标为基准。状态指示灯会显示为绿色(>= 99.9%)、黄色(>= 99.5%)或红色(< 99.5%)。剩余错误预算显示在违反 SLA 之前还能承受多少分钟的服务降级。

自动事件侦测 — 连续三次健康检查失败会自动建立一笔事件记录。事件根据受影响的元件数量按严重程度分类(轻微、重大、严重)。当健康状态恢复正常时,事件会自动解决。

事件指标 — 90 天窗口内的 MTTR(平均修复时间)和 MTBF(平均故障间隔时间)。这些是稽核人员和企业买家会要求的数字。

公开状态 API/api/health 上的公开端点会回传当前状态及各元件的细分。无需身份验证。健康时回传 HTTP 200,降级时回传 503。

安全监控

安全事件不会自我宣告。安全监控层持续监视异常行为:

暴力破解侦测 — 以 5 分钟滑动窗口追踪每个 IP 的身份验证失败次数。5 分钟内超过 10 次失败会触发自动 IP 封锁。唯一失败 IP 数量和 24 小时失败次数一目了然。

API 金钥健康状态 — 每个 API 金钥的使用天数、有效性状态和最后验证时间戳记。超过 90 天的金钥会触发轮换提醒。您不需要记住上次轮换是什么时候——仪表板会告诉您。

使用量异常侦测 — 每日检查将每个帐户的使用量与其过去 7 天的平均值进行比较。使用量超过平均值 3 倍会产生警报,并按严重程度分类:低(3-5 倍)、中(5-10 倍)、高(>10 倍)。这可以捕获被盗用的金钥、失控的自动化和意外的使用模式。

角色变更稽核 — 过去 7 天内的所有角色变更,显示谁变更了谁的角色,以及旧角色和新角色分别是什么。权限提升是内部威胁最常见的手段——可见性就是最好的防御。

警报可由工作人员关闭,并附带稽核元资料追踪(谁关闭的、何时关闭的)。

死信伫列仪表板

非同步操作会失败。Webhook 无法送达。电子邮件被退回。排程运行逾时。DLQ 仪表板将所有这些集中在一个地方显示。

JieGou 追踪 15 类非同步操作:webhook 送达、电子邮件、稽核日志、通知、使用记录、超额费用、排程运行、触发器运行、输出目的地、连接器同步、洞察摘要、批次执行、管线运行和 Slack 通知。

对于每个类别,您可以看到待处理、重试中和已耗尽的计数,加上重试成功率和最旧待处理项目的存在时间。失败的操作会以指数退避方式自动重试——1 分钟、5 分钟、15 分钟——最多 3 次尝试,之后标记为已耗尽。

这不仅仅是一个错误日志。它是一个营运仪表板,告诉您哪些子系统需要关注,以及重试机制是否真正在从故障中恢复。

一切集中在一处

扩展后的 Operations Hub 将团队通常分散在多个工具中的六个视图整合在一起:

  1. 自动化全景 — 部门层级的健康状态、跨部门依赖关系
  2. 治理 — 使用者权限、变更历史、合规等级
  3. 营收与帐务 — MRR、流失率、帐务健康状态、对帐
  4. 采用率 — DAU/WAU/MAU、功能使用率、启用漏斗
  5. 可用性 — 正常运行时间、SLA 合规性、事件历史
  6. 安全性 — 暴力破解侦测、金钥健康状态、使用量异常

不需要维护 Grafana 仪表板。不需要在 Stripe 仪表板分页之间切换。不需要额外的安全监控工具。一个控制台、一次登入、一组警报。

可用性

自动化全景、治理和组织分析视图在所有方案中均可使用。营收分析、可用性监控和安全监控在 Team 和 Enterprise 方案中提供。深入了解 Operations Hub开始免费试用

operations-hub monitoring revenue availability security saas
分享这篇文章

喜欢这篇文章吗?

在您的信箱中获取工作流程技巧、产品更新和自动化指南。

No spam. Unsubscribe anytime.