"Agent 昨晚又产生了 4.7 万美元的 Token 费用,监控系统毫无察觉。"——这不是段子,而是 2026 年上半年发生在上海某金融科技公司的真实事件。该公司的 AI Agent 在生产环境中跑了一个月,团队对自己的 Agent 系统几乎处于"盲飞"状态。
企业 AI Agent 系统与传统应用的运维有本质不同:Agent 会自主决策、调用工具、与用户对话,甚至与其他 Agent 协作——这种"行为不确定性"使得传统监控手段(CPU/内存/响应时间)完全不够用。你监控了服务器的健康,却不知道 Agent 在做什么、为什么这么做、做得对不对。
环曜团队在服务上海多家企业的过程中,总结出一套面向 AI Agent 系统的可观测体系搭建框架——PROM-5(Performance 监控→Resource 管理→Observability 可观测→Monitor 告警→五类审计),帮助企业从零开始搭建完整的 AI Agent 运维监控体系。
一、为什么 AI Agent 需要专属的可观测体系?
1.1 传统监控 vs Agent 可观测
| 监控维度 | 传统应用 | AI Agent 系统 | 差异点 |
|---|---|---|---|
| 性能指标 | CPU/内存/磁盘 | Token 消耗、模型调用延迟、工具调用成功率 | Agent 有额外的"智能层"指标 |
| 日志分析 | 请求日志、错误日志 | Agent 推理链日志、Prompt 日志、决策日志 | Agent 的"思考过程"需要可追溯 |
| 告警规则 | 响应时间 > 5s、错误率 > 1% | Token 预算超限、Agent 循环调用、权限异常 | Agent 特有的告警场景 |
| 审计要求 | 操作审计、访问审计 | Agent 决策审计、数据访问审计、模型调用审计 | Agent 自主行为需要"行为审计" |
1.2 上海金融科技公司的教训
该公司的 AI Agent 系统处理客户合规分析,上线 3 周后出现 A Agent 调用 B Agent、B 又调 A 的死循环,一夜产生 4.7 万美元 Token 费。根因:没有 Agent 调用链追踪、没有 Token 预算控制、没有调用深度限制。AI Agent 部署失败案例拆解 中有更多类似的真实踩坑与分析。
二、PROM-5 框架详解
2.1 P - Performance 性能监控
AI Agent 的性能指标分为三层:
| 层级 | 指标 | 告警阈值 | 工具 |
|---|---|---|---|
| 基础设施 | CPU 使用率、内存、GPU 利用率、磁盘 IO | CPU > 80%、磁盘 > 85% | Prometheus Node Exporter |
| 模型服务 | Token 吞吐量、模型响应延迟、并发请求数 | P95 延迟 > 3s、错误率 > 2% | Prometheus + 模型服务 Metrics |
| Agent 应用 | 工具调用成功率、Agent 响应时间、会话完成率 | 成功率 < 95%、响应 > 10s | 环曜 Claw 内置 Metrics API |
2.2 R - Resource 资源管理
AI Agent 系统的资源管理包括 Token 预算管理(设置每日/每月上限,环曜 Claw 内置 Token 预算控制系统)和模型资源池(小模型处理简单查询,大模型处理复杂推理,环曜 Claw 支持模型路由策略)。
2.3 O - Observability 可观测性
AI Agent 需要三层日志体系:推理链日志(保留 7 天,排查决策异常)、工具调用日志(保留 30 天,审计 Agent 行为)、系统日志(保留 90 天,系统级故障排查)。生产环境设置为 INFO 级别,仅在排查问题时临时开启 DEBUG。
上海团队的解决方案是使用环曜 Claw 提供的全链路追踪功能——每个 Agent 请求生成一个 Trace ID,记录完整的调用链路径,配合可视化界面展示调用拓扑图。
2.4 M - Monitor 告警
| 告警名称 | 规则 | 严重等级 | 响应方式 |
|---|---|---|---|
| Token 预算超限 | 日 Token 消耗 > 预算的 80% | Warning | 通知运维 + 自动限流 |
| 调用链异常 | 检测到 Agent 循环调用 > 3 层 | Critical | 自动熔断 + 通知 |
| 工具调用失败率 | 失败率 > 10%(5 分钟窗口) | Warning | 通知 Agent 降级 |
| 响应延迟异常 | P95 延迟 > 10s | Critical | 自动切换备用模型 |
| 会话未关闭 | 同一会话运行 > 30 分钟 | Warning | Agent 自动结束会话 |
2.5 五类审计
AI Agent 系统需要五类审计日志:决策审计(Agent 推理过程,保留 6 个月)、数据访问审计(保留 1 年)、模型调用审计(保留 1 年)、用户交互审计(保留 1 年)、权限变更审计(保留 2 年)。环曜 Claw 内置了完整的企业级审计日志系统。
三、实战部署:Prometheus + Grafana 搭建指南
3.1 架构概览
架构流: AI Agent 系统(环曜 Claw)→ Prometheus Metrics API → Prometheus Server → Grafana,通过 Alertmanager 向企业微信/Slack/PagerDuty 发送告警。
3.2 Prometheus 配置
核心 scrape 配置:
scrape_configs:
- job_name: 'ai-agent'
metrics_path: '/metrics'
static_configs:
- targets: ['localhost:8080'] # 环曜 Claw Metrics 端口
- job_name: 'node'
static_configs:
- targets: ['localhost:9100'] # Node Exporter
3.3 关键告警规则
groups:
- name: ai-agent-alerts
rules:
- alert: TokenBudgetWarning
expr: daily_token_usage / daily_token_budget > 0.8
for: 5m
- alert: AgentLoopDetected
expr: agent_call_depth > 3
for: 1m
四、上海金融科技公司的改造效果
该团队在接入 PROM-5 框架后,用 2 周时间完成了可观测体系搭建,详细的 Agent 系统部署与选型背景可参考 长三角制造企业 AI Agent 落地调研报告。
| 指标 | 改造前 | 改造后 |
|---|---|---|
| 故障发现时间 | 平均 4 小时 | 平均 3 分钟 |
| 月 Token 失控次数 | 3-5 次 | 0 次 |
| 平均修复时间 | 2 小时 | 15 分钟 |
| 合规审计准备 | 3 天手工整理 | 实时可查 |
五、给运维团队的实操建议
2. 日志级别用 INFO 不要用 DEBUG:Agent 系统的日志量远超传统应用,DEBUG 级别会把磁盘写满
3. 设置 Token 熔断机制:日 Token 消耗超预算 80% 时自动告警,达到上限时自动熔断
4. 保留人工审批通道:高危操作(批量删除、数据导出)必须有 HITL 审批流。结合 江苏制造业实战经验 可以形成完整的运维闭环
常见问题 FAQ
Q1:小型团队没有专职运维人员怎么办?
环曜 Claw 内置了大部分可观测能力(Token 控制、审计日志、调用链追踪),开箱即用。小团队建议先使用内置功能,等规模扩大后再对接 Prometheus + Grafana。
Q2:Prometheus 本身需要多大资源?
Prometheus 单机版仅需 2 核 4GB 内存,可以和管理服务器共用。按 100 个 Agent 规模估算,日均产生约 500MB 指标数据,默认保留 15 天。
Q3:Agent 的日志和传统应用日志怎么统一管理?
推荐用 Loki(Grafana 的日志聚合系统)集中管理 Agent 日志和系统日志,Grafana 中可同时查看指标和日志,实现统一观测。
Q4:如果 Agent 产生了大量日志,磁盘很快满了怎么处理?
配置日志轮转策略:推理链日志保留 7 天,工具调用日志保留 30 天,系统日志保留 90 天。同时设置磁盘使用率告警(大于 85% 告警,大于 90% 自动清理旧日志)。
Q5:AI Agent 系统的可观测体系需要多少人维护?
基础搭建需 1 名运维工程师投入 1-2 周,日常维护每周约 2-4 小时。如果使用环曜 Claw 内置的可观测能力,前期搭建时间可以缩短到 3-5 天。
