本文介绍如何将大模型服务平台百炼接入到云监控 2.0。接入后,云监控将自动采集百炼工作空间下的模型调用指标、审计日志和推理日志,并提供预置监控大盘,帮助您实时观测模型调用质量、Token 消耗、调用延迟,以及进行调用溯源、安全审计和效果调优。
前提条件
费用说明
Prometheus 监控服务费用:百炼高级监控指标按工作空间维度采集后写入 Prometheus 存储,会产生 Prometheus 写入费用。详情请参见 Prometheus 监控计费说明。
日志服务 SLS 费用:百炼审计日志和推理日志写入 SLS 存储,会产生 SLS 写入、索引和存储费用。详情请参见 SLS 计费说明。
数据接入
登录云监控 2.0 控制台,选择目标工作空间后,在左侧导航栏单击接入中心。
在云服务接入区域单击大模型服务平台百炼,开始接入。
在实体绑定区域,选择目标百炼工作空间所属的实体组:
配置项
说明
实体组类型
选择全部地域接入所有百炼工作空间实体;或选择自定义按地域、标签等条件筛选目标工作空间。
在接入配置区域,按需开启以下子项(默认全部开启):
配置项
说明
默认值
百炼高级监控指标
采集工作空间下模型调用的请求量、Token 消耗、延迟、错误率等指标,写入 Prometheus 存储,用于监控、告警和大盘展示。
开启
百炼大模型审计日志
采集工作空间下的模型调用审计日志,写入 SLS 存储,用于访问审计、调用溯源和安全合规。
开启
百炼大模型推理日志
采集工作空间下的模型推理日志(含 prompt、completion 等内容),写入 SLS 存储,用于效果分析、Bad Case 调优和回测。
开启
审计日志和推理日志依赖百炼控制台的模型监控配置开启对应开关,云监控仅负责日志的分发与统一存储。
单击确定完成接入。接入成功后可在接入管理中查看策略状态。
跨地域接入
百炼工作空间分布在不同地域,云监控 2.0 支持自动跨地域采集。在选择实体组时勾选全部地域,云监控会自动从百炼实体所在地域(如 cn-beijing、ap-southeast-1)采集数据并汇聚到当前工作空间的存储中,无需为每个地域单独配置。
跨账号接入
预置监控看板
接入百炼高级监控指标后,云监控会自动提供百炼大模型监控大盘,展示工作空间下模型调用的核心可观测指标,可在接入中心-接入策略-大盘中查看。大盘内容涵盖以下指标维度:
指标分类 | 关键指标 |
调用量 | 一分钟请求次数(model_call_count)、Token 消耗(model_usage) |
调用延迟 | 平均耗时、P50、P99(model_call_duration) |
首包延迟 | 首包延时、首包延时 P50、首包延时 P99(model_first_token_duration) |
生成性能 | 每 Token 平均耗时、P50、P99(model_generation_duration_per_token) |
错误分析 | 按 status_code、error_code 维度聚合 |
支持按工作空间、模型、API Key、协议、状态码、错误码等维度进行筛选与下钻分析。
存储策略说明
接入百炼后,云监控会创建对应的 Prometheus 实例和 SLS Store 用于存储可观测数据。
数据类型 | 默认存储位置 | 备注 |
高级指标 | Prometheus 实例:`RegionShare:{{workspaceName}}:{{regionId}}` | 包含模型调用次数、耗时、Token 数等 7 项核心指标 |
审计日志 | SLS Project:`aliyun-product-data-{{userId}}-{{regionId}}` | 记录模型服务调用审计事件 |
推理日志 | SLS Project:`aliyun-product-data-{{userId}}-{{regionId}}` | 记录模型推理过程的详细日志 |
卸载或修改接入策略
如需调整百炼接入配置(启用/禁用某类数据、切换实体组等),请在接入中心的接入管理页找到对应策略并执行编辑。
如需停止采集,请在接入管理页执行卸载操作。卸载后历史采集的指标和日志数据仍保留在原存储中,不会被清除。
百炼高级监控指标说明
接入百炼高级监控指标后,以下指标将写入 Prometheus 存储。
指标维度(Labels)
所有指标共享以下公共维度,可用于筛选与聚合:
维度 | 说明 | 示例值 |
| 百炼工作空间 ID | — |
| 阿里云主账号 UID | — |
| 模型名称 | qwen-plus、deepseek-v3 等 |
| 调用使用的 API Key ID | — |
| 客户端协议 | HTTP、SSE、WEBSOCKET |
| 子协议/调用模式 | DEFAULT、ASYNC-RESULT、BATCH |
| HTTP 业务状态码 | 200、400、429、500 等 |
| 业务错误码 | InvalidParameter、RateLimited 等 |
| Token 用量子类型(仅 model_usage 系列) | input_tokens、output_tokens 等 |
调用量指标
指标名称 | 单位 | 说明 |
| 次 | 1 分钟内的模型调用次数,按 status_code / error_code 切片可观测成功率与错误分布 |
端到端耗时指标(model_call_duration 系列)
单次模型调用从请求到完整响应返回的总耗时,流式与非流式均覆盖。
指标名称 | 单位 | 说明 |
| ms | 1 分钟内的平均耗时 |
| ms | P50(中位数)耗时 |
| ms | P95 耗时 |
| ms | P99 耗时(SLO 常用) |
| ms | 1 分钟内所有调用的总耗时,用于二次聚合 |
首包延时指标(model_first_token_duration 系列)
流式输出场景下,从请求开始到接收首个生成 Token 的时间,衡量用户感知响应速度的核心指标。
指标名称 | 单位 | 说明 |
| ms | 1 分钟内首包延时的平均值 |
| ms | 首包延时 P50 |
| ms | 首包延时 P95 |
| ms | 首包延时 P99 |
| ms | 1 分钟内首包延时总和,用于二次聚合 |
单 Token 生成耗时指标(model_generation_duration_per_token 系列)
每生成 1 个输出 Token 的平均耗时,反映模型解码阶段的 Token 间生成速度(Inter-Token Latency)。
指标名称 | 单位 | 说明 |
| ms/token | 1 分钟内每 Token 平均生成耗时 |
| ms/token | P50 |
| ms/token | P95 |
| ms/token | P99 |
| ms | 1 分钟内累计求和,用于二次聚合 |
Token 消耗指标(model_usage 系列)
1 分钟内的 Token / 时长 / 图像数等用量计数,是计费和容量评估的核心数据源。通过 usage_type 维度区分用量类别。
指标名称 | 单位 | 说明 |
| 视 usage_type | 1 分钟用量总和 |
| 视 usage_type | 单次请求 usage 的 P50 |
| 视 usage_type | 单次请求 usage 的 P95 |
| 视 usage_type | 单次请求 usage 的 P99(识别大请求长尾) |
usage_type 枚举说明:
usage_type | 含义 | 单位 |
| 输入 / Prompt Token 数 | token |
| 输出 / Completion Token 数 | token |
| 总 Token 数(input + output) | token |
| 命中 Prompt Cache 的 Token 数 | token |
| 多模态图片折算的 Token 数 | token |
| 多模态请求中包含的图片张数 | 张 |
| 单次调用耗时(音频/视频模型按时长计费时使用) | ms |
容量与配额指标
指标名称 | 单位 | 说明 |
| 个 | 模型 PTU(预留吞吐单元)配额使用量,结合配额总量可计算使用率 |
| 个 | 模型实例单元容量,反映当前模型可用承载单元数 |