全部产品
Search
文档中心

云监控:将百炼指标与日志接入云监控

更新时间:May 25, 2026

本文介绍如何将大模型服务平台百炼接入到云监控 2.0。接入后,云监控将自动采集百炼工作空间下的模型调用指标、审计日志和推理日志,并提供预置监控大盘,帮助您实时观测模型调用质量、Token 消耗、调用延迟,以及进行调用溯源、安全审计和效果调优。

前提条件

  • 已开通大模型服务平台百炼并创建工作空间。

  • 已开通可观测监控 Prometheus 版和日志服务 SLS。

  • 已在百炼控制台模型服务 > 模型监控 > 模型监控配置页面,按需开启审计日志推理日志。未开启则对应日志无数据。

  • 若使用 RAM 用户接入,需要授予 AliyunCloudMonitorFullAccess 系统策略。

费用说明

  • Prometheus 监控服务费用:百炼高级监控指标按工作空间维度采集后写入 Prometheus 存储,会产生 Prometheus 写入费用。详情请参见 Prometheus 监控计费说明

  • 日志服务 SLS 费用:百炼审计日志和推理日志写入 SLS 存储,会产生 SLS 写入、索引和存储费用。详情请参见 SLS 计费说明

数据接入

  1. 登录云监控 2.0 控制台,选择目标工作空间后,在左侧导航栏单击接入中心

  2. 在云服务接入区域单击大模型服务平台百炼,开始接入。

  3. 在实体绑定区域,选择目标百炼工作空间所属的实体组:

    配置项

    说明

    实体组类型

    选择全部地域接入所有百炼工作空间实体;或选择自定义按地域、标签等条件筛选目标工作空间。

  4. 在接入配置区域,按需开启以下子项(默认全部开启):

    配置项

    说明

    默认值

    百炼高级监控指标

    采集工作空间下模型调用的请求量、Token 消耗、延迟、错误率等指标,写入 Prometheus 存储,用于监控、告警和大盘展示。

    开启

    百炼大模型审计日志

    采集工作空间下的模型调用审计日志,写入 SLS 存储,用于访问审计、调用溯源和安全合规。

    开启

    百炼大模型推理日志

    采集工作空间下的模型推理日志(含 prompt、completion 等内容),写入 SLS 存储,用于效果分析、Bad Case 调优和回测。

    开启

    审计日志和推理日志依赖百炼控制台的模型监控配置开启对应开关,云监控仅负责日志的分发与统一存储。
  5. 单击确定完成接入。接入成功后可在接入管理中查看策略状态。

跨地域接入

百炼工作空间分布在不同地域,云监控 2.0 支持自动跨地域采集。在选择实体组时勾选全部地域,云监控会自动从百炼实体所在地域(如 cn-beijing、ap-southeast-1)采集数据并汇聚到当前工作空间的存储中,无需为每个地域单独配置。

跨账号接入

如需在主账号工作空间下集中观测多个阿里云账号的百炼数据,请先在云资源目录中搭建多账户体系并添加委派管理员账号

预置监控看板

接入百炼高级监控指标后,云监控会自动提供百炼大模型监控大盘,展示工作空间下模型调用的核心可观测指标,可在接入中心-接入策略-大盘中查看。大盘内容涵盖以下指标维度:

指标分类

关键指标

调用量

一分钟请求次数(model_call_count)、Token 消耗(model_usage)

调用延迟

平均耗时、P50、P99(model_call_duration)

首包延迟

首包延时、首包延时 P50、首包延时 P99(model_first_token_duration)

生成性能

每 Token 平均耗时、P50、P99(model_generation_duration_per_token)

错误分析

按 status_code、error_code 维度聚合

支持按工作空间、模型、API Key、协议、状态码、错误码等维度进行筛选与下钻分析。

存储策略说明

接入百炼后,云监控会创建对应的 Prometheus 实例和 SLS Store 用于存储可观测数据。

数据类型

默认存储位置

备注

高级指标

Prometheus 实例:`RegionShare:{{workspaceName}}:{{regionId}}`

包含模型调用次数、耗时、Token 数等 7 项核心指标

审计日志

SLS Project:`aliyun-product-data-{{userId}}-{{regionId}}`
SLS Logstore:`bailian-audit-log`

记录模型服务调用审计事件

推理日志

SLS Project:`aliyun-product-data-{{userId}}-{{regionId}}`
SLS Logstore:`bailian-inference-log`

记录模型推理过程的详细日志

卸载或修改接入策略

如需调整百炼接入配置(启用/禁用某类数据、切换实体组等),请在接入中心的接入管理页找到对应策略并执行编辑

如需停止采集,请在接入管理页执行卸载操作。卸载后历史采集的指标和日志数据仍保留在原存储中,不会被清除。

百炼高级监控指标说明

接入百炼高级监控指标后,以下指标将写入 Prometheus 存储。

指标维度(Labels)

所有指标共享以下公共维度,可用于筛选与聚合:

维度

说明

示例值

workspace_id

百炼工作空间 ID

user_id

阿里云主账号 UID

model

模型名称

qwen-plus、deepseek-v3 等

api_key_id

调用使用的 API Key ID

protocol

客户端协议

HTTP、SSE、WEBSOCKET

sub_protocol

子协议/调用模式

DEFAULT、ASYNC-RESULT、BATCH

status_code

HTTP 业务状态码

200、400、429、500 等

error_code

业务错误码

InvalidParameter、RateLimited 等

usage_type

Token 用量子类型(仅 model_usage 系列)

input_tokens、output_tokens 等

调用量指标

指标名称

单位

说明

model_call_count

1 分钟内的模型调用次数,按 status_code / error_code 切片可观测成功率与错误分布

端到端耗时指标(model_call_duration 系列)

单次模型调用从请求到完整响应返回的总耗时,流式与非流式均覆盖。

指标名称

单位

说明

model_call_duration

ms

1 分钟内的平均耗时

model_call_duration_p50

ms

P50(中位数)耗时

model_call_duration_p95

ms

P95 耗时

model_call_duration_p99

ms

P99 耗时(SLO 常用)

model_call_duration_total

ms

1 分钟内所有调用的总耗时,用于二次聚合

首包延时指标(model_first_token_duration 系列)

流式输出场景下,从请求开始到接收首个生成 Token 的时间,衡量用户感知响应速度的核心指标。

指标名称

单位

说明

model_first_token_duration

ms

1 分钟内首包延时的平均值

model_first_token_duration_p50

ms

首包延时 P50

model_first_token_duration_p95

ms

首包延时 P95

model_first_token_duration_p99

ms

首包延时 P99

model_first_token_duration_total

ms

1 分钟内首包延时总和,用于二次聚合

单 Token 生成耗时指标(model_generation_duration_per_token 系列)

每生成 1 个输出 Token 的平均耗时,反映模型解码阶段的 Token 间生成速度(Inter-Token Latency)。

指标名称

单位

说明

model_generation_duration_per_token

ms/token

1 分钟内每 Token 平均生成耗时

model_generation_duration_per_token_p50

ms/token

P50

model_generation_duration_per_token_p95

ms/token

P95

model_generation_duration_per_token_p99

ms/token

P99

model_generation_duration_per_token_total

ms

1 分钟内累计求和,用于二次聚合

Token 消耗指标(model_usage 系列)

1 分钟内的 Token / 时长 / 图像数等用量计数,是计费和容量评估的核心数据源。通过 usage_type 维度区分用量类别。

指标名称

单位

说明

model_usage

视 usage_type

1 分钟用量总和

model_usage_p50

视 usage_type

单次请求 usage 的 P50

model_usage_p95

视 usage_type

单次请求 usage 的 P95

model_usage_p99

视 usage_type

单次请求 usage 的 P99(识别大请求长尾)

usage_type 枚举说明

usage_type

含义

单位

input_tokens

输入 / Prompt Token 数

token

output_tokens

输出 / Completion Token 数

token

total_tokens

总 Token 数(input + output)

token

cached_tokens

命中 Prompt Cache 的 Token 数

token

image_tokens

多模态图片折算的 Token 数

token

image_count

多模态请求中包含的图片张数

duration

单次调用耗时(音频/视频模型按时长计费时使用)

ms

容量与配额指标

指标名称

单位

说明

model_ptu_usage_quota

模型 PTU(预留吞吐单元)配额使用量,结合配额总量可计算使用率

model_unit_capacity

模型实例单元容量,反映当前模型可用承载单元数