模型监控 - 大模型服务平台百炼

模型监控功能可用于：

查看调用记录
指标监控与告警，如Token延时、调用时长、RPM（每分钟请求数）、TPM（每分钟Token数）和失败率
统计Token消耗

支持的模型

监控：普通监控支持选择模型中的所有模型，；高级监控支持北京、新加坡、弗吉尼亚地域下的所有模型。
告警功能：支持北京、新加坡地域下的所有模型。

监控模型运行

系统会自动采集主账号下所有业务空间内的模型调用数据。当有直接或间接模型调用发生时，系统会自动收集并同步相关数据至目标业务空间的模型监控列表中。

列表记录按“模型 + 业务空间”维度生成。新模型在首次数据同步完成后自动加入列表（普通监控的延迟通常为小时级，请耐心等待；如需分钟级的数据洞察，请使用高级监控）。

列表顶部「监控数据看板」以卡片形式汇总模型总量、总调用次数、总失败次数、平均调用时长、平均首包时长。

「模型监控」表格列出各模型的模型 Code、业务空间、调用总量、调用失败量、失败率、平均调用时长、平均首包时长（除模型 Code、业务空间外均可排序），操作列提供监控、日志入口。

默认业务空间成员可查看所有业务空间的模型调用情况；子业务空间成员仅能查看当前空间的数据，无法切换查看其他业务空间数据。

在列表中找到目标模型后，点击其右侧操作列的监控，可查询以下4类监控指标：

安全：识别对话中的违规内容，例如内容安全错误次数。
成本：评估模型的成本效益，例如平均单次请求调用量。
性能：观察模型的性能变化，例如调用时长、首Token延时。
错误：判断模型的稳定性，例如失败次数、失败率。

您可基于上述指标创建告警，以便及时发现和处理异常。

点击操作列「监控」进入模型详情页，详情页含监控、日志两个页签。监控页签下分为调用统计与性能指标两类。

此页签可查看安全、成本、错误相关指标（如调用次数、失败次数等）。支持按API-KEY、推理类型、时间范围以及时间精度（按分钟/按小时）进行筛选。

限流错误次数：指因429状态码导致的调用失败。
内容安全错误次数：指输入或输出包含疑似敏感或高风险内容（例如涉黄、涉政和广告等）被内容安全服务拦截。

调用统计页签的失败次数图表支持点击失败详情查看失败明细，便于定位调用失败原因。

性能指标

此页签可查看RPM、TPM、调用时长、首Token延时以及非首Token延时等性能相关指标。

查看 Token 消耗

在实际使用中，调整模型的参数、系统提示词等操作均会改变模型的Token消耗。为统计和精细化管理成本，模型监控提供成本监控相关功能：

汇总：按业务空间维度汇总模型的历史Token消耗，并可按时间范围和API Key进一步筛选。
追踪：记录每一次模型调用的Token消耗。
告警：设置Token消耗阈值，当指定模型出现异常消耗时，系统立即告警。

查看模型历史 Token 消耗

查看最近30天的Token消耗：
1. 当模型出现在目标业务空间的模型监控列表中后，点击其右侧操作列的监控。
2. 在调用统计页签的调用量区域，可以查看Token消耗数据。
查看更早的用量：在费用与成本页面查询。

查看某次调用的 Token 消耗

该功能目前仅适用于华北2（北京）地域的部分模型。

使用主账号（或拥有足够权限的子账号）登录，在目标业务空间的模型监控（北京）页面，点击右上角的模型监控配置，按照指引依次开通审计日志和推理日志。
开通后，系统即开始记录该业务空间内每一次模型调用的输入与输出。从调用发生到日志被记录存在分钟级延迟，请耐心等待。
在模型监控列表中找到目标模型，点击其右侧操作列的日志。
日志页签展示该模型的实时推理调用记录，用量字段即为本次调用的Token消耗。

创建异常消耗告警

请参见建立主动告警。

查看历史对话（模型日志）

重要

该功能目前仅适用于华北2（北京）地域的部分模型。

模型监控支持查看模型的每一次对话，包括输入、输出及耗时，是故障排查和内容审计的关键工具。

步骤一：开通日志

使用主账号（或拥有足够权限的子账号）登录，在目标业务空间的模型监控（北京）页面，点击右上角的模型监控配置，按照指引依次开通审计日志和推理日志。

开通后，系统即开始记录该业务空间内每一次模型调用的输入与输出。从调用发生到日志被记录存在分钟级延迟，请耐心等待。

如需停止记录，只需在模型监控配置中关闭推理日志即可。

步骤二：查看历史对话

在模型监控列表中找到目标模型，点击其右侧操作列的日志。
日志页签展示该模型的实时推理调用记录，请求和响应字段分别对应本次调用的输入与输出。

支持请求和响应的模型

千问Max
- qwen3-max、qwen3-max-preview、qwen3-max-2025-09-23及之后的快照版本
- qwen-max
千问Plus
- qwen3.7-plus、qwen3.7-plus-2026-05-26及之后的快照版本
- qwen3.6-plus、qwen3.6-plus-2026-04-02及之后的快照版本
- qwen3.5-plus、qwen3.5-plus-2026-02-15及之后的快照版本
- qwen-plus、qwen-plus-latest、qwen-plus-2025-12-01及之后的快照版本
千问Flash
- qwen3.5-flash、qwen3.5-flash-2026-02-23
- qwen-flash、qwen-flash-2025-07-28
千问Turbo：qwen-turbo
千问Coder：qwen3-coder-flash、qwen3-coder-flash-2025-07-28、qwen3-coder-plus、qwen3-coder-plus-2025-07-22、qwen3-coder-plus-2025-09-23
开源模型：qwen3-235b-a22b、qwen3-235b-a22b-instruct-2507、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b、qwen3-30b-a3b-instruct-2507、qwen3-30b-a3b-thinking-2507、qwen3-next-80b-a3b-instruct、qwen3-next-80b-a3b-thinking、qwen3-coder-480b-a35b-instruct
三方模型：deepseek-v3.1、deepseek-v3.2、deepseek-v3.2-exp

建立主动告警

重要

该功能目前仅适用于新加坡和华北2（北京）地域。

模型的静默失败（如超时、Token消耗突增），传统应用日志难以发现。模型监控支持对监控指标（如成本、失败率、响应延迟）设置告警。一旦指标出现异常，系统立即告警。

步骤一：开启高级监控

使用主账号（或拥有足够权限的子账号）登录，在目标业务空间的模型监控（新加坡或北京）页面，点击右上角的模型监控配置。
在高级监控区域，手动开启性能和用量指标监控。

步骤二：创建告警规则

在模型告警（新加坡或北京，其中新加坡地域当前告警不生效，请在华北2（北京）地域创建告警规则）页面，点击右上角的创建告警规则。
在对话框中，选择要监控的模型和监控模板，确认无误后点击创建。当指定的监控指标（如调用统计或性能指标）出现异常时，系统将通知您的团队。
- 通知方式：支持短信、电子邮件、电话、钉钉群机器人、企业微信机器人及Webhook。
- 告警等级：分为普通、警告、错误和紧急，不支持自定义新增或修改。各等级与通知渠道的对应关系如下：
  - 紧急（CRITICAL）: 电话、短信、邮件
  - 错误（ERROR）: 短信、邮件
  - 警告（WARNING）: 短信、邮件
  - 普通（INFO）: 邮件

接入 Grafana 与自建应用

模型监控的监控指标数据存储在您的私有Prometheus实例中，并支持标准的Prometheus HTTP API，可用于接入 Grafana 或您的自建应用进行可视化分析。

步骤一：获取数据源HTTP API地址

确保已开启高级监控。
在模型监控（新加坡）、模型监控（弗吉尼亚）或模型监控（北京）页面，点击右上角的模型监控配置。点击云监控Prometheus实例右侧的查看详情。
在设置页面，根据您的客户端网络环境（公网或VPC访问），复制对应的 HTTP API 地址。

步骤二：接入 Grafana 或自建应用

接入自建应用

通过Prometheus HTTP API获取监控数据的示例如下。完整 API 用法，请参考Prometheus HTTP API文档。

示例1：查询阿里云账号下全部业务空间在指定时间范围内（2025年11月20日全天，UTC时间）所有模型的Token消耗（query=model_usage），步长step=60s。

示例

参数说明

GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s

Accept: application/json
Content-Type: application/json
Authorization: Basic base64Encode(AccessKey:AccessKeySecret)

query：query对应的值可替换为下方监控指标列表中的任意指标名称。

展开查看监控指标

类型	指标名称	描述
调用次数	model_call_count	模型调用次数总和
调用时长	model_call_duration_total	模型调用时长总和
	model_call_duration	模型调用时长均值
	model_call_duration_p50	模型调用时长p50
	model_call_duration_p99	模型调用时长p99
	model_first_token_duration_total	模型首包时长总和
	model_first_token_duration	模型首包时长均值
	model_first_token_duration_p50	模型首包时长p50
	model_first_token_duration_p99	模型首包时长p99
非首包时长	model_generation_duration_per_token_total	模型非首包时长总和
	model_generation_duration_per_token	模型非首包时长均值
	model_generation_duration_per_token_p50	模型非首包时长p50
	model_generation_duration_per_token_p99	模型非首包时长p99
用量	model_usage	模型用量总和

HTTP API：{HTTP API}需替换为前面步骤一获取的HTTP API地址。
Authorization：需将阿里云账号的 AccessKey:AccessKeySecret 拼接后进行Base64编码，并以 Basic 编码后字符串 的形式提供。
示例值：Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
请注意：AccessKey及AccessKey Secret与前面步骤一的Prometheus实例必须归属同一阿里云账号。

示例2：在示例1基础上增加筛选，仅获取指定模型（model=qwen-plus）在指定业务空间（workspace_id=llm-nymssti2mzww****）内的Token消耗。

示例

说明

GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s

Accept: application/json
Content-Type: application/json
Authorization: Basic base64Encode(AccessKey:AccessKeySecret)

query：通过{} 包裹多个过滤条件，条件之间以英文逗号分隔，例如：{workspace_id="值1",model="值2"} 。支持的过滤条件（LabelKey）清单如下。

展开查看支持的过滤条件

LabelKey	描述
user_id	阿里云账号ID。 RAM用户为UID。如何获取
apikey_id	API Key ID（非API Key），可在密钥管理（新加坡\| 美国 \| 北京）页面获取。说明 apikey_id 值为 -1 表示调用源自阿里云百炼控制台，而非通过API。
workspace_id	业务空间ID。如何获取
model	模型。
protocol	协议类型。可能取值： HTTP：HTTP非流式 SSE：HTTP流式 WS：Websocket协议
sub_protocol	子协议。可能取值： DEFAULT：同步调用 ASYNC：异步调用常见于图像生成模型。文本生成图像
status_code	HTTP状态码。仅`model_call_count`监控指标支持该LabelKey。
error_code	错误码。仅`model_call_count`监控指标支持该LabelKey。
usage_type	用量类型。仅`model_usage`监控指标支持该LabelKey。可能取值： total_tokens input_tokens output_tokens cache_tokens image_tokens audio_tokens video_tokens image_count audio_count video_count duration characters audio_tts times

接入 Grafana

在 Grafana（自建或阿里云 Grafana 服务）中添加模型监控数据源。此处以Grafana 10.x（英文版）为例。其他版本的操作类似，详情请参考Grafana官方文档。

添加数据源：
1. 使用管理员账号登录Grafana。点击页面左上角的图标，选择Administration > Data sources。点击+ Add new data source，数据源类型选择Prometheus。
2. 在Settings页签配置数据源信息：
  - Name：输入自定义的名称。
  - Prometheus server URL：输入前面步骤一获取的HTTP API地址。
  - Auth：开启Basic auth，并设置User（阿里云账号的AccessKey）及Password（阿里云账号的AccessKey Secret）。
    AccessKey及AccessKeySecret与前面步骤一的Prometheus实例必须归属同一阿里云账号。
3. 点击页签底部的Save & Test。

指标查询：

点击Grafana页面左上角的图标，在左侧导航栏中点击Dashboards。
点击Dashboards页面右侧的New > New dashboard创建一个新的仪表盘。
点击+ Add visualization，并选择您刚创建的数据源。

在Edit Panel页面点击Query页签，在A区域的Label filters字段中选择_name_及指标名称。以查询模型Token消耗model_usage为例：

示例

说明

图中_name_对应的值（model_usage）可替换为下方监控指标列表中的任意指标名称。

展开查看监控指标

类型	指标名称	描述
调用次数	model_call_count	模型调用次数总和
调用时长	model_call_duration_total	模型调用时长总和
	model_call_duration	模型调用时长均值
	model_call_duration_p50	模型调用时长p50
	model_call_duration_p99	模型调用时长p99
	model_first_token_duration_total	模型首包时长总和
	model_first_token_duration	模型首包时长均值
	model_first_token_duration_p50	模型首包时长p50
	model_first_token_duration_p99	模型首包时长p99
非首包时长	model_generation_duration_per_token_total	模型非首包时长总和
	model_generation_duration_per_token	模型非首包时长均值
	model_generation_duration_per_token_p50	模型非首包时长p50
	model_generation_duration_per_token_p99	模型非首包时长p99
用量	model_usage	模型用量总和

增加以下Label filters进一步筛选：

展开查看支持的过滤条件

LabelKey	描述
user_id	阿里云账号ID。 RAM用户为UID。如何获取
apikey_id	API Key ID（非API Key），可在密钥管理（新加坡\| 美国 \| 北京）页面获取。说明 apikey_id 值为 -1 表示调用源自阿里云百炼控制台，而非通过API。
workspace_id	业务空间ID。如何获取
model	模型。
protocol	协议类型。可能取值： HTTP：HTTP非流式 SSE：HTTP流式 WS：Websocket协议
sub_protocol	子协议。可能取值： DEFAULT：同步调用 ASYNC：异步调用常见于图像生成模型。文本生成图像
status_code	HTTP状态码。仅`model_call_count`监控指标支持该LabelKey。
error_code	错误码。仅`model_call_count`监控指标支持该LabelKey。
usage_type	用量类型。仅`model_usage`监控指标支持该LabelKey。可能取值： total_tokens input_tokens output_tokens cache_tokens image_tokens audio_tokens video_tokens image_count audio_count video_count duration characters audio_tts times

点击Run queries进行查询。
如果图表中成功渲染出数据，则说明配置成功。否则请检查：1）填写的HTTP API地址或AccessKey及AccessKeySecret是否正确；2）前面步骤一的Prometheus实例中是否有监控数据。

监控模式对比

模型监控提供两种监控模式：普通监控和高级监控。

普通监控：作为基础服务提供，随阿里云百炼的开通自动开启，不支持关闭。

高级监控：需主账号（或拥有足够权限的子账号）在目标业务空间的模型监控（新加坡）、模型监控（弗吉尼亚）或模型监控（北京）界面手动开启，支持关闭。仅记录开启高级监控后的调用数据。

对比项	普通监控（默认）	高级监控（需手动开启）
数据延时	小时级	分钟级
查看调用统计	支持	支持
查看失败调用（详情）	不支持	支持
查看性能指标	支持	支持
作用范围	主账号下所有业务空间	仅在开启的业务空间内生效
计费	免费	收费

配额与限制

数据保留周期：普通和高级监控的数据默认均保留30天。如需查询更早的用量信息，请通过费用与成本页面查询。
告警模板限制：每个业务空间最多可创建100个告警模板。
API限制：模型监控的监控指标数据请通过Prometheus HTTP API查询。
- 替代方案：如需通过API获取单次调用Token消耗，可在每次调用模型时从响应中的usage字段提取当前调用数据。该字段结构示例如下（更多说明请参见千问API参考）：
```
{
  "prompt_tokens": 3019,
  "completion_tokens": 104,
  "total_tokens": 3123,
  "prompt_tokens_details": {
    "cached_tokens": 2048
  }
}
```

计费说明

普通监控：免费。
高级监控：开启后，分钟级的监控数据将写入云监控CMS服务并产生费用。具体计费方式参见云监控CMS计费概述。
推理日志：开启后，分钟级的日志数据将写入日志服务SLS服务并产生费用。具体计费方式参见日志服务SLS计费概述。

常见问题

为什么调用了模型，但在模型监控中查不到调用次数和消耗Token数？

按以下步骤排查：

数据延迟：确认是否已等待足够的数据同步时间。普通监控延迟为小时级，高级监控为分钟级。
业务空间：如果当前处于某个子业务空间，则只能看到该空间内的数据。切换到默认业务空间可查看所有数据。

调用大模型时出现超时，可能是什么原因？

常见原因：

输出内容过长：模型生成内容过多导致整体耗时超过客户端等待上限。建议改用流式输出方式，以更快获得首个Token。
网络问题：检查客户端与阿里云服务之间的网络连接是否稳定。

使用子账号开通高级监控，应如何配置权限？

操作步骤：

为子账号配置AliyunBailianFullAccess全局管理（阿里云百炼）权限。
为子账号配置模型监控-操作（或管理员）页面权限，使其能在模型监控页面执行写入类操作。
为子账号配置AliyunCloudMonitorFullAccess系统策略。
创建并授予子账号创建服务关联角色系统策略。
1. 登录RAM控制台，在左侧导航栏，选择权限管理 > 权限策略，然后点击页面上的创建权限策略。
2. 点击脚本编辑，将以下内容粘贴至策略输入框后，点击确定。
```
{
    "Version": "1",
    "Statement": [
        {
            "Action": "ram:CreateServiceLinkedRole",
            "Resource": "*",
            "Effect": "Allow"
        }
    ]
}
```
3. 输入权限策略名称CreateServiceLinkedRole后，点击确定。
4. 在左侧导航栏，选择身份管理 > 用户。从页面列表中找到待授权的子账号，然后点击子账号操作列的添加权限。
5. 从权限策略列表中，选择刚创建的权限策略（CreateServiceLinkedRole），然后点击确认新增授权。至此，子账号拥有了创建服务关联角色的权限。
完成以上所有权限配置后，返回模型监控（新加坡）、模型监控（弗吉尼亚）或模型监控（北京）页面，使用子账号重试开启高级监控。

使用子账号开通推理日志，应如何配置权限？

操作步骤：

为子账号配置AliyunBailianFullAccess全局管理（阿里云百炼）权限。
为子账号配置模型监控-操作（或管理员）页面权限，使其能在模型监控页面执行写入类操作。
为子账号配置AliyunLogFullAccess系统策略。
创建并授予子账号创建服务关联角色系统策略。
1. 登录RAM控制台，在左侧导航栏，选择权限管理 > 权限策略，然后点击页面上的创建权限策略。
2. 点击脚本编辑，将以下内容粘贴至策略输入框后，点击确定。
```
{
    "Version": "1",
    "Statement": [
        {
            "Action": "ram:CreateServiceLinkedRole",
            "Resource": "*",
            "Effect": "Allow"
        }
    ]
}
```
3. 输入权限策略名称CreateServiceLinkedRole后，点击确定。
4. 在左侧导航栏，选择身份管理 > 用户。从页面列表中找到待授权的子账号，然后点击子账号操作列的添加权限。
5. 从权限策略列表中，选择刚创建的权限策略（CreateServiceLinkedRole），然后点击确认新增授权。至此，子账号拥有了创建服务关联角色的权限。
完成以上所有权限配置后，返回模型监控（北京）页面，使用子账号重试开启推理日志。

附录

名词解释

名词	解释
实时推理	指对模型的所有直接和间接调用，主要涵盖以下场景：通过DashScope SDK或OpenAI兼容接口的API调用模型体验阿里云百炼应用（智能体/工作流/智能体编排应用，以及涉及到模型调用的节点，如大模型节点、意图分类节点以及智能体群组节点等）的测试态和发布态 Assistant API（下线中）调用应用调用
批量推理	对于无需实时响应的场景，通过OpenAI兼容-Batch（文件输入）接口以离线方式进行的大规模数据处理。