模型观测功能可用于:
查看调用记录
指标监控与告警,如Token延时、调用时长、RPM(每分钟调用次数)、TPM(每分钟消耗Token数)和失败率
统计Token消耗
支持的模型
支持模型列表中的所有模型。
监控模型运行
开通模型调用服务后,阿里云百炼会自动在模型观测看板中添加以下4类监控指标:
安全:识别对话中的违规内容,例如
内容安全错误次数。成本:评估模型的成本效益,例如
平均单次请求调用量。性能:观察模型的性能变化,例如
调用时长、首Token延时。错误:判断模型的稳定性,例如
失败次数、失败率。
您可基于上述指标创建告警,以便及时发现和处理异常。
步骤一:开通模型调用服务
步骤二:查看监控指标
查看 Token 消耗
在实际使用中,调整模型的参数、系统提示词等操作均会改变模型的Token消耗。为统计和精细化管理成本,模型观测提供成本监控相关功能:
汇总:按业务空间维度汇总模型的历史Token消耗,并可按时间范围和API Key进一步筛选。
告警:设置Token消耗阈值,当指定模型出现异常消耗时,系统立即告警。
步骤一:开通模型调用服务
确保已开通模型调用服务。
步骤二:查看 Token 消耗或创建告警
建立主动告警
模型的静默失败(如超时、Token消耗突增),传统应用日志难以发现。模型观测支持对监控指标(如成本、失败率、响应延迟)设置告警。一旦指标出现异常,系统立即告警。
步骤一:开启高级监控
确保已开通模型调用服务。
使用主账号(或拥有足够权限的子账号)登录,在目标业务空间的模型观测(新加坡或北京)页面,点击右上角的模型观测配置。
在高级监控区域,手动开启性能和用量指标监控。
步骤二:创建告警规则
接入 Grafana 与自建应用
模型观测的监控指标数据存储在您的私有Prometheus实例中,并支持标准的Prometheus HTTP API,可用于接入 Grafana 或您的自建应用进行可视化分析。
步骤一:获取数据源HTTP API地址
步骤二:接入 Grafana 或自建应用
接入自建应用
通过Prometheus HTTP API获取监控数据的示例如下。完整 API 用法,请参考Prometheus HTTP API文档。
示例1:查询阿里云账号下全部业务空间在指定时间范围内(2025年11月20日全天,UTC时间)所有模型的Token消耗(query=
model_usage),步长step=60s。示例
参数说明
GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query:
query对应的值可替换为下方监控指标列表中的任意指标名称。HTTP API:
{HTTP API}需替换为前面步骤一获取的HTTP API地址。Authorization:需将阿里云账号的
AccessKey:AccessKeySecret拼接后进行Base64编码,并以Basic 编码后字符串的形式提供。示例值:Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
请注意:AccessKey及AccessKey Secret与前面步骤一的Prometheus实例必须归属同一阿里云账号。
示例2:在示例1基础上增加筛选,仅获取指定模型(model=
qwen-plus)在指定业务空间(workspace_id=llm-nymssti2mzww****)内的Token消耗。示例
说明
GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query:通过
{}包裹多个过滤条件,条件之间以英文逗号分隔,例如:{workspace_id="值1",model="值2"}。支持的过滤条件(LabelKey)清单如下。
接入 Grafana
在 Grafana(自建或阿里云 Grafana 服务)中添加模型观测数据源。此处以Grafana 10.x(英文版)为例。其他版本的操作类似,详情请参考Grafana官方文档。
添加数据源:
使用管理员账号登录Grafana。点击页面左上角的
图标,选择。点击+ Add new data source,数据源类型选择Prometheus。在Settings页签配置数据源信息:
Name:输入自定义的名称。
Prometheus server URL:输入前面步骤一获取的HTTP API地址。
Auth:开启Basic auth,并设置User(阿里云账号的AccessKey)及Password(阿里云账号的AccessKey Secret)。
AccessKey及AccessKeySecret与前面步骤一的Prometheus实例必须归属同一阿里云账号。

点击页签底部的Save & Test。
指标查询:
点击Grafana页面左上角的
图标,在左侧导航栏中点击Dashboards。点击Dashboards页面右侧的创建一个新的仪表盘。
点击+ Add visualization,并选择您刚创建的数据源。
在Edit Panel页面点击Query页签,在A区域的Label filters字段中选择_name_及指标名称。以查询模型Token消耗
model_usage为例:示例
说明

图中
_name_对应的值(model_usage)可替换为下方监控指标列表中的任意指标名称。增加以下Label filters进一步筛选:
点击Run queries进行查询。
如果图表中成功渲染出数据,则说明配置成功。否则请检查:1)填写的HTTP API地址或AccessKey及AccessKeySecret是否正确;2)前面步骤一的Prometheus实例中是否有监控数据。
监控模式对比模型观测提供两种监控模式:普通监控和高级监控。 普通监控:作为基础服务提供,随模型调用服务开通自动开启,不支持关闭。 高级监控:需主账号(或拥有足够权限的子账号)在目标业务空间的模型观测(新加坡或北京)界面手动开启,支持关闭。仅记录开启高级监控后的调用数据。
| ||||||||||||||||||||||||||||
配额与限制
数据保留周期:普通和高级监控的数据默认均保留30天。如需查询更早的用量信息,请通过费用与成本页面查询。
告警模板限制:每个业务空间最多可创建100个告警模板。
API限制:模型观测的监控指标数据请通过Prometheus HTTP API查询。
替代方案:如需通过API获取单次调用Token消耗,可在每次调用模型时从响应中的
usage字段提取当前调用数据。该字段结构示例如下(更多说明请参见通义千问API参考):{ "prompt_tokens": 3019, "completion_tokens": 104, "total_tokens": 3123, "prompt_tokens_details": { "cached_tokens": 2048 } }
计费说明
普通监控:免费。
高级监控:开启后,分钟级的监控数据将写入云监控CMS服务并产生费用。具体计费方式参见云监控CMS计费概述。
常见问题
为什么调用了模型,但在模型观测中查不到调用次数和消耗Token数?
按以下步骤排查:
数据延迟:确认是否已等待足够的数据同步时间。普通监控延迟为小时级,高级监控为分钟级。
业务空间:如果当前处于某个子业务空间,则只能看到该空间内的数据。切换到默认业务空间可查看所有数据。
调用大模型时出现超时,可能是什么原因?
常见原因:
输出内容过长:模型生成内容过多导致整体耗时超过客户端等待上限。建议改用流式输出方式,以更快获得首个Token。
网络问题:检查客户端与阿里云服务之间的网络连接是否稳定。
使用子账号开通高级监控,应如何配置权限?
操作步骤:
为子账号配置
AliyunBailianFullAccess全局管理(阿里云百炼)权限。为子账号配置
模型观测-操作(或管理员)页面权限,使其能在模型观测页面执行写入类操作。创建并授予子账号创建服务关联角色系统策略。
登录RAM控制台,在左侧导航栏,选择,然后点击页面上的创建权限策略。
点击脚本编辑,将以下内容粘贴至策略输入框后,点击确定。
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] }输入权限策略名称
CreateServiceLinkedRole后,点击确定。在左侧导航栏,选择。从页面列表中找到待授权的子账号,然后点击子账号操作列的添加权限。
从权限策略列表中,选择刚创建的权限策略(CreateServiceLinkedRole),然后点击确认新增授权。至此,子账号拥有了创建服务关联角色的权限。
附录
名词解释
名词 | 解释 |
实时推理 | 指对模型的所有直接和间接调用,主要涵盖以下场景:
|
批量推理 | 对于无需实时响应的场景,通过OpenAI兼容-Batch接口以离线方式进行的大规模数据处理。 |


