模型用量 - 大模型服务平台百炼

介绍如何查看阿里云百炼各模型的用量。

如需了解免费额度相关内容，请参考新人免费额度文档。您也可以在免费额度页面查看和管理免费额度使用情况。

适用范围

适用地域：本文档仅适用于新加坡地域，具体参见选择地域和部署模式。
支持的模型：模型列表中的所有模型均支持查看用量。

查看免费额度使用情况

在控制台查看免费额度使用情况

进入模型用量：免费额度页面，选择模型类型页签查看各模型的免费额度使用情况。
在全部模型表格中，可通过搜索、排序、筛选等方式查找特定模型，并可切换免费额度用完即停开关或使用批量操作功能管理免费额度设置。

说明

免费额度用完即停：开启后，免费额度用尽时服务将自动停止（返回403错误：AllocationQuota.FreeTierOnly），避免产生免费额度以外的费用。若您希望在免费额度用尽后仍继续使用模型服务，并根据实际产生的用量付费，请保持本功能关闭状态。您只能在账户内仍有未消耗的免费额度时开启本功能。一旦功能开启，若您需要关闭本功能，需要在免费额度完全消耗后再进行关闭（免费额度出账周期为分钟级；控制台免费额度数据非实时、可能有延迟，请以控制台显示的免费额度数值为准）。

查看模型用量

国际站控制台仅支持查看免费额度使用情况。如需查看详细的用量统计，请前往账单详情页面，导出账单查看 Token 用量。

模型用量统计单位说明

在阿里云百炼，不同模型的用量统计口径如下：

类型	二级分类	统计单位	计费说明（模型调用）
大语言模型	文本生成模型	Token	按输入和输出对应的 Token 数计费。
	深度思考模型
	视觉理解模型
视觉模型	图像生成	张	按成功生成的图像张数计费。
	视频生成	秒	按成功生成的视频秒数计费。
语音模型	语音合成模型	秒、字符或 Token	可能按音频时长（秒）、对应的文本字符数或 Token 数计费，视模型而定。
	实时语音合成模型
	录音文件识别模型
	实时语音识别模型
	音视频翻译模型
全模态模型	全模态模型	Token	文本部分按 Token 数，其他模态（音频、图像、视频）按对应的 Token 数计费。
	实时多模态模型
向量模型	多模态向量模型	Token	按输入文本的 Token 数计费。
	文本向量模型

应用于生产环境

管理模型用量建议：

控制模型输出长度： 在调用模型 API 时，合理限制思考长度和设置 max_tokens 参数，可限制模型单次生成内容的最大长度（从而控制费用）。
根据任务类型选择模型： 对于分类、摘要等简单任务，优先选择成本更低的轻量级模型（如 qwen-turbo），而不是始终使用功能强大但价格也较高的模型（如 qwen-max）。
监控与告警： 通过模型监控监控用量趋势，并可配置用量告警，当用量出现异常时及时收到通知。
优化 Prompt： 简洁、清晰的 Prompt 不仅能提升模型输出质量，也能减少不必要的输入 Token 消耗。
使用批量推理： 对于非实时、大批量的处理任务，使用批量推理通常比实时调用更具成本优势。

名词解释

名词	解释
Token	大模型以 Token 为单位处理输入和输出。一个 Token 可能是：单个字符：如`A`、`我` 完整的单词：如`large`、`Model` 长单词的一部分：一个长单词通常会被拆分为多个 Token，拆分的过程称为分词。根据经验，平均 1 个汉字约对应 1.5-2 个 Token；1 个英文字母约对应 0.25 个 Token；1 个英文单词约对应 1.3 个 Token： `阿里云百炼`：约 4-5 个 Token `Hello World`：约 2 个 Token 每个模型都有最大输入和输出 Token 数（详见模型列表），超过限制会导致请求失败。
实时推理	指对模型的所有直接和间接调用，主要涵盖以下场景： API调用模型广场阿里云百炼应用（智能体/工作流/智能体编排应用，以及涉及到模型调用的节点，如大模型节点、意图分类节点以及智能体群组节点等）的测试态和发布态 Assistant API调用应用调用
批量推理	对于无需实时响应的场景，通过OpenAI兼容-Batch（文件输入）接口以离线方式进行的大规模数据处理。

常见问题

Q: 如何查我的阿里云账号的 Token 总用量？

A: 使用阿里云账号（主账号）访问账单详情页面并导出账单，然后在账单中查看 Token 用量。