全部产品
Search
文档中心

:大模型产品计费

更新时间:Nov 24, 2025

定价概述

开通百炼不会产生费用,调用大模型实现文本生成任务时,会产生模型推理(调用)费用。

查看账单:请访问明细账单成本分析页面。 查看模型调用统计:请访问模型观测(新加坡北京页面。

计费项

模型推理(调用)

计费方式

按模型调用量

计费公式

费用 = 调用消耗量 × 单价

计费说明

免费额度仅新加坡地域提供免费额度。在免费额度内,实时调用不收费。查看剩余额度数据按小时更新,高峰期可能有小时级延迟。

计费单价查看价格

模型推理(调用计费

计费概述&免费额度

模型调用价格请参考模型列表。详细的 RPM、TPM 等性能信息请参考限流

说明

仅新加坡地域提供免费额度,如何获取免费额度以及如何查看剩余免费额度请参考新人免费额度

模型观测(新加坡北京页面查看具体模型的调用次数和消耗Token数。

预付费(节省计划)

您可以购买节省计划(预付费),用于抵扣模型推理超出免费额度后产生的推理费用。节省计划用完后,系统会开始使用账户余额扣费,您也可以购买多个节省计划进行抵扣。

大语言模型

购买方式

单击此处购买大语言模型推理节省计划

档位

阿里云百炼提供以下的购买档位:$10、$50、$100、$500、$1000、$5000、$50000。

有效期

  • 对于$10、$50、$100档,有效期三个月。

  • 对于$500、$1000、$5000、$50000档,有效期六个月。

适用模型

新加坡地域北京地域的所有文本生成模型(包括:通义千问商业版、通义千问开源版、DeepSeek、Kimi)。请前往模型列表查看这些模型及其调用价格。

使用说明

使用百炼时,将优先消耗节省计划的额度。如果购买了多个节省计划,抵扣时将按节省计划到期时间的先后顺序抵扣。如果到期时间相同,先购买的节省计划将优先抵扣。

查询节省计划账单

请参见如何查询节省计划账单

通义万相模型

购买方式

单击此处购买通义万相模型节省计划

购买说明

阿里云百炼提供五个购买档位,分别为:

  • $10:无折扣

  • $50:无折扣

  • $100:无折扣

  • $500:享9.8折优惠

  • $1,000:享9.5折优惠

  • $5,000:享9折优惠

优惠示例:以 $500 档位为例,假设生成某个视频消费 $1,实际将从节省计划中抵扣$1*0.98=$0.98。

有效期

  • 对于$10、$50、$100 三档,有效期三个月。

  • 对于$500、$1,000和$5,000 三档,有效期六个月。

使用说明

使用百炼时,将优先消耗节省计划的额度。如果购买了多个节省计划,抵扣时将按节省计划到期时间的先后顺序抵扣。

查询节省计划账单

请参见如何查询节省计划账单

适用模型

图像生成:wan2.5-t2i-preview、wan2.5-i2i-preview、wan2.2-t2i-plus、wan2.2-t2i-flash、wanx2.1-imageedit、wan2.1-t2i-plus、wan2.1-t2i-turbo、wanx2.0-t2i-turbo

视频生成:wan2.5-t2v-preview、wan2.5-i2v-preview、wan2.2-i2v-flash、wan2.2-i2v-plus、wan2.2-t2v-plus、wan2.1-vace-plus、wan2.1-kf2v-plus、wan2.1-i2v-plus、wan2.1-i2v-turbo、wan2.1-t2v-plus、wan2.1-t2v-turbo

请前往模型列表查看所有模型及其调用价格。

Batch 调用减免(仅新加坡地域支持Batch调用)

对于无需实时响应的推理场景,批量推理(Batch API)能异步处理大批量的数据请求,成本仅为实时推理的 50%,且接口兼容OpenAI,适合执行模型评测、数据标注等批量作业。

计费说明

  • 计费单价:所有成功请求的输入和输出Token,单价均为对应模型实时推理价格的50%,具体请参见模型列表

  • 计费范围:

    • 仅对任务中成功执行的请求进行计费。

    • 文件解析失败、任务执行失败、或行级错误请求均不产生费用

    • 对于被取消的任务,在取消操作前已成功完成的请求仍会正常计费。

重要

批量推理为独立计费项,不支持预付费(节省计划)、新人免费额度等优惠,以及上下文缓存等功能。

Context Cache(上下文缓存)计费

包含隐式缓存与显式缓存:

  • 隐式缓存

    开启隐式缓存模式无需额外付费。

    image.png

    可从返回结果cached_tokens属性获取命中缓存的 Token 数。

    OpenAI兼容-Batch方式调用无法享受缓存折扣。
  • 显式缓存

    包含以下费用:

    • 创建缓存:用于创建缓存的 Token,其费用按标准输入单价的 125% 计算。若已有缓存是新缓存的前缀,对新增内容(新缓存块Token数 - 已存在缓存块Token数)计费。

      假设已有一个 1200 Token 的缓存块 A。当一个新请求需要缓存 1500 Token 的内容 AB 时,其中 1200 Token 将按 10% 的命中价格计费,新增的 300 Token 将按 125% 的创建价格计费。

      创建缓存的 Token数通过cache_creation_input_tokens 参数查看。
    • 命中缓存:单价为标准输入 Token 的 10%

      命中缓存的 Token数通过 cached_tokens 参数查看。
    • 其他 Token:未命中且未创建缓存的 Token 按原价计费。

常见问题

通用

如何付费/充值?

调用模型会自动扣费,按小时出账。关于支持的支付方式,请参见支付方式介绍

预付费方法:

模型推理(调用):单击此处购买大语言模型推理节省计划

如何续费?

2024年3月15日之后,大模型服务平台百炼商业化升级后统一将预付费服务改成后付费服务,因此用户无需手动续费,直接使用后付费计费逻辑即可。

如何关闭计费?

  • 停止使用相关功能后将不再产生费用。对于模型推理,您可以删除阿里云百炼的API Key(新加坡北京防止意外调用产生费用。

    image

您可以设置月度消费预警,将预警阈值设置为一个较低值,阿里云将在产生意外扣费时通知您,避免您产生更多损失。

如何查看调用次数和消耗Token数(文本消耗量等)?

您可以在模型观测(新加坡北京页面查看某个业务空间下,某个具体模型的调用次数和消耗Token数。(暂不支持基于 API Key 粒度)

如何计算 Token 数?

Token是模型用来表示自然语言文本的基本单位,可以直观地理解为“字”或“词”。

  • 对于中文文本,1个Token通常对应一个汉字或词语。例如,“你好,我是通义千问”会被转换成['你好', ',', '我是', '通', '义', '千', '问']。

  • 对于英文文本,1个Token通常对应3至4个字母或1个单词。例如,"Nice to meet you."会被转换成['Nice', ' to', ' meet', ' you', '.']。

不同的大模型切分Token的方法可能不同。您可以使用SDK在本地查看经过通义千问模型切分后的Token数据。

查看经过通义千问模型切分后的Token数据:

# 请确保已经安装了DashScope Python SDK
from dashscope import get_tokenizer

# 获取tokenizer对象,目前只支持通义千问系列模型
tokenizer = get_tokenizer('qwen-turbo')

input_str = '通义千问具有强大的能力。'

# 将字符串切分成token并转换为token id
tokens = tokenizer.encode(input_str)
print(f"经过切分后的token id为:{tokens}。")
print(f"经过切分后共有{len(tokens)}个token")

# 将token id转化为字符串并打印出来
for i in range(len(tokens)):
    print(f"token id为{tokens[i]}对应的字符串为:{tokenizer.decode(tokens[i])}")
// Copyright (c) Alibaba, Inc. and its affiliates.
// dashscope SDK版本 >= 2.13.0
import java.util.List;
import com.alibaba.dashscope.exception.NoSpecialTokenExists;
import com.alibaba.dashscope.exception.UnSupportedSpecialTokenMode;
import com.alibaba.dashscope.tokenizers.Tokenizer;
import com.alibaba.dashscope.tokenizers.TokenizerFactory;

public class Main {
  public static void testEncodeOrdinary(){
    Tokenizer tokenizer = TokenizerFactory.qwen();
    String prompt ="如果现在要你走十万八千里路,需要多长的时间才能到达? ";
    // encode string with no special tokens
    List<Integer> ids = tokenizer.encodeOrdinary(prompt);
    System.out.println(ids);
    String decodedString = tokenizer.decode(ids);
    assert decodedString == prompt;
  }

  public static void testEncode() throws NoSpecialTokenExists, UnSupportedSpecialTokenMode{
    Tokenizer tokenizer = TokenizerFactory.qwen();
    String prompt = "<|im_start|>system\nYour are a helpful assistant.<|im_end|>\n<|im_start|>user\nSanFrancisco is a<|im_end|>\n<|im_start|>assistant\n";
    // encode string with special tokens <|im_start|> and <|im_end|>
    List<Integer> ids = tokenizer.encode(prompt, "all");
    // 24 tokens [151644, 8948, 198, 7771, 525, 264, 10950, 17847, 13, 151645, 198, 151644, 872, 198, 23729, 80328, 9464, 374, 264, 151645, 198, 151644, 77091, 198]
    String decodedString = tokenizer.decode(ids);
    System.out.println(ids);
    assert decodedString == prompt;

  }

  public static void main(String[] args) {
      try {
        testEncodeOrdinary();
        testEncode();
      } catch (NoSpecialTokenExists | UnSupportedSpecialTokenMode e) {
        e.printStackTrace();
      }
  }
}

本地运行的tokenizer可以用来估计文本的Token量,但是得到的结果不保证与模型服务端完全一致,仅供参考。如果您对通义千问的tokenizer细节感兴趣,请参考: tokenizer参考

模型调用报错怎么办?

请您参考错误信息文档查找相应的解决方案。

计费规则

调用模型后免费额度为什么没有减少?(仅新加坡地域提供免费额度)

免费额度数据按小时更新,高峰期可能有小时级延迟。因此,您需要在模型调用完一小时后再查看剩余额度

超出免费额度的Token如何计费?仅新加坡地域提供免费额度

按实际消耗的Token数计费。由于单价(输入成本或输出成本)为每百万Token的价格,因此计算公式为:

费用=实际消耗的Token数/1,000,000 × 单价

例如,qwen-vl-max的输入成本为 $0.8/每百万Token,剩余免费额度为5万Token。在某次调用时,输入Token为50400,则超出免费额度的Token费用为 400/1,000,000 x $0.8。

多轮对话怎么计费?

在多轮对话中,历史对话的输入输出都会作为新一轮的模型输入 token 进行计费。

大模型应用会收费吗?

只创建应用不会收费。但如果调用应用进行了问答,则会根据调用的模型类型收取模型调用费用。

为什么大语言模型推理节省计划没有进行抵扣?

如果免费额度没有使用完的话是不会出账产生费用,未出账的情况下也是不需要节省计划抵扣的,免费额度使用完了产生账单扣费后会通过节省计划抵扣。

欠费

欠费有什么影响?

如果账户欠费,即使有免费额度(仅新加坡地域)、资源包等,也无法进行模型调用。您可以前往充值汇款页面进行充值。

百炼API调用报错:如何快速处理服务未开通或账户欠费问题?

1. 服务未开通

使用阿里云主账号前往百炼控制台(新加坡北京),开通百炼的模型服务。

image

2. 账户余额不足

  • 余额核查:登录费用与成本页面,确认余额是否充足。

  • 充值操作:点击充值按钮,输入所需金额并完成支付。

3. 设置消费预警(防止重复报错)

账单

进行模型推理、模型调优及模型部署后,为什么在明细账单页面查不到相关账单?

可能原因如下:

  • 出账系统按小时维度更新,如遇高峰期可能存在小时级延时。例如 16:00~17:00 期间产生的费用,可能在 19:30:00 才出账。

  • 免费使用的模型以及免费额度(仅新加坡地域)内的模型推理均不会产生账单,只有超出免费额度的部分才会产生账单。

如何查看百炼所有服务的费用支出?

成分分析页面,成本类型选择应付金额时间粒度选择,选择时间范围(假设为2024年12月),产品选择大模型服务平台百炼,即可查看所选时间范围内百炼的成本支出。

image

如何查看百炼的模型推理服务的费用支出?

成分分析页面,成本类型选择应付金额时间粒度选择,选择时间范围(假设为2024年07月~12月),产品明细选择ModelStudio大模型推理,即可查看所选时间范围内模型推理总花费。

image

如何查看百炼的具体模型的推理费用支出?

以模型 qwen-max 为例。在明细账单页面,选择账期,再选择产品明细ModelStudio大模型推理,单击搜索

实例ID列找到所有与qwen-max相关的实例。将这些实例对应的应付金额相加,即可得出所选账期内调用qwen-max模型进行模型推理所支付的费用。

image

如何在明细账单中导出和查看消耗Token数?

账单详情页面费用中心账单明细账单页签中,统计项选择计费项进行导出,可在账单中查看到Token用量。

image

如何对大模型相关明细账单进行账单核对?

自2024年9月7日以后产生的大模型推理、部署与训练账单,可通过ApiKeyID、业务空间ID、模型名称、输入/输出类型、调用渠道、实例标签进行账单核对。

明细账单页面,选择账期,再选择产品大模型服务平台百炼,单击搜索。将搜索结果下载到本地,按照实例ID列的内容进行账单核对。

完整的实例ID,例如text_token;llm-xxx;qwen-max;output_token;app,依次表示计费类型;业务空间ID;模型名称;输入/输出类型;调用渠道

完整的实例标签,例如key:test value:test,依次表示标签键(key)标签值(value)。当某实例标签数为两个或以上时,标签键值信息将依次排列并以分号划分,例如key:test1 value:test1; key:test2 value:test2

前往业务空间管理(新加坡北京)页面,根据业务空间ID 确认对应的业务空间,以完成基于业务空间的账单核对操作。
调用渠道包括app、bmp及assistant-api。app表示通过应用调用模型,bmp表示通过控制台模型体验(新加坡北京调用模型。assistant-api表示通过Assistant API调用模型。

image

按量后付费账单如何结算?

阿里云按量后付费云资源账单结算方式不是实时扣费,而是先从账户可用额度中冻结截止目前已消费但未结清的金额。在次月初,月最终账单完成出账后,才实际扣除上个月的账单费用。

成本控制

如何预警大额计费?

您可以在费用与成本中心设置月度消费预警

image

如何限制模型调用量?

  • 希望免费额度用完后不扣费

    为避免额外消费,阿里云百炼提供免费额度用完即停功能。

  • 希望限制单位时间内的模型调用量或Token消耗量

    子业务空间设置限流。前往业务空间管理页面,找到目标子业务空间,点击模型权限流控设置,调整各模型的请求数限流Token限流

  • 希望对消耗Token数量做告警

    为模型开销设置告警规则,详情可参考用量与性能观测

    • 若此前未开通高级监控服务,需主账号先切换至目标业务空间,然后在模型观测页面手动开启或关闭。如需使用子账号,需主账号为该子账号配置必要权限

    • 前往模型告警页面,按照指引开通CMS云监控服务。

    • 点击创建告警规则进行配置。当指定的监控指标出现异常时,系统将通知您或您的运维团队。

    模型告警仅触发告警通知,不会终止模型调用。