全部产品
Search
文档中心

开源大数据平台E-MapReduce:计费项与计费方式

更新时间:Mar 18, 2026

EMR Serverless Spark 工作空间费用由计算资源和模型调用两部分构成,支持按量付费、包年包月等多种计费方式。了解各计费项的计费逻辑与用量预估方法,有助于合理规划成本。

计费组成

EMR Serverless Spark 工作空间费用组成及支持的计费方式如下:

image

计费方式

EMR Serverless Spark 支持以下计费方式:

计费方式

描述

计算资源(按量付费)

先使用后付费。系统根据工作空间实际的资源使用量结算,每小时整点计算一次(UTC+8)。适用于业务用量经常变化的场景。

计算资源(包年包月)

先付费后使用。购买时根据时长预先支付费用,系统根据购买时长计算计费周期的价格。适用于业务资源用量固定、长期稳定且预算规划明确的场景。

计算资源(混合计费)

在包年包月模式的基础上配置弹性计算资源,结合按量付费的灵活性与包年包月的成本效益。

计算资源(资源抵扣包)

预先购买优惠资源包,结算时优先从资源包抵扣用量,超出部分按量付费。适用于业务用量相对稳定的场景。

模型调用(按量付费)

根据工作空间实际的 AI 中心内置模型 Token 用量进行结算。

计费项说明

计算资源

计算资源根据包年包月预购的资源量或按量付费实际使用量收费,计量单位是 CU。

1 CU = 1 核 CPU + 4 GiB 内存,是 EMR Serverless Spark 工作空间计算能力的基本单位。计算任务的 CU 使用量取决于实际处理的数据量、计算复杂程度、数据分布情况,以及是否开启Fusion引擎。开启 Fusion 引擎加速后,不会增加额外资源成本,作业执行时间通常可缩短 30% 以上。

如果 CPU 核数与内存的比例不足 1:4,请参见EMR Serverless Spark CU优惠活动进行折算。

1 CU 的处理能力如下表所示。

处理场景

处理能力(Java Runtime)

处理能力(Fusion 引擎)

简单的数据处理。例如,过滤、清洗等操作。

1 CU 每秒可以处理约 2,000,000 条数据。

1 CU 每秒可以处理约 5,000,000 条数据。

复杂的数据处理。例如,聚合、连接、String 操作等。

1 CU 每秒可以处理约 700,000 条数据。

1 CU 每秒可以处理约 2,000,000 条数据。

模型调用

模型调用根据 AI 中心内置模型服务的实际调用量计费,计量单位为千 Tokens。

Token 用量换算参考:平均 1 个汉字约对应 1.5-2 个 Token;1 个英文字母约对应 0.25 个 Token;1 个英文单词约对应 1.3 个 Token:

  • 阿里云百炼:约 4-5 个 Token

  • Hello World:约 2 个 Token

以数据脱敏场景为例,对 1000 条文本批量处理,SQL 示例如下:

select
  ai_query (
    concat(
      '对下面文本进行信息脱敏处理,规则如下:
      1. 中文姓名:识别所有中文姓名(2-4 个字)。保留第一个字和最后一个字,中间的字替换为 `*`。
      2. 手机号码:识别中国大陆手机号(11 位数字,以 1 开头)。保留前 3 位和后 4 位,中间 4 位替换为 `****`。
      3. 详细地址:识别包含省、市、区、街道、门牌号等具体的物理地址信息。保留省、市、区(县)三级行政区划信息,将区/县之后的所有详细街道、门牌、小区名等信息替换为 `***`。
      输出要求:
      仅输出以下三行格式,不要包含任何解释、原文或其他文字:
      姓名:[结果]
      手机号:[结果]
      地址:[结果]',
      user_info
    )
  )AS masked_text
from
  user_tbl
;

user_info 数据示例:”李四先生位于上海市浦东新区张江高科技园区某某路 xxx 号,手机 159********。”

处理单条数据预估用量如下:

Token用量(预估值)

user_info 输入数据

≈ 60

prompt

≈ 200

输出数据

≈ 50

处理 10000 条数据预估用量如下:

预估用量

计算公式

输入Token(预估值)

≈ 2600 千Tokens

(60+200)Tokens/条 * 10000条

输出Token(预估值)

≈ 500 千Tokens

50 Tokens/条 * 10000条