EMR Serverless Spark 支持多种计费方式，包括按量付费、包年包月和资源抵扣包，费用由计算资源和模型调用组成，适合不同业务场景的灵活成本规划。 - 开源大数据平台E-MapReduce

EMR Serverless Spark 工作空间费用由计算资源和模型调用两部分构成，支持按量付费、包年包月等多种计费方式。了解各计费项的计费逻辑与用量预估方法，有助于合理规划成本。

计费组成

EMR Serverless Spark 工作空间费用组成及支持的计费方式如下：

计费方式

EMR Serverless Spark 支持以下计费方式：

计费方式	描述
计算资源（按量付费）	先使用后付费。系统根据工作空间实际的资源使用量结算，每小时整点计算一次（UTC+8）。适用于业务用量经常变化的场景。
计算资源（包年包月）	先付费后使用。购买时根据时长预先支付费用，系统根据购买时长计算计费周期的价格。适用于业务资源用量固定、长期稳定且预算规划明确的场景。
计算资源（混合计费）	在包年包月模式的基础上配置弹性计算资源，结合按量付费的灵活性与包年包月的成本效益。
计算资源（资源抵扣包）	预先购买优惠资源包，结算时优先从资源包抵扣用量，超出部分按量付费。适用于业务用量相对稳定的场景。
模型调用（按量付费）	根据工作空间实际的 AI 中心内置模型 Token 用量进行结算。

计费项说明

计算资源

计算资源根据包年包月预购的资源量或按量付费实际使用量收费，计量单位是 CU。

1 CU = 1 核 CPU + 4 GiB 内存，是 EMR Serverless Spark 工作空间计算能力的基本单位。计算任务的 CU 使用量取决于实际处理的数据量、计算复杂程度、数据分布情况，以及是否开启Fusion引擎。开启 Fusion 引擎加速后，不会增加额外资源成本，作业执行时间通常可缩短 30% 以上。

如果 CPU 核数与内存的比例不足 1:4，请参见EMR Serverless Spark CU优惠活动进行折算。

1 CU 的处理能力如下表所示。

处理场景	处理能力（Java Runtime）	处理能力（Fusion 引擎）
简单的数据处理。例如，过滤、清洗等操作。	1 CU 每秒可以处理约 2,000,000 条数据。	1 CU 每秒可以处理约 5,000,000 条数据。
复杂的数据处理。例如，聚合、连接、String 操作等。	1 CU 每秒可以处理约 700,000 条数据。	1 CU 每秒可以处理约 2,000,000 条数据。

模型调用

模型调用根据 AI 中心内置模型服务的实际调用量计费，计量单位为千 Tokens。

Token 用量换算参考：平均 1 个汉字约对应 1.5-2 个 Token；1 个英文字母约对应 0.25 个 Token；1 个英文单词约对应 1.3 个 Token：

阿里云百炼：约 4-5 个 Token
Hello World：约 2 个 Token

以数据脱敏场景为例，对 1000 条文本批量处理，SQL 示例如下：

select
  ai_query (
    concat(
      '对下面文本进行信息脱敏处理，规则如下：
      1. 中文姓名：识别所有中文姓名（2-4 个字）。保留第一个字和最后一个字，中间的字替换为 `*`。
      2. 手机号码：识别中国大陆手机号（11 位数字，以 1 开头）。保留前 3 位和后 4 位，中间 4 位替换为 `****`。
      3. 详细地址：识别包含省、市、区、街道、门牌号等具体的物理地址信息。保留省、市、区（县）三级行政区划信息，将区/县之后的所有详细街道、门牌、小区名等信息替换为 `***`。
      输出要求：
      仅输出以下三行格式，不要包含任何解释、原文或其他文字：
      姓名：[结果]
      手机号：[结果]
      地址：[结果]',
      user_info
    )
  )AS masked_text
from
  user_tbl
;

user_info 数据示例：”李四先生位于上海市浦东新区张江高科技园区某某路 xxx 号，手机 159********。”

处理单条数据预估用量如下：

	Token用量（预估值）
user_info 输入数据	≈ 60
prompt	≈ 200
输出数据	≈ 50

处理 10000 条数据预估用量如下：

	预估用量	计算公式
输入Token（预估值）	≈ 2600 千Tokens	（60+200）Tokens/条 * 10000条
输出Token（预估值）	≈ 500 千Tokens	50 Tokens/条 * 10000条