EMR Serverless Spark 工作空间费用由计算资源和模型调用两部分构成,支持按量付费、包年包月等多种计费方式。了解各计费项的计费逻辑与用量预估方法,有助于合理规划成本。
计费组成
EMR Serverless Spark 工作空间费用组成及支持的计费方式如下:
计费方式
EMR Serverless Spark 支持以下计费方式:
计费方式 | 描述 |
先使用后付费。系统根据工作空间实际的资源使用量结算,每小时整点计算一次(UTC+8)。适用于业务用量经常变化的场景。 | |
先付费后使用。购买时根据时长预先支付费用,系统根据购买时长计算计费周期的价格。适用于业务资源用量固定、长期稳定且预算规划明确的场景。 | |
在包年包月模式的基础上配置弹性计算资源,结合按量付费的灵活性与包年包月的成本效益。 | |
预先购买优惠资源包,结算时优先从资源包抵扣用量,超出部分按量付费。适用于业务用量相对稳定的场景。 | |
根据工作空间实际的 AI 中心内置模型 Token 用量进行结算。 |
计费项说明
计算资源
计算资源根据包年包月预购的资源量或按量付费实际使用量收费,计量单位是 CU。
1 CU = 1 核 CPU + 4 GiB 内存,是 EMR Serverless Spark 工作空间计算能力的基本单位。计算任务的 CU 使用量取决于实际处理的数据量、计算复杂程度、数据分布情况,以及是否开启Fusion引擎。开启 Fusion 引擎加速后,不会增加额外资源成本,作业执行时间通常可缩短 30% 以上。
如果 CPU 核数与内存的比例不足 1:4,请参见EMR Serverless Spark CU优惠活动进行折算。
1 CU 的处理能力如下表所示。
处理场景 | 处理能力(Java Runtime) | 处理能力(Fusion 引擎) |
简单的数据处理。例如,过滤、清洗等操作。 | 1 CU 每秒可以处理约 2,000,000 条数据。 | 1 CU 每秒可以处理约 5,000,000 条数据。 |
复杂的数据处理。例如,聚合、连接、String 操作等。 | 1 CU 每秒可以处理约 700,000 条数据。 | 1 CU 每秒可以处理约 2,000,000 条数据。 |
模型调用
模型调用根据 AI 中心内置模型服务的实际调用量计费,计量单位为千 Tokens。
Token 用量换算参考:平均 1 个汉字约对应 1.5-2 个 Token;1 个英文字母约对应 0.25 个 Token;1 个英文单词约对应 1.3 个 Token:
阿里云百炼:约 4-5 个 TokenHello World:约 2 个 Token
以数据脱敏场景为例,对 1000 条文本批量处理,SQL 示例如下:
select
ai_query (
concat(
'对下面文本进行信息脱敏处理,规则如下:
1. 中文姓名:识别所有中文姓名(2-4 个字)。保留第一个字和最后一个字,中间的字替换为 `*`。
2. 手机号码:识别中国大陆手机号(11 位数字,以 1 开头)。保留前 3 位和后 4 位,中间 4 位替换为 `****`。
3. 详细地址:识别包含省、市、区、街道、门牌号等具体的物理地址信息。保留省、市、区(县)三级行政区划信息,将区/县之后的所有详细街道、门牌、小区名等信息替换为 `***`。
输出要求:
仅输出以下三行格式,不要包含任何解释、原文或其他文字:
姓名:[结果]
手机号:[结果]
地址:[结果]',
user_info
)
)AS masked_text
from
user_tbl
;user_info 数据示例:”李四先生位于上海市浦东新区张江高科技园区某某路 xxx 号,手机 159********。”
处理单条数据预估用量如下:
Token用量(预估值) | |
user_info 输入数据 | ≈ 60 |
prompt | ≈ 200 |
输出数据 | ≈ 50 |
处理 10000 条数据预估用量如下:
预估用量 | 计算公式 | |
输入Token(预估值) | ≈ 2600 千Tokens | (60+200)Tokens/条 * 10000条 |
输出Token(预估值) | ≈ 500 千Tokens | 50 Tokens/条 * 10000条 |