EMR Serverless Spark 工作空間費用由計算資源和模型調用兩部分構成,支援隨用隨付、訂用帳戶等多種計費方式。瞭解各計費項目的計費邏輯與用量預估方法,有助於合理規劃成本。
計費組成
EMR Serverless Spark 工作空間費用組成及支援的計費方式如下:
計費方式
EMR Serverless Spark 支援以下計費方式:
計費方式 | 描述 |
先使用後付費。系統根據工作空間實際的資源使用量結算,每小時整點計算一次(UTC+8)。適用於業務用量經常變化的情境。 | |
先付費後使用。購買時根據時間長度預先支付費用,系統根據購買時間長度計算計費周期的價格。適用於業務資源用量固定、長期穩定且預算規劃明確的情境。 | |
在訂用帳戶模式的基礎上配置彈性計算資源,結合隨用隨付的靈活性與訂用帳戶的成本效益。 | |
預先購買優惠資源套件,結算時優先從資源套件抵扣用量,超出部分隨用隨付。適用於業務用量相對穩定的情境。 | |
根據工作空間實際的 AI 中心內建模型 Token 用量進行結算。 |
計費項目說明
計算資源
計算資源根據訂用帳戶預購的資源量或隨用隨付實際使用量收費,計量單位是 CU。
1 CU = 1 核 CPU + 4 GiB 記憶體,是 EMR Serverless Spark 工作空間計算能力的基本單位。計算任務的 CU 使用量取決於實際處理的資料量、計算複雜程度、資料分布情況,以及是否開啟Fusion引擎。開啟 Fusion 引擎加速後,不會增加額外資源成本,作業執行時間通常可縮短 30% 以上。
如果 CPU 核心數與記憶體的比例不足 1:4,請參見EMR Serverless Spark CU優惠活動進行折算。
1 CU 的處理能力如下表所示。
處理情境 | 處理能力(Java Runtime) | 處理能力(Fusion 引擎) |
簡單的資料處理。例如,過濾、清洗等操作。 | 1 CU 每秒可以處理約 2,000,000 條資料。 | 1 CU 每秒可以處理約 5,000,000 條資料。 |
複雜的資料處理。例如,彙總、串連、String 操作等。 | 1 CU 每秒可以處理約 700,000 條資料。 | 1 CU 每秒可以處理約 2,000,000 條資料。 |
模型調用
模型調用根據 AI 中心內建模型服務的實際調用量計費,計量單位為千 Tokens。
Token 用量換算參考:平均 1 個漢字約對應 1.5-2 個 Token;1 個英文字母約對應 0.25 個 Token;1 個英文單詞約對應 1.3 個 Token:
阿里雲百鍊:約 4-5 個 TokenHello World:約 2 個 Token
以資料脫敏情境為例,對 1000 條文本批量處理,SQL 樣本如下:
select
ai_query (
concat(
'對下面文本進行資訊脫敏處理,規則如下:
1. 中文姓名:識別所有中文姓名(2-4 個字)。保留第一個字和最後一個字,中間的字替換為 `*`。
2. 手機號碼:識別中國大陸手機號(11 位元字,以 1 開頭)。保留前 3 位和後 4 位,中間 4 位替換為 `****`。
3. 詳細地址:識別包含省、市、區、街道、門牌號等具體的物理地址資訊。保留省、市、區(縣)三級行政區劃資訊,將區/縣之後的所有詳細街道、門牌、小區名等資訊替換為 `***`。
輸出要求:
僅輸出以下三行格式,不要包含任何解釋、原文或其他文字:
姓名:[結果]
手機號:[結果]
地址:[結果]',
user_info
)
)AS masked_text
from
user_tbl
;user_info 資料樣本:”李四先生位於上海市浦東新區張江高科技園區某某路 xxx 號,手機 159********。”
處理單條資料預估用量如下:
Token用量(預估值) | |
user_info 輸入資料 | ≈ 60 |
prompt | ≈ 200 |
輸出資料 | ≈ 50 |
處理 10000 條資料預估用量如下:
預估用量 | 計算公式 | |
輸入Token(預估值) | ≈ 2600 千Tokens | (60+200)Tokens/條 * 10000條 |
輸出Token(預估值) | ≈ 500 千Tokens | 50 Tokens/條 * 10000條 |