產品計費方式介紹與選擇指南-開源巨量資料平台 E-MapReduce-阿里雲

EMR Serverless Spark 工作空間費用由計算資源和模型調用兩部分構成，支援隨用隨付、訂用帳戶等多種計費方式。瞭解各計費項目的計費邏輯與用量預估方法，有助於合理規劃成本。

計費組成

EMR Serverless Spark 工作空間費用組成及支援的計費方式如下：

計費方式

EMR Serverless Spark 支援以下計費方式：

計費方式	描述
計算資源（隨用隨付）	先使用後付費。系統根據工作空間實際的資源使用量結算，每小時整點計算一次（UTC+8）。適用於業務用量經常變化的情境。
計算資源（訂用帳戶）	先付費後使用。購買時根據時間長度預先支付費用，系統根據購買時間長度計算計費周期的價格。適用於業務資源用量固定、長期穩定且預算規劃明確的情境。
計算資源（混合計費）	在訂用帳戶模式的基礎上配置彈性計算資源，結合隨用隨付的靈活性與訂用帳戶的成本效益。
計算資源（資源抵扣包）	預先購買優惠資源套件，結算時優先從資源套件抵扣用量，超出部分隨用隨付。適用於業務用量相對穩定的情境。
模型調用（隨用隨付）	根據工作空間實際的 AI 中心內建模型 Token 用量進行結算。

計費項目說明

計算資源

計算資源根據訂用帳戶預購的資源量或隨用隨付實際使用量收費，計量單位是 CU。

1 CU = 1 核 CPU + 4 GiB 記憶體，是 EMR Serverless Spark 工作空間計算能力的基本單位。計算任務的 CU 使用量取決於實際處理的資料量、計算複雜程度、資料分布情況，以及是否開啟Fusion引擎。開啟 Fusion 引擎加速後，不會增加額外資源成本，作業執行時間通常可縮短 30% 以上。

如果 CPU 核心數與記憶體的比例不足 1:4，請參見EMR Serverless Spark CU優惠活動進行折算。

1 CU 的處理能力如下表所示。

處理情境	處理能力（Java Runtime）	處理能力（Fusion 引擎）
簡單的資料處理。例如，過濾、清洗等操作。	1 CU 每秒可以處理約 2,000,000 條資料。	1 CU 每秒可以處理約 5,000,000 條資料。
複雜的資料處理。例如，彙總、串連、String 操作等。	1 CU 每秒可以處理約 700,000 條資料。	1 CU 每秒可以處理約 2,000,000 條資料。

模型調用

模型調用根據 AI 中心內建模型服務的實際調用量計費，計量單位為千 Tokens。

Token 用量換算參考：平均 1 個漢字約對應 1.5-2 個 Token；1 個英文字母約對應 0.25 個 Token；1 個英文單詞約對應 1.3 個 Token：

阿里雲百鍊：約 4-5 個 Token
Hello World：約 2 個 Token

以資料脫敏情境為例，對 1000 條文本批量處理，SQL 樣本如下：

select
  ai_query (
    concat(
      '對下面文本進行資訊脫敏處理，規則如下：
      1. 中文姓名：識別所有中文姓名（2-4 個字）。保留第一個字和最後一個字，中間的字替換為 `*`。
      2. 手機號碼：識別中國大陸手機號（11 位元字，以 1 開頭）。保留前 3 位和後 4 位，中間 4 位替換為 `****`。
      3. 詳細地址：識別包含省、市、區、街道、門牌號等具體的物理地址資訊。保留省、市、區（縣）三級行政區劃資訊，將區/縣之後的所有詳細街道、門牌、小區名等資訊替換為 `***`。
      輸出要求：
      僅輸出以下三行格式，不要包含任何解釋、原文或其他文字：
      姓名：[結果]
      手機號：[結果]
      地址：[結果]',
      user_info
    )
  )AS masked_text
from
  user_tbl
;

user_info 資料樣本：”李四先生位於上海市浦東新區張江高科技園區某某路 xxx 號，手機 159********。”

處理單條資料預估用量如下：

	Token用量（預估值）
user_info 輸入資料	≈ 60
prompt	≈ 200
輸出資料	≈ 50

處理 10000 條資料預估用量如下：

	預估用量	計算公式
輸入Token（預估值）	≈ 2600 千Tokens	（60+200）Tokens/條 * 10000條
輸出Token（預估值）	≈ 500 千Tokens	50 Tokens/條 * 10000條