全部產品
Search
文件中心

E-MapReduce:選擇地區和儲存

更新時間:May 10, 2025

在阿里雲EMR中,地區與儲存直接影響叢集的效能和成本。合理選擇地區可降低網路延遲、滿足資料本地化合規要求,並最佳化資源成本。科學的儲存配置(如HDFS、OSS-HDFS/OSS)則能提升資料讀寫效率、降低儲存成本,同時保障資料可靠性。本文將從地區選擇和儲存規劃兩個核心維度出發,提供策略與關鍵考量,協助您快速選型。

地區選擇策略

地區選擇需綜合以下四大核心因素,確保業務與資源的最優匹配。

核心因素

說明

資料本地化(優先考慮)

  • 推薦方案:叢集地區與資料存放區位置一致(如與OSS、RDS等資料來源所在地區一致)。

  • 原因如下:

    • 降低網路成本:跨地區傳輸會產生額外費用。

    • 減少延遲:本地化部署可提升資料讀寫效率。

EMR服務覆蓋

  • 服務可用性:通過EMR控制台確認目標地區是否支援EMR服務。

  • 組件支援:確定目標地區是否支援所需的關聯雲產品。比如有些地區不支援OSS-HDFS、DLF。

  • ECS執行個體規格支援:確定目標地區ECS執行個體規格是否支援。比如本地SSD機型僅在部分地區提供。

ECS執行個體價格差異

不同地區的ECS執行個體定價存在差異,詳情請參見ECS價格計算機

應用拓撲最佳化

  • 混合雲情境:選擇與本地IDC專線存取點最近的地區,降低網路時延。

  • 多服務協同:確保EMR與VPC、SLB、資料庫等服務同地區部署,減少跨地區調用開銷。

EMR支援地區:

  • 亞太地區 - 中國

    華東1(杭州)、華東2(上海)、華北1(青島)、華北2(北京)、華北3(張家口)、華北5(呼和浩特)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、中國香港

  • 亞太地區 - 其他

    日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)

  • 歐洲與美國

    德國(法蘭克福)、英國(倫敦)、美國(矽谷)、美國(維吉尼亞)

  • 中東

    阿聯酋(杜拜)

儲存規劃

儲存架構選型

EMR支援存算分離(OSS-HDFS/OSS)和存算一體(HDFS)兩種架構,需根據資料需求與成本選擇。

對比維度

存算分離(OSS-HDFS/OSS)

存算一體(HDFS)

技術特點

  • 計算與儲存資源獨立擴充,資料持久化儲存在OSS-HDFS/OSS中。

  • 完全相容HDFS介面,便於無縫遷移和使用。

計算與儲存耦合,資料存放區在叢集內部的HDFS中。

適用情境

  • 資料湖架構

  • 冷資料分析

低延遲讀寫情境

資料可靠性

  • OSS支援本地備援儲存體和同城冗餘儲存,提供了跨可用性區域的高可靠性保障。

  • 由雲端儲存底層保障,資料丟失風險極低。

  • 依賴副本機制(本地碟預設3副本,雲端硬碟預設2副本),局限於叢集內部,缺乏跨地區容災能力。

  • 存在一定的資料丟失風險,如硬體故障等。

資料持久性

  • 提供99.9999999999%(12個9)的資料持久性。

  • 叢集釋放後仍長期保留。

資料隨叢集釋放而刪除。

擴充靈活性

計算資源與儲存解耦,獨立擴充計算節點。

計算資源與儲存耦合,需同步擴縮容。

  • 縮容,需逐台下線,周期長。

  • 擴容,需進行重平衡,消耗資源與時間。

儲存成本(樣本)

0.0170美元/GB/月(標準OSS儲存)

說明

0.051美元/GiB/月

說明

營運複雜度

  • 計算節點無狀態,故障可快速替換。

  • 儲存容量無限擴充,無需因資料增長手動調整叢集規模。

  • DataNode故障時需手動執行資料重平衡。

  • 擴容和縮容時需人工調整叢集規模。

訪問方式

oss://bucket-name.endpoint/path/to/data

詳情請參見OSS/OSS-HDFS快速入門

  • 訪問HA叢集的HDFS:hdfs://namespace/path

  • 訪問非HA叢集的HDFS:hdfs://namenode-host:port/path

儲存配置選型

在EMR中,執行個體節點上有系統硬碟和資料盤兩種角色的磁碟。

磁碟角色

描述

支援的磁碟類型

系統硬碟

系統硬碟用於安裝作業系統,不儲存業務資料。

雲端硬碟

資料盤

資料盤用於儲存資料、本地化日誌、任務的Shuffle等,其容量需根據儲存架構(存算一體/存算分離)差異化評估,詳情請參見儲存容量評估

說明

儲存容量相同時,多盤配置比單盤更能提升組件可用性。部分組件在多盤環境下具備容錯能力,即使個別磁碟故障,也不會影響整體功能。

磁碟類型

EMR叢集支援使用以下兩種類型的磁碟來儲存資料。

雲端硬碟

雲端硬碟是阿里雲為Elastic Compute Service提供的資料區塊層級的Block Storage產品,採用分布式三副本機制,為ECS執行個體提供99.9999999%的資料可靠性保證。

按雲端硬碟效能不同,分為SSD雲端硬碟、高效雲端硬碟和ESSD雲端硬碟。

雲端硬碟類型

特點

應用情境

ESSD雲端硬碟

  • 高IOPS和輸送量

  • 毫秒級延遲(0.2ms)

  • 高可靠性

  • 支援多效能等級(PL0-PL3)

    說明

    選擇ESSD雲端硬碟的效能等級,請參見ESSD雲端硬碟

時延敏感的應用或者I/O密集型業務情境:

  • 大型OLTP資料庫

  • NoSQL資料庫

  • Elasticsearch分布式日誌

SSD雲端硬碟

  • 較高IOPS和輸送量

  • 毫秒級延遲(0.5~2ms)

  • 高可靠性

  • I/O密集型應用

  • 中小型關聯式資料庫和NoSQL資料庫

高效雲端硬碟

  • 中等IOPS和輸送量

  • 毫秒級延遲(1~3ms)

  • 高可靠性

  • 開發與測試業務

  • 作為系統硬碟

說明

更多雲端硬碟與本地碟效能資訊,請參見Block Storage效能

本地碟

本地碟是ECS執行個體所在物理機上的本地硬碟裝置,為ECS執行個體提供本機存放區訪問能力。本地碟適用於對儲存I/O效能、海量儲存性價比有極高要求的業務情境。

使用情境

在EMR控制台的節點群組配置中,當附錄:ECS執行個體類型選擇巨量資料型本地SSD時,其資料盤為物理直連的本地碟,直接掛載於伺服器,提供極低延遲與高吞吐效能。

說明
  • 本地碟僅適用於核心節點(Core)或任務節點(Task)。

  • 本地碟有遺失資料的風險,作為巨量資料儲存需要考慮備份策略。

儲存容量評估

在儲存架構(存算一體/存算分離)選型完成後,您需根據業務資料規模與增長趨勢,評估儲存容量需求,確保磁碟配置滿足業務訴求。

資料類型

說明

計算規則

未經處理資料

業務直接產生的初始資料(如日誌)。

儲存空間 = 未經處理資料量

中間資料

處理過程中產生的臨時資料(如ETL中間結果)。

儲存空間 = 未經處理資料量 × 1.5(根據業務複雜度調整)

結果資料

最終需儲存的輸出資料。

儲存空間 = 未經處理資料量 × 10%~50%(根據業務需求調整)

資料增長:規劃時需考慮至少6個月的資料增長需求。

  • 存算一體(HDFS)

    資料盤容量需綜合考慮未經處理資料、中間資料、結果資料及副本冗餘(預設3副本)。

  • 存算分離(OSS-HDFS/OSS)

    通過Object Storage Service實現業務資料持久化儲存,資料盤僅用於臨時計算緩衝、本地化日誌及任務的Shuffle資料,不保留業務資料。