在阿里雲EMR中,地區與儲存直接影響叢集的效能和成本。合理選擇地區可降低網路延遲、滿足資料本地化合規要求,並最佳化資源成本。科學的儲存配置(如HDFS、OSS-HDFS/OSS)則能提升資料讀寫效率、降低儲存成本,同時保障資料可靠性。本文將從地區選擇和儲存規劃兩個核心維度出發,提供策略與關鍵考量,協助您快速選型。
地區選擇策略
地區選擇需綜合以下四大核心因素,確保業務與資源的最優匹配。
核心因素 | 說明 |
資料本地化(優先考慮) |
|
EMR服務覆蓋 |
|
ECS執行個體價格差異 | 不同地區的ECS執行個體定價存在差異,詳情請參見ECS價格計算機。 |
應用拓撲最佳化 |
|
EMR支援地區:
亞太地區 - 中國
華東1(杭州)、華東2(上海)、華北1(青島)、華北2(北京)、華北3(張家口)、華北5(呼和浩特)、華北6(烏蘭察布)、華南1(深圳)、西南1(成都)、中國香港
亞太地區 - 其他
日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)
歐洲與美國
德國(法蘭克福)、英國(倫敦)、美國(矽谷)、美國(維吉尼亞)
中東
阿聯酋(杜拜)
儲存規劃
儲存架構選型
EMR支援存算分離(OSS-HDFS/OSS)和存算一體(HDFS)兩種架構,需根據資料需求與成本選擇。
對比維度 | 存算分離(OSS-HDFS/OSS) | 存算一體(HDFS) |
技術特點 |
| 計算與儲存耦合,資料存放區在叢集內部的HDFS中。 |
適用情境 |
| 低延遲讀寫情境 |
資料可靠性 |
|
|
資料持久性 |
| 資料隨叢集釋放而刪除。 |
擴充靈活性 | 計算資源與儲存解耦,獨立擴充計算節點。 | 計算資源與儲存耦合,需同步擴縮容。
|
儲存成本(樣本) | 0.0170美元/GB/月(標準OSS儲存) | 0.051美元/GiB/月 說明
|
營運複雜度 |
|
|
訪問方式 |
詳情請參見OSS/OSS-HDFS快速入門。 |
|
儲存配置選型
在EMR中,執行個體節點上有系統硬碟和資料盤兩種角色的磁碟。
磁碟角色 | 描述 | 支援的磁碟類型 |
系統硬碟 | 系統硬碟用於安裝作業系統,不儲存業務資料。 | |
資料盤 | 資料盤用於儲存資料、本地化日誌、任務的Shuffle等,其容量需根據儲存架構(存算一體/存算分離)差異化評估,詳情請參見儲存容量評估。 說明 儲存容量相同時,多盤配置比單盤更能提升組件可用性。部分組件在多盤環境下具備容錯能力,即使個別磁碟故障,也不會影響整體功能。 |
磁碟類型
EMR叢集支援使用以下兩種類型的磁碟來儲存資料。
雲端硬碟
雲端硬碟是阿里雲為Elastic Compute Service提供的資料區塊層級的Block Storage產品,採用分布式三副本機制,為ECS執行個體提供99.9999999%的資料可靠性保證。
按雲端硬碟效能不同,分為SSD雲端硬碟、高效雲端硬碟和ESSD雲端硬碟。
雲端硬碟類型 | 特點 | 應用情境 |
| 時延敏感的應用或者I/O密集型業務情境:
| |
SSD雲端硬碟 |
|
|
高效雲端硬碟 |
|
|
更多雲端硬碟與本地碟效能資訊,請參見Block Storage效能。
本地碟
本地碟是ECS執行個體所在物理機上的本地硬碟裝置,為ECS執行個體提供本機存放區訪問能力。本地碟適用於對儲存I/O效能、海量儲存性價比有極高要求的業務情境。
使用情境
在EMR控制台的節點群組配置中,當附錄:ECS執行個體類型選擇巨量資料型、本地SSD時,其資料盤為物理直連的本地碟,直接掛載於伺服器,提供極低延遲與高吞吐效能。
本地碟僅適用於核心節點(Core)或任務節點(Task)。
本地碟有遺失資料的風險,作為巨量資料儲存需要考慮備份策略。
儲存容量評估
在儲存架構(存算一體/存算分離)選型完成後,您需根據業務資料規模與增長趨勢,評估儲存容量需求,確保磁碟配置滿足業務訴求。
資料類型 | 說明 | 計算規則 |
未經處理資料 | 業務直接產生的初始資料(如日誌)。 | 儲存空間 = 未經處理資料量 |
中間資料 | 處理過程中產生的臨時資料(如ETL中間結果)。 | 儲存空間 = 未經處理資料量 × 1.5(根據業務複雜度調整) |
結果資料 | 最終需儲存的輸出資料。 | 儲存空間 = 未經處理資料量 × 10%~50%(根據業務需求調整) |
資料增長:規劃時需考慮至少6個月的資料增長需求。
存算一體(HDFS)
資料盤容量需綜合考慮未經處理資料、中間資料、結果資料及副本冗餘(預設3副本)。
存算分離(OSS-HDFS/OSS)
通過Object Storage Service實現業務資料持久化儲存,資料盤僅用於臨時計算緩衝、本地化日誌及任務的Shuffle資料,不保留業務資料。