與自建Hadoop叢集相比,開源巨量資料開發平台EMR提供彈性資源管理和自動化營運,降低營運複雜度,通過使用者管理、資料加密和許可權管理等為資料安全保駕護航,同時EMR整合了豐富的開源組件並打通開源生態與阿里雲生態,便於快速搭建巨量資料處理和分析情境。
對比項 | 阿里雲EMR | 自建Hadoop叢集 |
成本與效率 | 分鐘級部署叢集,敏捷響應業務需求。支援按量和訂用帳戶付費方式。 | 需提前預估資源,採購伺服器,部署Hadoop生態組件,周期長達數周。 |
叢集資源支援靈活調整,資料階層式存放區,資源使用率高。 | 資源相對固定,資源使用率低。 | |
無額外軟體License費用。 | 採用Hadoop發行版,需額外支付License費用。 | |
開箱即用能力 | 按叢集規格調優預設參數,對核心組件進行特性級效能最佳化,較開源版本效能大幅提升。 | 採用開源社區版本,效能需自行最佳化,開發難度較大。 |
經歷大規模、企業級環境的檢驗,基於開源組件持續加固,定期修複bug。 | 需自行更新和升級開源版本。 | |
經過專業的各組件相容性驗證測試,提供優於社區版本的使用體驗。 | 需要驗證各組件版本相容性,自行修複社區bug。 | |
營運與監控 | 叢集計算資源可根據時間或負載自動平滑地擴縮容,分鐘級擴充海量算力。具體可參見Auto Scaling。 | 無法根據業務負載波峰波穀,進行叢集資源的彈性擴縮容。 |
監控和診斷需依賴專業營運人員,問題處理效率低。 | ||
安全與生態 | 支援企業級多租戶資源管理。支援對錶、列、行層級的許可權控制和日誌審計。支援資料加密。 | 多租戶管理能力需自行配置,能力不完善,無法滿足企業級需求。 |
打通開源生態和阿里雲生態,支援對接DataWorks、資料湖構建(Data Lake Formation)、CloudMonitor等雲產品。 | 叢集配套能力需基於社區開源生態自行構建,成本高、周期長。 | |
服務支援 | 專業和資深巨量資料專家技術服務團隊提供售後支援,具體見支援人員的範圍和方式。 | 無官方服務支援,問題解決依賴自建團隊,維護難度大。 |