本文介绍 E-MapReduce 集群数据容灾和服务容灾能力。

数据容灾

在 Hadoop 分布式文件系统(HDFS)中,每一个文件的数据均是分块存储的,每一个数据块保存有多个副本(默认为3),并且尽量保证这些数据块副本分布在不同的机架之上。一般情况下,HDFS 的副本系数是 3,存放策略是将一个副本存放在本地机架节点上,一个副本存放在同一个机架的另一个节点上,最后一个副本放在不同机架的节点上。

HDFS 会定期扫描数据副本,如果扫描到有数据副本丢失,则会快速复制这些数据以保证数据副本的数量。如果扫描到节点丢失,则节点上的所有数据也会快速复制恢复。在阿里云上,如果使用的是云盘技术,则每一个云盘在后台都会对应三个数据副本,当其中任一个出现问题时,副本数据都会自动进行切换并恢复,以保证数据的可靠性。

Hadoop HDFS 是一个经历了长时间考验且具有高可靠性的数据存储系统,已实现了海量数据的高可靠性存储。同时基于云上的特性,您也可以再在 OSS 等服务上额外备份数据,以达到更高的数据可靠性。

服务容灾

Hadoop 的核心组件都会进行 HA 部署,即有至少两个节点的服务互备,例如 YARN、HDFS、Hive Server 和 Hive Meta。在任何一时刻,任一服务节点故障时,当前的服务节点都会自动进行切换,以保证服务不受影响。