資料容災

Hadoop分散式檔案系統(HDFS)將每一個檔案的資料進行分區塊存放裝置,同時每一個資料區塊又儲存有多個副本(系統預設為每一個資料區塊存放3個副本),盡量保證這些資料區塊副本分布在不同的機架之上(在大多數情況下,副本係數是3,HDFS的存放策略是將一個副本存放在本地機架節點上,一個副本存放在同一個機架的另一個節點上,最後一個副本放在不同機架的節點上)。

HDFS會定期掃描資料副本,若探索資料副本發生丟失,則會快速的進行資料的複製以保證副本的數量。若發現節點丟失,則節點上的所有資料也會快速的進行複製恢複。在阿里雲上,如果是使用雲端硬碟的技術,則在後台每一個雲端硬碟都會對應三個資料副本,當其中的任何一個出現問題時,副本資料都會自動進行切換並恢複,以保證資料的可靠性。

Hadoop HDFS是一個經曆了長時間考驗且具有高可靠性的資料存放區系統,已經能夠實現海量資料的高可靠性儲存。同時雲端式上的特性,也可以在OSS等服務上進行資料的額外備份,來達到更高的資料可靠性。

服務容災

Hadoop的核心組件都會進行HA的部署,即有至少2個節點的服務互備,如YARN,HDFS,Hive Server,Hive Meta,以保證在任何時候,其中任何一個服務節點掛掉時,當前的服務節點都能自動的進行切換,保證服務不會受到影響。