E-MapReduce叢集由多個不同類型的執行個體節點群組成,包括主執行個體節點(Master)、核心執行個體節點(Core)和計算執行個體節點(Task)。
不同執行個體節點上部署的服務進程不同,負責完成的任務也不同。例如:
- 主執行個體節點(Master):部署Hadoop HDFS的NameNode服務、Hadoop YARN的ResourceManager服務。
- 核心執行個體節點(Core):部署DataNode服務、Hadoop YARN的NodeManager服務。
- 計算執行個體節點(Task):只進行計算,部署Hadoop YARN的NodeManager服務,不部署任何HDFS相關的服務。
建立叢集時,您需要確定對應的三種執行個體類型的ECS規格,相同執行個體類型的ECS在同一個執行個體組內。建立叢集完成後,您可以通過擴容來增加執行個體組內的機器數量(主執行個體組除外)。
說明 EMR-3.2.0及後續版本支援計算執行個體節點(Task)。
主執行個體節點(Master)
主執行個體節點是叢集服務部署管控等組件的節點,例如,Hadoop YARN的 ResourceManager。
當您需要查看叢集上服務的運行情況時,您可以通過軟體的Web UI來查看。當您需要快速測試或者運行作業時,您可以登入主執行個體節點,然後通過命令列直接提交作業。登入主節點的具體步驟請參見登入叢集。
核心執行個體節點(Core)
核心執行個體節點是被主執行個體節點管理的節點。核心執行個體節點上會運行Hadoop HDFS的Datanode服務,並儲存所有的資料。同時,核心執行個體節點也會部署計算服務來執行計算任務。例如,Hadoop YARN的NodeManager服務。
為滿足儲存資料量或計算量擴充的需求,核心執行個體節點支援隨時擴容,並且擴容過程中不會影響當前叢集的正常運行。核心執行個體節點可以使用多種不同的儲存介質來儲存資料,詳情請參見本地碟和Block Storage。
計算執行個體節點(Task)
計算執行個體節點是專門負責計算的執行個體節點,不會儲存HDFS資料,也不會運行Hadoop HDFS的Datanode服務,是一個可選的執行個體類型。如果核心執行個體的計算能力充足,則可以不使用計算執行個體。當叢集計算能力不足時,您可以隨時通過計算執行個體節點快速給叢集增加額外的計算能力,例如Hadoop的MapReduce任務和Spark Executors等。
計算執行個體節點可以隨時新增和減少,並且不會影響現有叢集的運行。