在Hadoop中,叢集Master節點是負責管理整個叢集的節點,包括任務的提交、監控和結束。當您想要在Hadoop叢集上執行一個作業時,需要通過Master節點來提交這個作業。
前提條件
已在EMR on ECS建立叢集,詳情請參見建立叢集。
確保本機伺服器與叢集主節點網路連通。您可以在建立叢集時開啟掛載公網開關,或者在叢集建立好之後在ECS控制台上為主節點掛載公網,為主節點ECS執行個體分配固定公網IP或EIP,詳情請參見Elastic IP Address。
叢集安全性群組已開放22連接埠。
操作步驟
使用SSH方式登入叢集Master節點。詳情請參見登入叢集。
使用ssh串連到節點後,在命令列執行以下命令,提交並運行作業。本文以Spark 3.1.1版本為例,輸入的命令樣本如下。
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /opt/apps/SPARK3/spark-current/examples/jars/spark-examples_2.12-3.1.1.jar 10說明spark-examples_2.12-3.1.1.jar為您叢集中對應的JAR包名稱,您可以登入叢集,在/opt/apps/SPARK3/spark-current/examples/jars路徑下查看。查看作業運行記錄。提交作業後,您可以通過YARN UI方式查看作業運行記錄。以下為您簡單說明。
開啟8443連接埠,詳情請參見管理安全性群組。
新增使用者,詳情請參見OpenLDAP 使用者管理。
在使用Knox帳號訪問YARN UI頁面時,需要Knox帳號的使用者名稱和密碼。
在EMR on ECS頁面,單擊目的地組群所在行的叢集服務。
單擊訪問連結與連接埠頁簽。
單擊YARN UI所在行的公網連結。
使用使用者管理中的使用者身份資訊進行登入認證,即可進入YARN UI頁面。
在All Applications頁面,單擊目標作業的ID,可以查看作業啟動並執行詳情。
