在Hadoop中,集群Master节点是负责管理整个集群的节点,包括任务的提交、监控和结束。当您想要在Hadoop集群上执行一个作业时,需要通过Master节点来提交这个作业。
前提条件
已在EMR on ECS创建集群,详情请参见创建集群。
确保本地服务器与集群主节点网络连通。您可以在创建集群时打开挂载公网开关,或者在集群创建好之后在ECS控制台上为主节点挂载公网,为主节点ECS实例分配固定公网IP或EIP,详情请参见弹性公网IP。
集群安全组已开放22端口。
操作步骤
使用SSH方式登录集群Master节点。详情请参见登录集群。
使用ssh连接到节点后,在命令行执行以下命令,提交并运行作业。本文以Spark 3.1.1版本为例,输入的命令示例如下。
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /opt/apps/SPARK3/spark-current/examples/jars/spark-examples_2.12-3.1.1.jar 10说明spark-examples_2.12-3.1.1.jar为您集群中对应的JAR包名称,您可以登录集群,在/opt/apps/SPARK3/spark-current/examples/jars路径下查看。查看作业运行记录。提交作业后,您可以通过YARN UI方式查看作业运行记录。以下为您简单说明。
开启8443端口,详情请参见管理安全组。
新增用户,详情请参见OpenLDAP 用户管理。
在使用Knox账号访问YARN UI页面时,需要Knox账号的用户名和密码。
在EMR on ECS页面,单击目标集群所在行的集群服务。
单击访问链接与端口页签。
单击YARN UI所在行的公网链接。
使用用户管理中的用户身份信息进行登录认证,即可进入YARN UI页面。
在All Applications页面,单击目标作业的ID,可以查看作业运行的详情。
