创建集群 - 开源大数据平台E-MapReduce

通过阿里云E-MapReduce（简称EMR），您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置，帮助您快速搭建和管理大数据集群。

说明

如果您在2022年12月19日17点（UTC+8）以后第一次创建EMR集群，则不能选择Hadoop、Data Science、Presto、Zookeeper集群类型。

前提条件

已完成RAM授权，详情请参见阿里云账号角色授权。

注意事项

EMR-5.12.1及后续版本，EMR-3.46.1及后续版本的DataLake、DataFlow、DataServing和Custom集群，如果所选服务可以不依赖Core节点，则可以在节点组区域单击操作列的移除节点组。

操作步骤

登录E-MapReduce控制台。
在顶部菜单栏处，根据实际情况选择地域和资源组。
- 地域：创建的集群将会在对应的地域内，一旦创建不能修改。
- 资源组：默认显示账号全部资源。
单击上方的创建集群。
根据界面提示，配置集群信息。
创建集群时，您需要对集群进行软件配置、硬件配置、基础配置和确认订单。
说明
集群创建完成后，除了集群名称以外，其他配置均无法修改，所以在创建时请仔细确认各项配置。
当所有的信息确认正确后，单击确认订单。
重要
- 按量付费集群：立刻开始创建。集群创建完成后，集群的状态变为运行中。
- 包年包月集群：先生成订单，支付完成订单以后集群才会开始创建。

配置项说明

软件配置

配置项	描述
地域	地域指数据中心所在的地理区域，选择距离近的地域可以降低网络时延，实例创建完成后不支持更改地域。在地域下拉列表中选择EMR实例所在的物理位置。
业务场景	请您根据自身实际场景进行选择：数据湖（DataLake）：提供更灵活、可靠、高效的管理集群，更快的运行大数据计算引擎并提供出色的数据分析能力。支持构建数据湖架构，使用JindoFS进行数据湖加速。支持OSS-HDFS（全托管HDFS）作为存储，减少您的运维成本，完全基于使用量计费。更多信息，请参见数据湖集群。数据分析（OLAP）：将海量数据通过导入或者外表等形式引入到OLAP分析引擎里，例如，ClickHouse、StarRocks，提供高效、实时和灵活的数据分析能力，满足用户画像、人群圈选、BI报表和业务分析等一系列的业务场景。实时数据流（DataFlow）：是EMR平台上提供的实时计算一站式解决方案，拥有分布式、高吞吐量和高可扩展性的消息系统Kafka和基于Apache Flink官方产品Ververica提供的Flink商业内核两大组件，专注于解决实时计算端到端的各类问题，广泛应用于实时数据ETL和日志采集分析等场景，您也可以单独使用其中任一组件。数据服务（DataServing）：提供更灵活、可靠、高效的数据服务集群。提供半托管HBase集群，同时可以基于OSS-HDFS（JindoFS服务）解耦计算集群与数据存储。支持JindoData本地缓存以进一步提高数据服务集群的读写性能。更多信息，请参见数据服务集群。自定义集群（Custom）：自定义集群提供了丰富的服务搭配。您可以根据需求选择需要的服务。说明在生产环境中，建议避免将多个存储服务部署在同一个节点组上。
产品版本	EMR产品的发行版本，详细请参见发行版本。
服务高可用	默认关闭。开启高可用后，EMR会创建多个Master节点来支持ResourceManager和NameNode的高可用，并将他们分布在多个底层硬件上，以降低故障风险。
可选服务(至少一项)	根据您的实际需求选择其他的一些服务，被选中的服务会默认启动相关的服务进程。重要服务越多，对机器的配置要求也越高，所以在下面的步骤中您需要根据实际的服务数量进行机器选型，否则可能没有足够的资源运行这些服务。安装后的服务不支持卸载。版本不同，选择的服务不同，需要设置的参数也不同。
允许采集服务运行日志	支持一键开启或关闭所有服务的日志采集。默认开启，将收集您的服务运行日志，这些日志仅供集群诊断使用。集群创建后，您可以在基础信息页面，修改服务运行日志收集状态。重要关闭日志采集后，EMR的健康检查和技术支持将受到限制，但其他功能仍可正常使用。如何关闭及影响详情，请参见如何停止采集服务日志？。
元数据	支持以下方式存储和管理元数据： DLF 统一元数据（推荐）：表示元数据存储在数据湖构建DLF中。开通DLF后，系统会为您选择默认的DLF 数据目录，默认为UID。如果针对不同集群您期望使用不同的数据目录，则可以按照以下方式新建目录。单击创建数据目录，在弹出的对话框中输入目录ID，单击确定。在DLF 数据目录下拉列表中，选择您新建的数据目录。自建 RDS：选择您自有的或阿里云RDS实例作为元数据存储。选择该方式时，需要配置RDS相关的参数，详情请参见配置自建RDS。内置 MySQL（不推荐）：该方式的元数据存储在集群本地环境的MySQL数据库中。说明测试场景：推荐使用DLF 统一元数据。生产场景：可以使用DLF 统一元数据或自建 RDS。
集群存储根路径	当您在可选服务区域选择了OSS-HDFS服务时，需要配置该参数，如果选择的是HDFS服务，则无需配置该参数。重要在EMR控制台通过单击创建 OSS-HDFS 实例按钮创建的Bucket，仅支持通过EMR进行读写操作，不支持控制台及API操作。首次使用OSS-HDFS服务时，阿里云账号（主账号）需要单击此处，根据提示信息完成授权。RAM用户需要阿里云账号授权开通并授予AliyunEMRDlsFullAccess权限，以及AliyunOSSDlsDefaultRole和AliyunEMRDlsDefaultRole角色，详情请参见为RAM用户授权。选择一个已在同一地域下开通了OSS-HDFS服务的Bucket，或者单击创建 OSS-HDFS 实例，根据提示信息创建一个OSS-HDFS实例，作为集群的存储根路径。说明在选择使用OSS-HDFS服务之前，请确保您选择的地域支持该服务。否则，您可以尝试更换地域或使用HDFS服务替代OSS-HDFS服务。OSS-HDFS服务目前支持的地域信息，请参见开通并授权访问OSS-HDFS服务。 EMR-5.12.1及后续版本，EMR-3.46.1及后续版本的DataLake、DataFlow、DataServing和Custom集群，支持选择OSS-HDFS服务。

与服务及版本相关的配置项

以下配置项跟所选产品版本和服务有关。

仅EMR-5.12.0及之前版本，EMR-3.46.0及之前版本，且选择了Hive服务时，需配置以下参数。

参数

说明

Hive存储模式

使用数据湖存储OSS-HDFS或OSS作为数据仓库的存储目录。如果取消勾选，则使用集群HDFS作为存储目录。

默认勾选时，还需配置Hive数据仓库路径，建议选择开通了HDFS服务的Bucket。

说明

请确保具有访问OSS或OSS-HDFS Bucket的权限。

仅EMR-5.12.0及之前版本，EMR-3.46.0及之前版本，选择了HBase服务时，需配置以下参数。

参数

说明

HBase存储模式

用于存储HBase的数据文件，支持以下模式：OSS-HDFS和OSS。

选择OSS-HDFS模式时，还需配置HBase存储路径，建议选择开通了HDFS服务的Bucket。

仅EMR-5.12.1及后续版本，EMR-3.46.1及后续版本，选择了OSS-HDFS和HBase服务后，还需配置以下参数。集群创建完成后，会生成一个HBase-HDFS服务，详情请参见HBASE-HDFS。
参数
说明
HBase 日志存储
默认勾选，表示HBase将HLog文件存储在HDFS中。

（可选）高级设置

配置项	说明
Kerberos 身份认证	默认不开启。Kerberos是一种基于对称密钥技术的身份认证协议，可以为其他服务提供身份认证功能，详情请参见Kerberos。重要 Knox：不支持开启Kerberos身份认证。 Kudu：即使启用了Kerberos身份认证，Kudu服务仍需要额外的配置才能支持和启用Kerberos身份认证机制，详情请参见Apache Kudu的Authentication。
软件自定义配置	可指定JSON文件对集群中的基础软件（例如Hadoop、Spark和Hive等）进行配置，详细使用方法请参见配置自定义软件。默认不开启。说明针对Hive作业并发量的设置，请参见如何预估Hive作业并发量的上限值？。

硬件配置

配置项	说明
付费类型	默认为包年包月。当前支持的付费类型如下：按量付费：一种后付费模式，即先使用再付费。按量付费是根据实际使用的小时数来支付费用，每小时计费一次，适合短期的测试任务或是灵活的动态任务。包年包月：一种预付费模式，即先付费再使用。说明建议测试场景下使用按量付费，测试正常后再新建一个包年包月的生产集群正式使用。包年包月实例还需选择付费时长和是否开启自动续费。默认续费时长为6个月，且开启自动续费。开启自动续费后，实例到期前7天会执行自动续费操作，详情请参见续费说明。
可用区	可用区为在同一地域下的不同物理区域，可用区之间内网互通。通常使用默认的可用区即可。
专有网络	专有网络是您在阿里云自己定义的一个隔离网络环境，您可以完全掌控自己的专有网络。选择已有的专有网络，或者单击创建 VPC前往专有网络控制台即时创建专有网络，详情请参见创建和管理专有网络。说明创建集群后无法修改内网IP地址，因为集群的内网IP与VPC（Virtual Private Cloud）之间存在绑定关系。
交换机	交换机（vSwitch）是组成专有网络VPC的基础网络模块，用来连接不同的云资源。选择已有的交换机，或者单击创建交换机前往专有网络控制台即时创建交换机，详情请参见创建和管理交换机。
默认安全组	安全组是一种虚拟防火墙，用于控制安全组内实例的入流量和出流量。更多信息，请参见安全组概述。选择已有的安全组，或者单击新建安全组前往ECS控制台新建一个安全组，详情请参见创建安全组。重要禁止使用ECS上创建的企业安全组。
节点组	您可以根据需要选择实例规格，详情请参见实例规格族。 Master：主要负责ResourceManager和NameNode等控制进程的部署。 Core：主要负责集群所有数据的存储，创建集群完成后也支持按需进行扩容。 Task：不保存数据，调整集群的计算力使用。默认不开启，需要时可自定义配置。重要 Task节点组支持的付费类型有按量付费、抢占式实例和包年包月。加入部署集：开启高可用后，Master默认加入部署集。部署集是控制实例分布的策略，详情请参见部署集。系统盘：根据需要选择SSD云盘、ESSD云盘或者高效云盘。系统盘大小请根据需要调整。数据盘：根据需要选择SSD云盘、ESSD云盘或者高效云盘。数据盘大小请根据需要调整。说明当您选择ESSD云盘时，可以根据所选云盘的容量大小来设置不同的性能级别（PL级别），以满足不同的集群性能需求。默认的性能级别为PL1。根据云盘的容量范围，系统盘支持PL0、PL1和PL2三个性能级别的云盘规格，数据盘支持PL0、PL1、PL2和PL3四个性能级别的云盘规格。云盘的详细信息，请参见云盘概述。实例数量：Master节点组默认1台。如果开启高可用，可以有多台Master实例。 Core节点组默认2台，您可以根据需要调整。附加安全组：附加安全组可以灵活定制不同的外部资源或应用程序之间的访问。您最多可以为该节点组关联2个附加安全组。挂载公网：集群是否挂载弹性公网IP地址，默认不开启。仅DataLake集群支持节点组级别挂载公网。说明如果您未开启该功能，创建后您想使用公网IP地址访问，请在ECS上申请开通公网IP地址，详情请参见申请EIP。
集群伸缩	您可根据需要选择弹性伸缩规则：不使用弹性伸缩规则（默认）。自定义弹性伸缩规则：需要自定义弹性伸缩规则，可按时间或按负载实现自动弹性伸缩。详情请参见创建自定义弹性伸缩规则。托管弹性伸缩规则：当您启动集群时，EMR会按托管伸缩规则预调配Task节点数量。详情请参见创建托管弹性伸缩规则。说明仅当Task节点组的付费类型为按量付费或抢占式实例时，允许配置弹性伸缩规则。集群中如果存在Trino、Presto、Starrocks、Impala或Clickhouse组件，不支持切换到托管弹性伸缩规则。

基础配置

配置项

说明

集群名称

集群的名字，长度限制为1~64个字符，仅可使用中文、字母、数字、短划线（-）和下划线（_）。

身份凭证

身份凭证用于安全地登录集群的Master节点，登录操作请参见登录集群。支持以下身份：

密钥对（默认）：选择已有的密钥对，或者单击新建密钥对即时创建密钥对。
密钥对是一种安全便捷的登录认证方式，由公钥和私钥组成，仅支持Linux实例。关于密钥对的使用详情，请参见SSH密钥对。
密码：设置Master节点的登录密码，并输入确认密码。用户名默认为root。
- 密码规则：8~30个字符，且必须同时包含大写字母、小写字母、数字和特殊字符。
- 特殊字符包括：感叹号（!）、at（@）、井号（#）、美元符号（$）、百分号（%）、乘方（^）、and（&）和星号（*）。

（可选）高级设置

配置项	说明
ECS 应用角色	当用户的程序在EMR计算节点上运行时，可不填写阿里云AccessKey来访问相关的云服务（例如OSS），EMR会自动申请一个临时AccessKey来授权本次访问。ECS 应用角色用于控制该AccessKey的权限。
引导操作	在集群启动前执行的脚本，可以安装第三方软件或者修改集群运行环境，详情请参见引导操作执行脚本。
释放保护	您可以在创建按量付费集群时开启释放保护，也可以在集群创建后开启，以防止集群被意外释放。开启释放保护后，您将无法直接释放该集群。如需释放集群，需先关闭释放保护，详情请参见开启和关闭释放保护。
标签	您可以在创建集群时绑定标签，也可以在集群创建完成后添加标签，这可以方便您识别和管理拥有的集群资源，详情请参见设置标签。
资源组	资源组会对您拥有的云资源从用途、权限和归属等维度上进行分组，详情请参见使用资源组。
数据盘加密	仅支持在创建集群时开启该功能。打开该功能，数据盘上的动态数据传输以及静态数据都会被加密，详情请参见开启数据盘加密。
系统盘加密	仅支持在创建集群时开启该功能。打开该功能，系统盘上的操作系统、程序文件及其他系统相关数据将会被加密，详情请参见开启系统盘加密。
备注	用于记录集群的重要信息，创建集群后支持在基础信息页面对备注进行修改。如果在创建集群时未设置备注，用户可以在创建后对该参数进行编辑。

确认订单

（可选）保存为集群模板：如果身份认证选择的密钥对，则可以单击保存为集群模板，保存当前集群的配置信息为集群模板。

在保存为集群模板对话框中，输入集群模板名称，选择集群模板资源组。

参数

说明

集群模板名称

输入集群模板的名称，方便后期管理。长度限制为1-64个字符，只允许包含中文、字母、数字、-、_。

集群模板资源组

根据需要选择已有的资源组，方便对模板进行分组管理。

如果需要创建新的资源组，您可以单击下方的创建资源组，详情请参见创建资源组。

单击确定。
即会在管理集群模板面板中新增一个集群模板。集群模板的详细信息，请参见创建集群模板。

常见问题

创建集群时报错的错误码为“EntityNotExist.Role”，要怎么处理？

问题原因：当前账号不具备创建集群所需要的权限。
解决方案：
根据当前账号是阿里云账号还是RAM用户选择对应的解决方案。
- 阿里云账号：在创建集群时，当前账号需要具备访问其他阿里云资源及执行相关操作的权限。您可以单击云资源访问授权为当前账号授权，授权成功后可创建集群。关于角色授权，可参见阿里云账号角色授权。
- RAM用户：当前账号不具备创建EMR集群的权限，推荐通过阿里云账号为RAM用户授予权限策略AliyunEMRFullAccess，具体请参见为RAM用户授权。

开源大数据平台E-MapReduce：创建集群