用户画像分析环境搭建 - 大数据开发治理平台 DataWorks

本教程以用户画像分析为例，演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的EMR集群、DataWorks工作空间，并做好相关的环境配置。

业务背景

为了更好地制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体的地理属性、社会属性等，实现定时定点进行画像分析，进而实现网站流量精细化运营操作。

为了顺利进行教程操作，请您务必阅读实验介绍，充分了解用户画像分析案例整体流程。

本教程需要您创建一个EMR集群，用于集成到DataWorks，使得您能够在DataWorks平台上执行基于EMR集群的数据处理任务。在创建EMR集群进行软件配置时，关键参数配置如下：

参数	取值
地域	华东2（上海）。
业务场景	数据湖。
产品版本	选择最新版本。
可选服务	根据实际需求选择组件，其中Hive组件、OSS-HDFS组件在本案例中必选。
元数据	DLF统一元数据。
集群存储根路径	选择OSS-HDFS实例。如果下拉列表为空，请单击创建OSS-HDFS实例。

创建EMR集群的详细操作，请参见创建集群。

说明

对于EMR集群的不同配置，DataWorks产品支持情况存在一定差异。如果您需要在DataWorks上进行EMR任务开发，建议您在创建EMR集群前先参考DataWorks on EMR集群配置最佳实践。

在DataWorks上开发前需要已开通DataWorks服务，详情请参见DataWorks准备工作。

如果在华东2（上海）区域已有工作空间，可以忽略该步骤，使用已有工作空间。

本教程在数据同步与调度时，需要使用DataWorks的Serverless资源组，因此您需要先购买Serverless资源组，并完成前期的准备工作。

购买Serverless资源组。
1. 登录DataWorks控制台，在顶部切换地域至华东2（上海），单击左侧导航栏的资源组，进入资源组列表页面。
2. 单击新建资源组，在资源组购买页面，选择地域和可用区为华东2（上海）、设置资源组名称，其他参数可根据界面提示进行配置，完成后根据界面提示完成付款。Serverless资源组的计费说明请参见Serverless资源组计费。
  说明
  如当前地域没有可用的VPC和交换机，请单击参数说明中对应的控制台链接前往创建。VPC和交换机的更多信息，请参见什么是专有网络。
将资源组绑定至DataWorks工作空间。
新购买的Serverless资源组需要绑定至工作空间，才能在后续操作中使用。
登录DataWorks控制台，在顶部切换地域至华东2（上海），找到购买的Serverless资源组，单击操作列的绑定工作空间，然后单击已创建的DataWorks工作空间后的绑定。

为资源组配置公网访问能力。

由于本教程使用的测试数据需要通过公网获取，资源组默认不具备公网访问能力，因此需要为资源组绑定的VPC配置公网NAT网关，添加EIP，使其与公开数据网络打通，从而获取数据。

单击创建公网NAT网关，配置相关参数。以下为本示例所需配置的关键参数，未说明参数保持默认即可。

参数	取值
所属地域	华东2（上海）。
所属专有网络	选择资源组绑定的VPC和交换机。您可以前往DataWorks管理控制台，切换地域后，在左侧导航栏单击资源组列表，找到已创建的资源组，然后单击操作列的网络设置，在数据调度 & 数据集成区域查看绑定专有网络和交换机。VPC和交换机的更多信息，请参见什么是专有网络。
关联交换机
访问模式	专有网络全通模式（SNAT）。
弹性公网IP实例	新购弹性公网IP。
关联角色创建	首次创建NAT网关时，需要创建服务关联角色，请单击创建关联角色。

更多新增和使用Serverless资源组的操作指导请参见新增和使用Serverless资源组。

只有将集群注册至DataWorks，才可以在DataWorks上使用EMR集群。

进入EMR集群注册页面。
1. 进入管理中心页面。
  登录DataWorks控制台，切换地域至华东2（上海）后，单击左侧导航栏的更多 > 管理中心，在下拉框中选择对应工作空间后单击进入管理中心。
2. 单击左侧导航栏的集群管理，进入集群管理页面，单击注册集群按钮，选择注册集群类型为E-MapReduce。进入注册E-MapReduce集群页面。
注册EMR集群。
在注册E-MapReduce集群页面配置集群信息，关键参数配置信息如下。
参数
取值
集群所属云账号
当前阿里云主账号。
集群类型
数据湖（DataLake）。
默认访问身份
集群账号：hadoop。
传递proxy user信息
传递。
资源组初始化。
1. 在集群管理页面，找到已注册的EMR集群，单击右上角的资源组初始化。
2. 在需要初始化的资源组后面单击初始化。
3. 完成后单击确认。
重要
初始化资源组时，请务必确保初始化成功，否则可能导致任务运行失败。如果初始化失败，请根据界面提示查看失败原因并进行连通性诊断。

注册EMR集群的详细操作，请参见注册EMR集群至DataWorks。

现在，您已经完成了环境的准备，您可以继续下一个教程。在下一个教程中，您将学习将用户基本信息数据、用户网站访问日志数据同步至OSS，然后通过EMR Hive节点建表查询同步后的数据。详情请参见同步数据。