本教程以用户画像分析为例,通过使用DataWorks完成数据同步、数据加工、质量监控的全流程操作。为保证您可以顺利完成本教程,您需要准备教程所需的EMR集群、DataWorks工作空间,并做好相关的环境配置。
前提条件
步骤一:创建OSS Bucket
本教程需要您创建一个OSS Bucket,后续会将用户信息和网站访问日志信息同步到OSS Bucket中,用于数据建模和数据分析。
步骤二:创建EMR集群
本教程需要您创建一个EMR集群,用于集成到DataWorks,使得您能够在DataWorks平台上执行基于EMR集群的数据处理任务。
具体操作,请参见创建集群。在创建EMR集群进行软件配置时,关键参数配置如下:
地域:选择华东2(上海)。
业务场景:选择新版数据湖。
产品版本:选择最新版本。
可选服务:根据实际需求选择组件,其中Hive组件在本案例中必选。
元数据:选择DLF统一元数据。
集群存储根路径:选择步骤一中创建的已开通HDFS服务的OSS Bucket。
对于EMR集群的不同配置,DataWorks产品支持情况存在一定差异。如果您需要在DataWorks上进行EMR任务开发,建议您在创建EMR集群前先参考DataWorks on EMR集群配置最佳实践。
步骤三:创建DataWorks工作空间
在DataWorks工作空间里进行任务开发前您需要先创建一个DataWorks工作空间。
因本示例提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况。为了简化您的操作流程,建议您在生产、环境是否隔离这一参数处选择否。
登录DataWorks控制台。
单击左侧导航栏中的工作空间列表。
将页面顶部导航栏的地域列表切换为华东2(上海)地域。
单击创建工作空间,输入工作空间名称。具体操作,请参见创建工作空间。
步骤四:配置DataWorks on EMR开发环境
在DataWorks上运行EMR作业前,您需要配置如下开发环境:
购买并配置Serverless资源组。
Serverless资源组是一种专门的计算资源,用于保障任务能够按时被调度执行。购买一个Serverless资源组,并与当前EMR集群所在的VPC网络连通,详情请参见新增和使用Serverless资源组。
(可选)添加工作空间成员并授权。
只有工作空间成员才可以在DataStudio内运行EMR任务。您可以将其他RAM用户添加为工作空间成员,详情请参见空间级模块权限管控。
说明阿里云主账号和创建工作空间的RAM用户自动成为工作空间的成员,且角色为空间管理员。
注册EMR集群至DataWorks并初始化资源组。
只有将集群注册至DataWorks,才可以在DataWorks上使用EMR集群。详情请参见注册EMR集群至DataWorks。
重要初始化资源组时,请务必确保初始化成功,否则可能导致任务运行失败。如果初始化失败,请根据界面提示查看失败原因并进行连通性诊断。
关键参数配置如下:
集群所属云账号:选择当前阿里云主账号。
集群类型:选择数据湖(DataLake)。
默认访问身份:选择集群账号:hadoop。