全部产品
Search
文档中心

大数据开发治理平台 DataWorks:准备环境

更新时间:Aug 16, 2024

本教程以用户画像分析为例,通过使用DataWorks完成数据同步、数据加工、质量监控的全流程操作。为保证您可以顺利完成本教程,您需要准备教程所需的EMR集群、DataWorks工作空间,并做好相关的环境配置。

前提条件

  • 大数据开发治理平台DataWorks:购买DataWorks,详情请参见购买指引

    说明

    因本示例提供的数据资源都在华东2(上海),建议购买时选择地域为华东2(上海)。

  • 对象存储OSS:已开通OSS服务,具体步骤,请参见开通OSS服务

步骤一:创建OSS Bucket

本教程需要您创建一个OSS Bucket,后续会将用户信息和网站访问日志信息同步到OSS Bucket中,用于数据建模和数据分析。

  1. 登录OSS控制台

  2. 在左侧导航栏,单击Bucket列表,在Bucket列表页面,单击创建Bucket

  3. 创建Bucket对话框中,配置各项参数,单击完成创建

    • Bucket名称:自定义。

    • 地域:选择华东2(上海)

    • HDFS服务:根据界面提示打开HDFS服务开关。

      更多参数说明请参见控制台创建存储空间

  4. 在Bucket列表页单击相应的Bucket名称,进入Bucket的文件管理页面。

步骤二:创建EMR集群

本教程需要您创建一个EMR集群,用于集成到DataWorks,使得您能够在DataWorks平台上执行基于EMR集群的数据处理任务。

具体操作,请参见创建集群。在创建EMR集群进行软件配置时,关键参数配置如下:

  • 地域:选择华东2(上海)

  • 业务场景:选择新版数据湖

  • 产品版本:选择最新版本。

  • 可选服务:根据实际需求选择组件,其中Hive组件在本案例中必选。

  • 元数据:选择DLF统一元数据

  • 集群存储根路径:选择步骤一中创建的已开通HDFS服务的OSS Bucket。

说明

对于EMR集群的不同配置,DataWorks产品支持情况存在一定差异。如果您需要在DataWorks上进行EMR任务开发,建议您在创建EMR集群前先参考DataWorks on EMR集群配置最佳实践

步骤三:创建DataWorks工作空间

在DataWorks工作空间里进行任务开发前您需要先创建一个DataWorks工作空间。

说明

因本示例提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况。为了简化您的操作流程,建议您在生产、环境是否隔离这一参数处选择

  1. 登录DataWorks控制台

  2. 单击左侧导航栏中的工作空间列表

  3. 将页面顶部导航栏的地域列表切换为华东2(上海)地域。

  4. 单击创建工作空间,输入工作空间名称。具体操作,请参见创建工作空间

步骤四:配置DataWorks on EMR开发环境

在DataWorks上运行EMR作业前,您需要配置如下开发环境:

  1. 购买并配置Serverless资源组。

    Serverless资源组是一种专门的计算资源,用于保障任务能够按时被调度执行。购买一个Serverless资源组,并与当前EMR集群所在的VPC网络连通,详情请参见新增和使用Serverless资源组

  2. (可选)添加工作空间成员并授权。

    只有工作空间成员才可以在DataStudio内运行EMR任务。您可以将其他RAM用户添加为工作空间成员,详情请参见空间级模块权限管控

    说明

    阿里云主账号和创建工作空间的RAM用户自动成为工作空间的成员,且角色为空间管理员。

  3. 注册EMR集群至DataWorks并初始化资源组。

    只有将集群注册至DataWorks,才可以在DataWorks上使用EMR集群。详情请参见注册EMR集群至DataWorks

    重要

    初始化资源组时,请务必确保初始化成功,否则可能导致任务运行失败。如果初始化失败,请根据界面提示查看失败原因并进行连通性诊断。

    关键参数配置如下:

    • 集群所属云账号:选择当前阿里云主账号

    • 集群类型:选择数据湖(DataLake)

    • 默认访问身份:选择集群账号:hadoop