本文为您介绍如何新增自定义数据集成资源组,并配置离线同步任务运行的数据集成资源组。

前提条件

您需要购买DataWorks专业版及以上版本,才可以使用自定义数据集成资源组。

背景信息

您可以新增自定义资源组运行数据同步任务,解决DataWorks公共资源组与您的数据源不通的问题,实现更高速的传输。

项目管理员可以在数据集成 > 自定义资源组页面新增或修改自定义资源组。
说明
  • 注册服务器时,仅华东2(上海)支持选择经典网络的方式注册(输入主机名),建议您优先使用专有网络VPC。其它区域只能选择专有网络方式注册(输入UUID)。
  • 自定义资源组上运行的部分文件需要Admin权限。例如,在Shell脚本任务中,调用您购买的ECS上的Shell文件、SQL文件等。
  • 调度资源组主要用于调度任务,资源有限,不适合用于计算任务,所以不推荐在调度资源组上安装数据处理模块。MaxCompute具有海量数据处理能力,推荐您通过MaxCompute进行大数据计算。
自定义数据集成资源组的使用限制如下:
  • 自定义资源组所在的ECS服务器的时间与当前互联网时间差必须在2分钟之内,否则会导致部署的自定义资源组服务请求接口超时服务异常,无法执行任务。
  • 一台机器只能添加一个自定义资源组,每个自定义资源组只能选择一种网络类型。
  • 您在数据集成 > 自定义资源组页面添加的自定义资源组,只能给当前工作空间作为数据同步资源组使用,不会显示在资源组列表页面。

    在该页面添加的自定义资源组,不支持手动业务流程的数据同步节点。

如果您发现alisatasknode日志中有超时报错信息response code is not 200,通常是因为某个时段访问服务接口不稳定的异常导致。只要不是持续10分钟异常,自定义资源组服务器就依然可以正常服务。您可以查看日志/home/admin/alisatasknode/logs/heartbeat.log进行确认。

购买云服务器ECS

购买ECS云服务器。
说明
  • 使用CentOS 6、CentOS 7或Aliyun OS。
  • 如果您添加的ECS需要执行MaxCompute任务或同步任务,需要检查当前ECS的Python版本是否是Python2.6或2.7(CentOS 5的版本为Python 2.4,其它OS自带Python 2.6以上版本)。
  • 请确保ECS有访问公网能力,您可将是否ping通www.alibabacloud.com作为衡量标准。
  • 建议ECS的配置为8核16G。

查看ECS主机名和内网IP地址

您可以进入云服务器ECS > 实例页面,查看购买的ECS主机名和IP。查看ECS

开通8000端口

说明 如果您的ECS是VPC专有网络类型,则无需开通8000端口。下述步骤仅适用于经典网络。

为方便读取日志,请开通8000窗口:

  1. 登录云服务器ECS的云服务器ECS > 网络和安全 > 安全组页面。
  2. 单击相应安全组后的配置规则
  3. 安全组规则 > 入方向页面,单击右上角的手动添加
  4. 在对话框中,设置端口范围8000/8000授权对象为数据集成的固定IP。
    手动添加
  5. 单击保存

新增自定义数据集成资源组

  1. 进入数据集成页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据集成
  2. 在左侧导航栏,单击自定义资源组
  3. 自定义资源组页面,单击右上方的新增自定义资源组
    新增自定义资源组
    注意 该页面不显示公共资源组,仅显示您添加的自定义资源组。
  4. 新增自定义资源组配置向导页面,完成以下操作:
    1. 创建资源组对话框中,输入资源组名称
      说明 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。
    2. 单击下一步
    3. 添加服务器对话框中,配置各项参数。
      添加服务器
      参数 描述
      网络类型 除华东2(上海)支持经典网络外,其它地域仅支持专有网络
      服务器名称ECS UUID 选择不同的网络类型,您需要配置不同的参数:
      • 选择经典网络时,请输入服务器名称

        您可以登录ECS,执行hostname,获取返回值。

      • 选择专有网络时,请输入ECS UUID

        您可以登录ECS,执行dmidecode | grep UUID,获取返回值。

      机器IP 请输入内网机器IP。
      机器CPU(核) 推荐的自定义资源组机器CPU配置至少为4核。
      机器内存(GB) 推荐的自定义资源组机器内存配置至少为8 GB RAM和80 GB磁盘。
    4. 单击下一步
    5. 根据安装Agent对话框中的提示,依次操作。
      安装Agent
      说明 如果执行install.sh过程中出错或需要重新执行,请在install.sh的同一个目录下执行rm –rf install.sh。删除已经生成的文件后,再执行install.sh

      初始化界面对于每个用户的命令都不一样,请根据自己的初始化界面执行相关命令。

    6. 单击下一步
    7. 检查连通对话框中,单击刷新,确认服务器的当前状态
    8. 单击完成
执行完上述操作后,如果服务状态一直是停止,您可能碰到下图中的问题。停止
  1. 切换至Admin账号。
  2. 执行hostname -i,查看host的绑定情况。
  3. 执行vim/etc/hosts,添加IP地址和主机名。
  4. 刷新页面服务状态,查看ECS服务器注册是否成功。
    如果刷新后还是停止状态,请重启alisa:
    1. 切换至Admin账号。
    2. 执行下述命令。
      /home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart
      说明 命令中涉及您的访问密钥,请勿轻易泄露。

配置数据集成资源组

  1. 单击当前页面左上方的图标图标,选择全部产品 > 数据开发 > DataStudio(数据开发)
  2. 在顶部菜单栏的工作空间列表,选择数据集成资源组的归属工作空间。
  3. 数据开发页面,展开相应的业务流程,双击需要配置资源组的离线同步节点。
  4. 在节点的编辑页面,单击右侧的数据集成资源组配置
    自定义资源组
  5. 数据集成资源组配置对话框中,根据业务需求,选择相应的方案和资源组。
  6. 在节点的编辑页面,单击工具栏中的保存图标。