本文为您介绍资源组的基本概念和分类,以及连通性和性能问题。并对三种资源组进行对比,以便您根据自身需求选择适用的资源组。

基本概念

资源组是指数据集成的批数据同步任务运行所在的计算资源。通常资源组以机器的形式展现,即CPU、内存和带宽的大小。

执行数据同步任务的流程为:先从数据来源所在的机器抽取数据至资源组所在的机器,再推送至目标数据源所在的机器。流程图

连通性和性能问题

您在使用资源组时,需要关注资源组面临的连通性和性能问题:
  • 连通性问题

    由于执行数据同步任务流程的要求,需要保证可以访问两边机器的网络。连通性问题是资源组面临的最重要的问题。

    数据集成本身不具备搭建网络的能力,您需要在保证网络连通的前提下,再使用数据集成。如果网络不通,会导致数据同步任务无法执行。

  • 性能问题

    执行同步任务时,会占用资源组所在机器的CPU、内存和网络等资源。如果资源不足,会导致任务无法启动、启动后长时间等待资源,或启动后传输速率较慢,不能及时产出结果等问题。

    您需要给予同步任务充足的资源,以保障任务的顺利运行。建议您使用独享资源组,将任务运行在独立的环境中,无需受到公共资源池的影响。

资源组的分类和对比

数据集成的资源组包括以下类型:
以上三种类型的资源组适用于不同的场景,您可以在执行任务时,根据自身需求选择合适的资源组。
类别 公共资源组 独享资源组 自定义资源组
机器资源归属 由DataWorks维护,是所有租户竞争使用的共享资源。 由DataWorks维护,是自己的租户独享使用的计算资源。 由您自己维护,是属于您的IDC机器。
网络 支持经典网络、公网和任意网络下的阿里云产品。 支持VPC、公网和任意网络下的阿里云产品。 支持VPC、公网和任意网络下的阿里云产品。
收费方式 根据任务实例的数量,以阶梯价的形式收费。 根据机器的规格,包年包月计费。 DataWorks版本按月使用收费。
支持的数据源 部分数据源 全部数据源 全部数据源
安全性 根据您自身机器所处的环境决定
任务执行的效率

指任务是否能够分到足够的计算资源,能否以最高性能运行。

根据您自身机器所处的环境决定
可靠性

指任务是否能够按时启动。执行任务时,网络资源是否被其它租户占用,导致任务不能按时产出结果。

根据您自身机器所处的环境决定
适用场景 非重要、非紧急的少量、零散的任务,或者测试级别的任务。 大量、重要的生产级别的任务。 使用自定义资源组的场景如下:
  • 如果您自身已有计算资源,可以对接阿里云重复使用,无需重新购买。
  • 需要同步的数据源全部在IDC内。
推荐指数 ★★ ★★★★★

根据上表三种类型的对比,推荐您使用独享资源组来执行同步任务。