全部产品
Search
文档中心

大数据开发治理平台 DataWorks:DataWorks资源组概述

更新时间:Sep 24, 2024

DataWorks资源组属于DataWorks的基础服务,为DataWorks上的各个功能模块提供计算资源,DataWorks资源组是您正常使用DataWorks的前提。资源组的状态将影响到相关功能的稳定运行,资源组的配额度,将影响任务或服务运行的效率。本文为您介绍资源组的各项属性及特点。

背景信息

为了解决旧版资源组(公共调度资源组、独享数据集成资源组、独享调度资源组、独享数据服务资源组)计费逻辑复杂,购买管理不统一等用户体验问题,DataWorks于2024年06月10日起逐步在各大地域上线全新Serverless资源组,所有DataWorks功能均可使用Serverless资源组,计费逻辑清晰简单,通过一个资源组即可完成数据同步、任务调度运行、调用及管理API服务等操作。

Serverless资源组特点

  • 通用型:不区分用途,DataWorks任何能力都可以使用。

  • 付费形式灵活:支持按量和包年包月两种付费形式。

  • 支持运行中扩缩容:扩缩容时不影响已有任务的运行。

  • 按需使用无浪费:用多少买多少,避免无效的资源浪费。最小购买粒度为2 CU。

  • 高隔离性安全保障:属于您的独享资源,网络控制也完全由您自主控制,提升了安全性和隔离性。

Serverless资源组计费方式

Serverless资源组打破了传统按规格计费方式,采用全新计费方式,以CU为计费单位(1 CU的性能 ≈ 1核CPU + 4GiB内存)。

Serverless资源组的更多计费详情,请参见Serverless资源组计费

计费案例

假设华东1(杭州)地域某用户每日凌晨需要通过DataWorks同步任务将业务库MySQL数据同步至MaxCompute数仓,涉及20个同步任务,每个任务运行1小时。

  • 如果使用Serverless资源组:以每个任务每小时消耗1 CU为例,消耗资源如图所示:image

    说明

    华东1(杭州)地域Serverless资源组按量付费单价为0.077399 美元/CU时

    Serverless资源组一天费用 = 单任务每小时CU消耗 × CU单价 × 任务个数 × 运行时间 = 1 CU × 0.077399 美元/CU时 × 20个 × 1 小时= 1.54798 美元。

  • 如果使用原独享数据集成资源组,独享数据集成资源组最低购买4核 8GB规格,华东1(杭州)地域单价76.23美元/月,约合2.541美元/天。

结论

Serverless资源组相比独享数据集成资源组,不仅避免了不必要的资源浪费,而且价格便宜了约40%

使用限制

  • 仅华北2(北京)、华东2(上海)、华南1(深圳)、华东1(杭州)、中国(香港)、华北3(张家口)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、日本(东京)、英国(伦敦)、美国(硅谷)、德国(法兰克福)、美国(弗吉尼亚)地域支持使用Serverless资源组。

  • 已具备资源组相关权限:

  • 一个Serverless按量付费资源组最多可以使用500 CU。

  • 除了实时同步任务外,其它类型的任务,单个任务最多可以分配16 CU。

注意事项

您对DataWorks资源组(包括Serverless资源组和旧版资源组)享有专属使用权。相应地,任何通过这些资源组执行或调度的代码逻辑所产生的法律义务与责任,也将由您承担。我们建议您在使用过程中,确保遵守相关法律法规,合理使用资源,以维护良好的社区环境与自身权益。

Serverless资源组与旧版资源组对比

对比项

旧版资源组(独享资源组和公共资源组)

Serverless资源组

使用方法

按照功能进行区分,分为数据集成、数据调度、数据服务三种资源组。

各功能通用,不区分用途。

功能边界

DataWorks部分能力旧版资源组不支持。

支持DataWorks的所有功能。

支持混用

不支持,不同类型之间无法混用。

支持,一个资源组可以被所有功能(数据集成、数据调度、数据服务)使用。

售卖形式

按照机器规格和台数收费。

最小需要购买一台4c8g,最小扩容步长为一台4c8g。

按照CU进行售卖。

最小需要购买2 CU,最小扩容步长为1 CU。

收费方式

  • 独享资源组只有包年包月一种方式。

  • 公共资源组只有按量付费一种方式。

支持包年包月和按量付费两种形式。

资源碎片的浪费

机器规格只有有限几种,因此存在每种机器上都会有一定量的资源碎片无法利用,造成资源浪费。

按需选择合适CU数,避免了资源浪费。

扩缩容能力

  • 升级或降级规格。

  • 增加或减少台数。

直接对于资源组CU数修改即可。

扩缩容时影响

影响已经在运行的任务。

已经运行的任务不受影响。

网络安全性

DataWorks代持公网出入口。多用户共享,存在资源争抢。

完全使用客户自己的公网能力,行为可控。

发展趋势

计划未来下线。

成为DataWorks唯一正式的资源组。

是否支持自定义镜像

不支持。

支持自定义镜像管理,能够定制化构建任务执行所需组件的镜像,满足更多任务执行条件。

相关参考

附录:旧版资源组

说明

不推荐使用旧版资源组(独享资源组和公共资源组),相较于旧版资源组,Serverless资源组支持的能力更丰富、售卖方式更统一、能有效利用资源碎片避免浪费,因此推荐您使用Serverless资源组

旧版资源组介绍

DataWorks旧版资源组包括独享资源组公共资源组,各资源组根据任务调度、数据集成、数据服务等不同的使用场景,细分为不同类型的资源组,包括:独享调度资源组、独享数据集成资源组、独享数据服务资源组、公共调度资源组、公共数据服务资源组。其中,DataWorks的调度资源组用于保障任务的调度运行,数据集成资源组用于保障数据集成任务中的数据传输,数据服务资源组用于保障API的调用。

资源组类型

计费方式

资源组描述

调度资源组

数据集成资源组

数据服务资源组

独享资源组

包年包月

  • 属于平台托管类型的资源组,购买后将拥有该资源组的独立使用权。

  • 支持通过资源组绑定工作空间的操作,实现各个工作空间的资源隔离。

  • 支持扩容、缩容、升配或规格变更等灵活配置。

独享调度资源组

独享数据集成资源组

独享数据服务资源组

说明

仅华东2(上海)地域支持使用独享数据服务资源组

公共资源组

按量付费

开通DataWorks时,阿里云DataWorks会自动为用户提供公共资源组(公共数据服务资源组和公共调度资源组),公共资源组为DataWorks租户共享,任务运行高峰期可能出现等待资源的情况。

使用公共资源组

-

使用公共资源组

公共资源组与独享资源组对比

调度资源组

类别

公共调度资源组

独享调度资源组

机器资源归属

由DataWorks维护,是所有租户竞争使用的共享资源。

由DataWorks维护,是每个租户独占使用的计算资源。

网络

无法保证网络连通,包括但不限于以下场景:

  • 数据源处于公网环境中,但数据源有白名单设置,限制了未知IP的访问。

  • 数据源处于阿里云VPC网络环境中。

可通过网络配置连通复杂的网络环境。详情请参见:独享调度资源组

任务执行时效性要求

DataWorks用户共享,无法保障时效性。

租户独占,可以控制资源组执行的并发数,并保障任务按时执行。

适用场景

由于租户共同拥有资源的使用权,所以任务量多时,容易造成空间内任务阻塞。仅适用于低并发、低频率的调用场景。

租户可以控制资源组执行的并发数,并支持对资源组进行扩缩容,规格变更等操作,满足任务量大,且对任务时效性要求高的场景。

收费

按量付费,详情请参见公共调度资源组计费说明:按量付费

包年包月,详情请参见独享调度资源组计费说明:包年包月

其他对比

  • 时效性要求:公共调度资源组所有阿里云DataWorks用户共享,如果您的任务有时效要求,建议您选择独享调度资源组。

  • 访问非公网且有白名单限制的环境需求:公共资源组不支持访问非公网并且有白名单限制的环境,如果您有此类需求,建议您选择使用独享调度资源组。

  • 任务量需求:日调度任务较多时,您可以选择包年包月独享调度资源组。

数据集成资源组

类别

独享数据集成资源组

机器资源归属

由DataWorks维护,是每个租户独占使用的计算资源。

网络

  • 拥有公网访问能力。

  • 通过网络配置可以访问任意网络环境下的数据库。

支持的数据源

全部数据源。

任务执行时效性要求

租户独占,可以控制资源组执行的并发数,并保障任务按时执行。

适用场景

大量、重要的生产任务。

收费

包年包月,详情请参见独享数据集成资源组计费说明:包年包月

选择指引

  • 时效性要求:在数据集成任务高并发执行且无法错峰运行的情况下,企业需要独享的计算资源来保障数据快速、稳定地传输,此时您可选择使用独享数据集成资源组。

  • 访问内网环境的需求:独享数据集成资源组拥有公网访问能力,如果您的数据库在公网内,独享数据集成资源组支持您通过公网进行同步。部分数据库由于其自身特性,无法通过公网直接同步,具体详情请参见各个数据源与插件说明文档:支持的数据源与读写插件

  • 访问复杂环境的需求:当需要访问复杂网络环境下的数据库时,请选择包年包月独享数据集成资源组。关于网络解决方案详情请参见:网络连通方案

  • 实时同步需求:当进行数据实时同步时,您需要使用独享数据集成资源组。

  • 自定义数据源资源组支持情况:部分数据源仅支持使用独享数据集成资源组,详情请参见实时同步支持的数据源

数据服务资源组

公共数据服务资源组为租户共享资源。在对数据服务API进行高并发、高频率的接口调用并需要及时返回数据结果的情况下,企业需要专有的计算资源来保障数据服务的可用性和稳定性。此种场景下建议您选择DataWorks的独享数据服务资源组。计费详情,请参见独享数据服务资源组计费说明:包年包月数据服务

费用说明

各类资源组的费用说明详情请参见旧版资源组计费

注意事项

  • 老用户开通DataWorks时,DataWorks默认为您提供按量付费的公共资源组,同时,支持您购买包年包月独享资源组,或者升级为DataWorks标准版、专业版、企业版,将您的IDC机器作为DataWorks任务运行的相关资源组,详情请参见旧版资源组介绍

  • 不同类型的旧版资源组用于不同执行阶段的任务,本文以离线任务调度为例,为您介绍DataWorks离线任务下发机制,与任务运行过程中使用的资源组。详情请参见旧版资源组任务下发机制

  • 在同一个执行阶段,任务可选择不同类型的资源组,例如,离线任务调度可选择包年包月独享调度资源组,或按量付费公共调度资源组,数据集成离线任务执行可选择包年包月独享数据集成资源组,更多详情,请参见公共资源组与独享资源组对比

  • DataWorks的公共资源组、独享资源组均已默认接入云安全中心免费版,为您提供服务器异常登录检测、DDoS攻击检测、主流类型的服务器漏洞扫描等基础的安全加固能力,详情请参见云安全中心免费版

旧版资源组任务下发机制

DataWorks的离线任务通过调度资源组下发至各引擎或服务器资源上执行。例如,DataWorks通过调度资源组将任务下发至MaxCompute引擎上执行。数据集成离线同步任务通过调度资源组将任务下发至数据集成任务执行资源上执行。公共数据集成资源组