全部产品
Search
文档中心

大数据开发治理平台 DataWorks:配置资源组与网络连通

更新时间:Jan 17, 2024

在数据同步任务配置前,您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据库的网络连通性,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。本文为您介绍数据库在不同网络环境中时,可选用的网络连通方案。

注意事项

  • 连通性测试通过是任务运行成功的必要条件,连通性工具测试仅验证网络等基本条件通过,具体任务是否成功以实际任务运行结果为准。任务提交生产运行前确保测试通过。

  • 独享调度资源组网络连通方案同样可参考当前文档进行与目标访问地址的网络配置。

  • 独享数据集成资源组暂不支持经典网络环境下的数据库同步,建议您将经典网络环境下的数据库迁移至VPC环境。

  • 无法保障公网环境下的数据同步速度和任务稳定性,建议通过内网或者云企业网同步。

背景信息

复杂网络环境下的数据源进行异构数据源间的数据同步,可选择使用独享数据集成资源组,需要先进行网络打通。

数据同步如上图所示,进行数据同步前,需通过合适的网络连通方案将数据库和资源组间的网络打通。本文重点关注通过独享数据集成资源组访问数据库的场景。

购买合适规格的资源组

购买并选择合适规格的独享数据集成资源组,购买详情请参见:新增和使用独享数据集成资源组

说明
  • 不同规格的资源组支持同步的任务数或并发线程数存在上限,您需要根据业务需要选择合适规格的资源组。

  • 离线和实时同步任务推荐使用不同的资源组,以便任务分开执行。如果选择同一个资源组,任务混跑会带来资源抢占、运行态互相影响等问题。例如,CPU、内存、网络等互相影响,可能会导致离线任务变慢或实时任务延迟等问题,甚至在资源不足的极端情况下,可能会出现任务被OOM KILLER杀掉等问题。

  • 独享资源组EIP为一个地域内所有独享资源组公用,如果您将此EIP拦截,将导致此地域上所有的独享资源组都无法访问您的数据。

配置网络连通

步骤一:网络绑定

网络连通方案选择取决于数据源与DataWorks工作空间(独享资源组,即同步机器)间的环境关系,包括以下场景:

网络连通方案

同步网络选择

数据源所在环境

数据源与DataWorks工作空间关系

网络连通通用逻辑

配置示例

通过VPC(内网)同步

数据源在阿里云

  • ECS自建数据库

  • 阿里云数据库云产品

同阿里云主账号、同地域VPC

独享数据集成资源组绑定数据源所在VPC即可。

场景一:数据库与DataWorks工作空间同阿里云主账号、同地域

不在同一个同阿里云主账号下或不在同一个地域下VPC跨地域

  1. 先通过网络连通工具(云企业网CEN高速通道VPN网关)连通数据源所在地域与DataWorks工作空间所在地域的网络环境,或数据源所在账号与DataWorks空间所在账号的网络连通。

  2. 为独享数据集成资源组绑定当前阿里云主账号下已经与数据库网络连通的专有网络。

    说明

    如果在为独享资源组绑定VPC时,选择的安全组为企业安全组,您需要在绑定专有网络后,前往安全组管理页面,为该企业安全组新增安全策略,具体如下:

    • 出方向:增加独享资源组需要访问的目标数据源IP。

    • 入方向:增加独享资源组绑定的交换机网段。

    详情请参见:使用独享数据集成资源组执行任务需要在数据库添加的IP白名单

  3. 为独享数据集成资源组添加一条自定义路由并指向目标数据源IP地址。详情可参见通用参考:添加路由

数据源不在阿里云

  • IDC数据源

  • 非阿里云的云数据库

数据库不在阿里云

场景四:数据库在IDC

通过公网访问数据源

-

公网

独享数据集成资源组有公网访问能力,可直接连通。

-

说明

无论上述哪种场景,如果数据库存在白名单访问控制,您都需要将资源组绑定的交换机网段或独享资源组本身EIP添加至数据库白名单中。获取数据库需要添加的白名单详情请参见:添加白名单

步骤二:添加白名单

无论上述哪种场景,如果数据源存在白名单访问控制,您都需要将资源组绑定的交换机网段或独享资源组本身EIP添加至数据源白名单中。

  • 通过内网同步,请添加独享资源组绑定的交换机网段IP至数据源白名单列表。

  • 通过公网同步,请添加独享资源组本身的EIP至数据源白名单列表。

获取白名单方式如下:

  • 如果您使用独享数据集成资源组走VPC内网同步数据,请在数据库白名单列表中添加独享数据集成资源组绑定的交换机网段。获取独享绑定的交换机网段信息如下:

    DataWorks控制台资源组列表页面独享资源组页签下,单击目标独享数据集成资源组后的网络设置,查看交换机网段并将其添加至数据库白名单列表中。

  • 如果您使用独享数据集成资源组走公网同步数据,请在数据库白名单列表中添加独享数据集成资源组本身的EIP地址。获取独享数据集成资源组EIP地址如下:

    DataWorks控制台资源组列表页面独享资源组页签下,单击数据集成资源组后的查看信息,复制对话框中的EIP地址至数据库白名单列表中。查看独享资源组EIP

    说明

    如果您之后对独享数据集成资源组进行了扩容操作,请检查此处待添加的EIP是否有变动,为了避免任务执行出错,请在扩容后第一时间更新数据库添加的白名单。

各场景网络连通配置示例

下文以使用阿里云RDS数据库为例,通过网络配置,实现DataWorks独享数据集成资源组通过内网与各环境下的阿里云RDS实现网络连通。获取RDS的专有网络信息,详情请参见切换专有网络VPC和虚拟交换机

说明

以下示例仅为独享资源组绑定普通安全组场景下的说明。

场景一:数据源与DataWorks工作空间同阿里云主账号、同地域

网络连通配置操作

配置操作图示

  1. 网络绑定:独享数据集成资源组可绑定数据源所在VPC。

  2. 数据源白名单配置:将独享资源组绑定的交换机网段IP添加到数据源白名单中。

同账号同地域

场景二:数据源与DataWorks工作空间同阿里云主账号、不同的地域

网络连通配置操作

配置操作图示

  1. 配置两个地域间的网络连通。

    使用云企业网CENVPN网关连通两个地域的VPC。

  2. 配置数据源和资源组的网络连通。

    1. 为独享资源组绑定当前账号下,已与数据库网络连通的VPC。

    2. 在控制台添加路由,连接至指向目标数据源IP地址段,详情可参见通用参考:添加路由

  3. 数据源白名单配置:将独享资源组绑定的交换机网段IP添加到数据源白名单中。

同账号不同地域

场景三:数据库与DataWorks工作空间使用不同阿里云主账号

网络连通配置操作

配置操作图示

  1. 配置两个阿里云主账号间的网络连通。

    使用云企业网CENVPN网关连通两个阿里云主账号的VPC。

  2. 配置数据源和资源组的网络连通。

    1. 为独享数据集成资源组绑定当前账号下已与数据源网络连通的VPC。

    2. 在控制台添加路由,连接至目标数据源IP地址段,详情可参见通用参考:添加路由

  3. 数据源白名单配置:将独享资源组绑定的交换机网段IP添加到数据源白名单中。

不同账号

场景四:数据源在IDC

数据源不在阿里云环境可参考该场景配置。

  1. 配置两个环境的网络连通。

    使用高速通道连通IDC与阿里云专有网络。

  2. 配置数据源和资源组的网络连通。

    1. 为独享数据集成资源组绑定当前账号下已与数据库网络连通的VPC。

    2. 在控制台添加路由,连接至目标数据源IP地址段,详情可参见通用参考:添加路由

  3. 数据源白名单配置:将独享资源组绑定的交换机网段IP添加到数据源白名单中。

后续步骤

数据同步任务配置,操作详情请参见以下文档。