数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。
费用说明
- DataWorks相关收费
- 数据集成资源组(独享数据集成资源组,如果使用公共数据集成(调试)资源组,则还包括公共数据集成资源组费用)。
- 任务调度资源组费用(独享调度资源组,公共调度资源组)。
- 公网流量费用(如果任务走公网进行的数据传输)。
- DataWorks的版本使用费(如使用相关收费版本)。
说明 此类费用体现在DataWorks产品相关账单中。 - 非DataWorks的收费
除上述DataWorks相关收费外,也可能会产生由数据同步任务相关配置引起的账单和费用,如同步上下游数据库、计算引擎系统计算和存储费用,所需网络服务费用(如高速通道、共享带宽、EIP)等等,此类收费不属于DataWorks相关收费范畴。账单也不会体现在DataWorks产品下。请在任务配置后,确认您使用DataWorks以外相关资源所产生的任务及相关费用问题。
使用限制
- 支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步,不支持同步OSS中存放完全非结构化的数据(例如一段MP3)至MaxCompute。
- 支持单地域内及部分跨地域的数据存储相互同步、交换的数据同步需求。
部分地域之间可以通过经典网络传输,但不能保证其连通性。如果测试经典网络不通,建议您使用公网方式进行连接。
- 数据集成仅完成数据同步(传输),本身不提供数据流的消费方式。
- 数据集成同步仅支持at least once,不支持exact once,即不能保证数据重复,只能依赖主键+目的端能力来保证。
离线(批量)同步简介

数据同步的开发模式
- 向导模式:提供向导式的开发引导,通过可视化的填写和下一步的引导,助您快速完成数据同步任务的配置工作。向导模式的学习成本低,但无法支持部分高级功能。详情请参见通过向导模式配置任务。
- 脚本模式:您可以通过直接编写数据同步的JSON脚本来完成数据同步开发,适合高级用户,学习成本较高。脚本模式可以提供更丰富灵活的能力,实现精细化的配置管理。详情请参见通过脚本模式配置任务。
- 向导模式生成的代码可以转换为脚本模式,该转换为单向操作,转换完成后无法恢复至向导模式。
- 代码编写前,您需要配置数据源和创建目标表。
网络连通说明
数据集成通过数据集成资源组将您的数据从源端同步到目标端,但在数据同步前,您需要先保障数据集成资源组(执行数据同步的机器)与数据库的网络连通性。

数据集成支持复杂网络环境下的数据库进行异构数据源间的同步,您可以根据数据库所在网络环境,选择对应的网络解决方案,来保障同步使用的资源组与您数据库的网络连通,详情可参考文档:选择网络连通方案。
- 经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责。
- 专有网络:基于阿里云构建出一个隔离的网络环境。您可以完全掌控自己的虚拟网络,包括选择自有的IP地址范围,划分网段以及配置路由表、网关。
专有网络构建了一个隔离的网络环境,您可以自定义IP地址范围、网段、网关等参数。随着专有网络应用的推广,数据集成提供了RDS(MySQL、PostgreSQL和SQLServer)、PolarDB、DRDS、HybridDB for MySQL、AnalyticDB for PostgreSQL和AnalyticDB for MySQL3.0数据源之间的反向代理自动检测功能。在专有网络下,您无需购买一台和VPC同网络的ECS,即可通过反向代理自动检测连通网络。
PPAS、OceanBase、Redis、MongoDB、Memcache、Tabl eStore和HBase等阿里云其它非RDS的数据库,在专有网络下配置数据同步任务时,需要购买同网络的ECS,才可以通过ECS连通网络。
- 本地IDC网络:您自身构建机房的网络环境,与阿里云网络隔离。
基本概念
- 并发数
并发数是数据同步任务中,可以从源并行读取或并行写入数据存储端的最大线程数。
- 限速
限速是数据集成同步任务可以达到的传输速度限制。
- 脏数据
脏数据是对于业务没有意义,格式非法或者同步过程中出现问题的数据。单条数据写入目标数据源过程中发生了异常,则此条数据为脏数据。 因此只要是写入失败的数据均被归类于脏数据。大部分场景为格式非法的数据,例如,源端是VARCHAR类型的数据写到INT类型的目标列中,导致因为转换不合理而无法写入的数据。
脏数据不会成功写入目的端。您可以在同步任务配置时,控制同步过程中是否允许脏数据产生,并且支持控制脏数据条数,即当脏数据超过指定条数时,任务失败退出。
- 数据源
DataWorks所处理的数据的来源,可能是一个数据库或数据仓库。DataWorks支持各种类型的数据源,并且支持数据源之间的转换。
在数据集成同步任务配置前,您可以在DataWorks数据源管理页面,配置好您需要同步的源端和目标端数据库或数据仓库的相关信息,并在同步过程中,通过选择数据源名称来控制同步读取和写入的数据库或数据仓库。
参考文档
- 数据同步任务配置详情请参见创建数据同步任务。
- 如果需要处理OSS等非结构化数据,请参见MaxCompute访问OSS数据。
- DataWorks可以通过免费传输能力(默认任务资源组)进行海量数据上云,但默认资源组无法实现传输速度存在较高要求或复杂环境中的数据源同步上云的需求。您可以新增独享数据集成资源或者数据集成自定义资源组运行数据同步任务,解决DataWorks默认资源组与您的数据源不通的问题,或实现更高速度的传输能力。详情请参见新增和使用独享数据集成资源组和新增和使用自定义数据集成资源组。