DataWorks数据集成提供了强大的整库实时同步解决方案,旨在帮助您将源数据库中的全部或部分表,以“全量+增量”一体化的方式,低延迟、自动化地复制到目标数据存储中。该功能基于实时计算引擎,能够自动完成数据的首次全量初始化,并无缝切换到对增量变更数据(CDC)的持续捕获,是实现数据库实时上云、构建实时数仓ODS层等场景的一站式解决方案。
使用场景
-
实时数仓ODS层构建
将线上业务数据库(如MySQL、Oracle)中的数据,实时、完整地同步至Hologres、StarRocks等实时数仓,为后续的大屏展示、即席查询等业务场景提供数据支撑。
-
数据库实时复制与灾备
在两个数据库实例之间建立实时复制链路,可用于读写分离、构建只读实例或实现同构/异构数据库的实时灾备。
-
数据实时上云/迁移
将本地IDC的数据库,平滑迁移至云上数据库服务。
-
构建实时数据湖/数据中台
将多个业务数据库的实时变更数据统一采集到数据湖(OSS、DLF)或数据仓库(MaxCompute、Hologres)中,构建企业统一的实时数据中台。
核心能力
实时整库同步的核心能力如下:
|
核心能力 |
功能点 |
功能说明 |
|
异构数据源间的整库同步 |
- |
整库同步支持将本地IDC或其他云平台的数据迁移至MaxCompute、Hologres、Kafka等数仓或数据湖。详情请参见:支持的数据源及同步方案。 |
|
复杂网络环境下的数据同步 |
- |
实时同步支持阿里云云数据库,本地IDC、ECS自建数据库或非阿里云数据库等环境下的数据同步。配置前需确保资源组与源端/目的端的网络连通性,配置详情请参见:网络连通配置。 |
|
同步场景 |
全量同步 |
支持一次性将源端全量数据同步至目标表。 |
|
增量同步 |
支持将消息队列或CDC日志等流式数据实时捕获写入目标表或指定分区。 |
|
|
全增量一体 |
|
|
|
任务配置 |
批量表同步 |
支持同步整个数据库的所有表,也支持通过勾选或配置过滤规则,精确选择需要同步的部分表。 |
|
自动建表 |
一次配置即可处理源端数据库中的数百张表,系统将自动在目标端创建表结构,无需手动干预。 |
|
|
灵活映射 |
支持自定义目标库/表命名规则;支持自定义源端和目标端的字段类型映射,灵活适应目标端的数据结构模型。 |
|
|
DDL变更感知(部分链路支持) |
当源端表结构发生变更(新建/删除表或列等)时,可配置同步任务采取以下响应策略之一:
|
|
|
DML规则配置 |
DML消息处理用于在数据写入目标端之前,对源端捕获的变更数据( |
|
|
动态分区 |
若目标表为分区表,支持根据来源字段或源端事件变更时间进行动态分区。 重要
注意,分区个数过多会影响同步效率,单日新增分区超过1000个,分区创建失败并终止任务。 |
|
|
任务运维 |
线上干预 |
支持断点续传,在任务中断后从指定的时间位点处恢复执行,确保数据同步不丢失;支持重跑,用于数据补全、修复异常或验证逻辑变更,保障数据一致性与业务连续性。 |
|
监控报警 |
支持业务延迟、任务状态、Failover、DDL通知等监控规则,并支持对触发的规则进行告警。 |
|
|
资源调优 |
DataWorks数据集成基于Serverless资源组,提供按任务粒度的弹性伸缩能力。 此外,您还可以通过配置分时段弹性策略,为任务在不同时间(如业务高峰与低谷)预设不同的资源规格。 |
开始使用
创建整库实时同步任务参见:整库实时同步任务配置。
支持的数据源
|
来源数据源 |
去向数据源 |
|
MaxCompute |
|
|
AnalyticDB for MySQL(V3.0) |
|
|
ApsaraDB for OceanBase |
|
|
Data Lake Formation(DLF) |
|
|
DataHub |
|
|
Doris |
|
|
Elasticsearch |
|
|
Hologres |
|
|
Kafka |
|
|
LogHub |
|
OSS |
|
|
OSS-HDFS |
|
|
SelectDB |
|
|
StarRocks |
|
|
Lindorm |