完成数据源、网络、资源的准备配置后,您可创建实时同步节点,将多种输入及输出数据源搭配组成同步链路,进行单表或整库数据的实时增量同步。本文为您介绍如何创建单表或整库增量数据实时同步任务,并在创建完成后查看任务运行情况。
前提条件
- 已完成数据源配置。您需要在数据集成同步任务配置前,配置好您需要同步的源端和目标端数据库,以便在同步任务配置过程中,可通过选择数据源名称来控制同步任务的读取和写入数据库。实时同步支持的数据源及其配置详情请参见实时同步支持的数据源。说明 数据源相关能力介绍详情请参见:数据源概述。
- 已购买合适规格的独享数据集成资源组。详情请参见:新增和使用独享数据集成资源组。
- 独享数据集成资源组与数据源网络已打通。详情请参见:配置资源组与网络连通。
- 数据源环境已准备完成:您可以基于您需要进行的同步配置,在同步任务执行前,授予数据源配置的账号在数据库进行相应操作的权限。详情请参见:数据库环境准备概述。
进入数据开发
实时同步任务配置入口在数据开发模块,您需要前往数据开发进行创建。
- 登录DataWorks控制台。
- 在左侧导航栏,单击工作空间列表。
- 选择工作空间所在地域后,单击相应工作空间后的数据开发。
操作流程
步骤一:创建实时同步节点
- 创建业务流程。详情请参见:创建业务流程。
- 创建实时同步节点。
步骤二:配置资源组
实时同步任务仅支持使用独享数据集成资源组,您可以在实时同步任务编辑页面的右侧导航栏,单击基本配置。在资源组下拉框选择已经与数据库网络连通的独享数据集成资源组。
说明 建议实时同步任务与离线同步任务运行在不同的资源组上,避免混跑带来资源互相抢占、运行态互相影响等问题,例如,CPU、内存、网络等互相影响,导致离线同步任务突然变慢、实时同步任务延迟、以及在资源不足的极端情况下可能会出现任务被OOM Killer杀掉等问题。
步骤三:配置实时同步任务
配置单表实时同步任务
- 配置输入数据源。
- 可选:配置数据转换方式。在实时同步数据的过程中,如果您希望将输入的数据转换为需要使用的格式进行输出,则可以配置数据转换方式。
- 配置输出数据源。
- 配置输入、输出组件的上下游关系。添加完输入、输出组件后,您可以根据业务需求,通过连线完成相应的组件关系连接,数据会根据连线从上游组件同步至下游组件。
配置整库实时同步任务
- 设置同步来源和规则。
- 选择目标数据源并配置目标表或topic。
- 可选:设置表粒度同步规则。部分同步方案支持自定义表级DML处理策略,即当源表发生插入、更新、删除时,您可以在此处定义对应的处理策略。说明 不同数据源支持的DML操作可能存在差异,对应同步方案是否支持DML处理策略,请以产品界面为准。数据源当前的DML支持情况请参见支持的DML及DDL操作。
- 设置DDL消息处理规则。来源数据源会包含许多DDL操作,进行实时同步时,您可以根据业务需求,对不同的DDL消息设置同步至目标端的处理策略。不同数据源支持的DDL操作可能存在差异,详情请参见:支持的DML及DDL操作。说明 您可以在页面,针对每个写入的目标数据库类型,设置DDL处理策略。不同DDL消息处理策略如下表所示。
DDL消息类型 处理策略 新建表 DataWorks收到对应类型的DDL消息时,处理策略如下: - 正常处理:将相应消息继续下发给目标数据源,由目标数据源来处理。因为不同目标数据源对DDL消息处理策略可能会不同,因此DataWorks只执行转发操作。
- 忽略:直接丢弃该消息,不再向目标数据源发送。
- 告警:直接丢弃该消息,同时会在实时同步日志中记录告警信息,指明该消息因执行出错被丢弃。
- 出错:实时同步任务直接显示出错状态并终止运行。
删除表 新增列 删除列 重命名表 重命名列 修改列类型 清空表 - 运行资源设置。
- 提供任务并发数控制功能来限制数据集成读取和写入数据库的最大并发数。
- 支持您控制同步任务是否容忍脏数据的产生。
- 当不允许脏数据产生时,则同步任务执行过程中如果产生脏数据,任务将失败退出。
- 当允许脏数据时:同步任务将忽略脏数据(即不会写入目标端),并正常执行。
- 单击完成配置。
步骤四:提交并发布实时同步任务
- 单击工具栏中的
图标,保存节点。
- 单击工具栏中的
图标,提交节点任务。
- 在提交新版本对话框中,输入变更描述。
- 单击确定。如果您使用的是标准模式的工作空间,任务提交成功后,需要将任务发布至生产环境进行发布。请单击顶部菜单栏左侧的任务发布。具体操作请参见发布任务。