本文为您介绍如何通过数据集成向导模式进行任务配置。
开发流程
- 新建数据源。
- 新建离线同步节点。
- 选择数据来源。
- 选择数据去向。
- 配置字段的映射关系。
- 配置作业速率上限、脏数据检查规则等信息。
- 配置调度属性。
新建数据源
同步任务支持多种同构、异构数据源间的数据传输。首先,在配置数据源。
页面,新增需要同步的数据源,详情请参见新增数据源后,在数据集成配置同步任务时,可以直接进行选择。数据集成支持同步的数据源类型请参见支持的数据源与读写插件。
新建业务流程
新建离线同步节点
选择数据来源
选择数据去向
完成读取端数据源的配置后,您可以配置右侧的写入端数据源,以及需要写入的表信息等。
说明
- 选择写入端的数据源时,请参见配置Writer。
- 很多任务在写入时,需要选择写入模式,例如覆盖写入还是追加写入。针对不同的数据源,有不同的写入模式。
配置字段的映射关系
选择数据来源和数据去向后,需要指定读取端和写入端列的映射关系。您可以选择同名映射、同行映射、取消映射或自动排版。 

参数 | 描述 |
---|---|
同名映射 | 单击同名映射,可以根据名称建立相应的映射关系,请注意匹配数据类型。 |
同行映射 | 单击同行映射,可以在同行建立相应的映射关系,请注意匹配数据类型。 |
取消映射 | 单击取消映射,可以取消建立的映射关系。 |
自动排版 | 可以根据相应的规律自动排版。 |
手动编辑源表字段 | 请手动编辑字段,一行表示一个字段,首尾空行会被采用,其他空行会被忽略。 |
添加一行 |
|
说明 请注意列与列之间映射的字段类型是否数据兼容。
配置通道控制
配置完成上述操作后,需要进行通道控制。

参数 | 描述 |
---|---|
任务期望最大并发数 | 离线同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。 |
同步速率 | 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。 |
错误记录数 | 错误记录数,表示脏数据的最大容忍条数。 |
任务资源组 | 任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源的情况,建议购买独享数据集成资源或添加自定义资源组,详情请参见DataWorks独享资源和新增自定义资源组。 |
配置调度属性
离线同步节点中,经常需要使用调度参数进行数据过滤,下文将为您介绍如何在同步任务中配置调度参数。
进入离线同步节点的编辑页面,单击右侧的调度配置。
您可以通过${变量名}的方式声明调度参数变量。声明变量后,在调度的参数属性中输入变量的初始化值,此处变量初始化的值以$[]标识,其中的内容可以填写时间表达式或者一个常量。
例如,您在代码中输入${today},在调度参数中赋值today=$[yyyymmdd],则可以获取到当天的日期。如果需要对日期进行加减操作,请参见调度参数。
您可以设置离线同步节点的运行周期、运行时间和调度依赖等属性。由于离线同步节点是ETL工作的开始,所以没有上游节点,此时建议使用工作空间根节点作为上游。