通过向导模式配置各数据源间的单表离线同步任务，离线同步任务 - 大数据开发治理平台 DataWorks

数据集成提供向导式的开发引导，您无需编写任何代码，通过在界面勾选数据来源与去向，并结合DataWorks调度参数，实现将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍向导模式配置单表离线任务的常规配置，各数据源配置存在一定差异，请以支持的数据源及同步方案为准。

准备工作

已完成数据源配置。在设置数据集成同步任务之前，请确保已在DataWorks的数据源管理中配置好所需的源数据库和目标数据库。数据源配置详情请参见数据源列表。
说明
- 单表离线支持的数据源及其配置详情请参见支持的数据源及同步方案。
- 数据源相关能力介绍详情请参见：数据源管理。
已购买合适规格的资源组并与工作空间绑定。详情请参见：使用Serverless资源组。
资源组与数据源网络已打通。详情请参见：网络连通配置。
若需同步非当前工作空间绑定的 MaxCompute 表（如跨项目同步），需先将目标 MaxCompute 项目添加为 DataWorks 数据源，才能在同步任务中选择该表作为数据来源或数据去向。数据源配置详情请参见数据源管理。

步骤一：新建数据集成节点

新版数据开发

登录DataWorks控制台，切换至目标地域，单击左侧导航栏的数据开发与运维 > 数据开发，在下拉框中选择对应工作空间后单击进入Data Studio。
创建工作流。详情请参见：工作流。
创建数据集成节点。可以通过以下两种方式创建数据集成节点：
- 方式一：单击工作流列表右上方的，选择新建节点 > 数据集成。
- 方式二：双击工作流名称，将数据集成目录下的数据集成节点直接拖拽至右侧业务流程编辑面板。
配置节点的数据来源和去向类型，选择具体类型为单表离线，单击确认，完成新建。

旧版数据开发

登录DataWorks控制台，切换至目标地域，单击左侧导航栏的数据开发与运维 > 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。
创建业务流程。详情请参见：创建业务流程。
创建离线同步节点。可以通过以下两种方式创建离线同步节点：
- 方式一：展开业务流程，右键单击数据集成 > 新建节点 > 离线同步。
- 方式二：双击业务流程名称，将数据集成目录下的离线同步节点直接拖拽至右侧业务流程编辑面板。
根据界面提示创建离线同步节点。

步骤二：配置数据源与运行资源

本示例中，来源数据源类型选择MySQL，数据源选择mysql；去向数据源类型选择MaxCompute(ODPS)，数据源选择own_mc。资源组选择dwGroup，资源占用(CU)设置为0.5 CU。

在来源数据源和去向数据源中选择所需读取和写入的具体数据源对象。
在运行资源区域，选择同步任务所使用的资源组，并为该任务分配资源组CU。如果您的同步任务因资源不足出现OOM现象，请适当调整资源组的CU占用取值。资源配额的推荐配置详见：资源组性能指标-数据集成。
并确保来源数据源与去向数据源均通过连通性检查。若数据源与资源组网络不通，请参考界面提示或文档进行网络连通配置。详情请参见：网络连通配置。

说明

如果已创建资源组，但此处不展示资源组时，请确认资源组是否已绑定至工作空间。详情请参见：使用Serverless资源组。

步骤三：配置同步方案

在数据来源与数据去向的区域，配置任务读取与写入的表，及同步的数据范围。

重要

各插件配置存在一定差异，以下内容仅以常见配置为例进行说明，各插件是否支持相关配置以及配置的具体实现，请以具体插件配置文档为准。详情请参见数据源列表。

1. 数据来源

在数据来源区域，配置数据表。并根据界面提示填写所需参数。

操作

说明

配置数据过滤

部分源端类型支持数据过滤。您可以指定一个条件（WHERE子句，但无需填写where关键字）来筛选源端数据，任务运行时将仅同步满足该条件的数据。详情参见：场景：配置增量数据离线同步任务。
数据过滤仅支持 WHERE 子句条件表达式，不支持编写完整的 SELECT、JOIN 等 SQL 语句。如需在同步过程中执行复杂 SQL 查询（如调用 UDF 函数、多表 JOIN、内存中 SQL 转换等），向导模式不直接支持此类操作，建议采用分步方案：先通过 MaxCompute SQL 节点或 PyODPS 节点执行复杂逻辑和数据清洗，将结果写入临时表，再配置数据集成节点从临时表读取数据同步至最终目标端。
为了实现增量同步，您可以将此过滤条件与调度参数结合使用，使其动态变化。例如，通过gmt_create >= '${bizdate}'，任务每天运行时都将只同步当天的新增数据。同时，在配置调度属性时，需要为此处定义的变量赋值。详情参见：调度参数支持的格式。

不同数据源（插件）的增量同步配置方法有所不同。

当不配置数据过滤条件时，默认同步该表全量数据。

关系型数据库配置切分键

定义将源端待同步数据基于源端哪个字段进行切分，同步任务执行时将根据该字段切分为多个task，以便并发、分批读取数据。

推荐使用表主键作为splitPk，因为表主键通常情况下比较均匀，因此切分出来的分片也不容易出现数据热点。

目前splitPk仅支持整型数据切分，不支持字符串、浮点和日期等其他类型。如果您指定其他非支持类型，DataWorks将忽略splitPk功能，使用单通道进行同步。

如果不填写splitPk，包括不提供splitPk或者splitPk值为空，数据同步视作使用单通道同步该表数据。

并非所有插件均支持指定切分键配置任务切分逻辑，以上仅为示例，请以具体插件说明为准。详情请参见数据源列表。

2. 数据处理

重要

数据处理为新版数据开发功能，旧版数据开发需在创建任务时勾选使用新版界面（带数据处理功能）后，才可以使用。推荐将旧版工作空间升级为新版，以使用更全面的功能：Data Studio 升级指南。

数据处理支持将来源表中的数据通过字符串替换、AI辅助处理、数据向量化等方式，将处理后的数据写入目标表。

以字符串替换为例，配置项包括名称和描述。替换规则中需选择字段名，填写被替换的内容（支持正则匹配和大小写匹配）及要替换成的内容，可单击新增规则添加多条替换规则，并通过右上角数据输出预览查看处理结果。

单击开启按钮，打开数据处理开关。
在数据处理列表中单击添加节点，选择数据处理类型：字符串替换、AI辅助处理、数据向量化。数据处理节点支持添加多个，DataWorks将按照顺序进行处理。
根据界面提示，配置数据的处理规则。其中AI辅助处理和数据向量化可参考：数据处理。
说明
数据处理需要额外占据计算资源，增加任务的资源占用开销。同时增加数据同步任务运行的时长，请尽量减轻处理过程的复杂度，避免影响同步效率。

3. 数据去向

在数据去向区域，配置数据表。并根据界面提示填写所需参数。

操作

说明

配置同步前后执行语句

部分数据源支持在同步前（数据写入目标端数据源前）与同步完成后（数据写入目标端后），在目标端执行相关数据库SQL。

示例：MySQL Writer支持配置preSql与postSql，即在数据写入MySQL前或后，可以执行一些MySQL命令。例如在MySQL Writer端导入前准备语句（preSql）配置项中配置MySQL清空表命令truncate table tablename，实现同步前（写入MySQL数据前）先清空表中的旧数据的操作。

定义冲突时的写入模式

定义路径或主键等场景冲突时以何种方式写入目标端。该配置根据数据源本身特性及writer插件支持情况而定，此处配置不同。您需要参考具体writer插件进行配置。

MaxCompute 分区表配置说明

当数据去向为 MaxCompute 分区表时，请注意以下事项：

分区字段识别：DataWorks 会自动识别 MaxCompute 目标表的分区结构。若界面仅显示部分分区字段，请检查该表在开发环境和生产环境中是否均已正确定义所有分区字段。若任务运行报错并提示需配置表分区信息，请在去向配置中补全分区参数。
字段映射刷新：当源端或目标端新增字段后，若字段映射区域未显示新字段，可尝试以下方法刷新缓存：
1. 确认开发环境和生产环境的表结构已同步更新。
2. 在配置页面切换选择其他表，再切回原表以刷新缓存。
3. 如仍未刷新，可重启浏览器或使用无痕模式重新进入配置页面。

4. 配置字段映射关系

选择数据来源和数据去向后，需要指定读取端和写入端列的映射关系。配置字段映射关系后，任务将根据字段映射关系，将源端字段写入目标端对应类型的字段中。

当源端某字段未与目标端字段进行映射时，源端该字段数据将不会同步到目标端。
若自动映射与期望的映射不同时，需手动调整映射。
如果不需要某个字段的映射关系，您可以手动删除源端与目标字段映射的连线，源端该字段数据将不会同步到目标端。

同步过程中可能存在源端与目标端字段类型不匹配，产生脏数据，导致数据无法正常写入目标端。关于同步过程中脏数据的容忍条数，请参考下一步高级配置进行配置。

支持同名映射、同行映射、智能映射和规则映射。在使用过程中，您还可以：

智能映射：为了提升配置效率，降低人工匹配错误率，数据集成现已支持智能字段映射功能。系统基于 AI 语义分析，自动识别源表与目标表的字段名称、数据类型及注释，一键推荐最优映射关系。您只需确认推荐结果或进行微调即可完成配置。

在字段映射区域单击智能映射，打开智能映射对话框。您可以用自然语言描述映射需求，

适用场景	典型特征示例	推荐提示词
全局语义匹配	字段名完全不同但含义一致 (例：`user_id` ↔ `device_id`)	`请对源表和目标表的所有字段进行语义匹配，自动识别含义相同的字段。`
特定业务域匹配	仅需映射某类业务字段 (例：只关注“用户”或“订单”)	`仅将源表中包含“用户信息”（如姓名、手机号、ID）的字段，映射到目标表的对应字段。` （注：可替换关键词为“订单”、“物流”、“支付”等）
前缀/后缀规范差异	核心名相同，但前后缀不同 (例：`src_user_name` ↔ `tgt_user_name`)	`忽略字段的前缀和后缀差异，仅根据核心名称进行语义匹配。`
缩写与全称匹配	一方使用缩写，一方使用全称 (例：`amt` ↔ `amount`)	`识别常见的英文缩写与全称对应关系（如 amt=amount, addr=address），并建立映射。`
排除特定字段	某些字段虽相似但不需要同步 (例：不需要 `create_time`)	`进行语义匹配，但请排除所有包含“时间”或“日志”字样的字段。`
复杂逻辑修正	自动匹配结果有误，需人工引导	`不要将源表的 id 字段映射到目标表的 order_id，请重新生成映射建议。`

输入完成后，单击生成预览，系统会在匹配结果预览区域展示建议的映射关系。您可以逐条查看并勾选需要的映射，最后单击应用将选中的映射添加到字段映射中。如果对结果不满意，可以调整描述后重新生成预览。

规则映射：当源端与目标端字段名存在规律性的差异时，您可以使用规则映射功能，通过配置前后缀匹配或字符替换等规则，批量建立字段映射关系。在字段映射区域单击规则映射，选择映射方式和映射规则，配置完成后预览映射结果，确认无误后单击应用。
为目标字段赋值：通过在源表字段列添加字段的方式，为目标表添加常量、调度参数、内置变量。例如，'123'，'${调度参数}'，'#{内置变量}#'。
说明
关于调度参数的使用详情请参见：调度参数支持的格式。

添加内置变量：您可以通过手动添加内置变量，映射到目标字段，将内置变量输出到下游。

各个插件可用内置变量如下：

内置变量	变量说明	支持插件
'`#{DATASOURCE_NAME_SRC}#`'	来源数据源名称	MySQL Reader MySQL（分库分表）Reader PolarDB Reader PolarDB（分库分表）Reader PostgreSQL Reader PolarDB-O Reader PolarDB-O（分库分表）Reader
'`#{DB_NAME_SRC}#`'	来源表所在的数据库名称	MySQL Reader MySQL（分库分表）Reader PolarDB Reader PolarDB（分库分表）Reader PostgreSQL Reader PolarDB-O Reader PolarDB-O（分库分表）Reader
'`#{SCHEMA_NAME_SRC}#`'	来源表所在的模式名称	PolarDB Reader PolarDB（分库分表）Reader PostgreSQL Reader PolarDB-O Reader PolarDB-O（分库分表）Reader
'`#{TABLE_NAME_SRC}#`'	来源表名称	MySQL Reader MySQL（分库分表）Reader PolarDB Reader PolarDB（分库分表）Reader PostgreSQL Reader PolarDB-O Reader PolarDB-O（分库分表）Reader
'`#{FILE_NAME_SRC}#`'	文件名	OSS Reader HDFS Reader FTP Reader TOS Reader COS Reader S3 Reader Azure Blob Reader
'`#{FILE_PATH_SRC}#`'	文件绝对路径	OSS Reader HDFS Reader FTP Reader TOS Reader COS Reader S3 Reader Azure Blob Reader

编辑源端字段：您可以通过单击手动编辑映射关系实现如下功能：
- 使用源端数据库支持的函数，对字段进行函数处理，例如，通过Max（id）控制仅同步最大值。
- 在字段映射未拉取全部字段的情况下，手动编辑源端字段。
说明
MaxCompute Reader暂不支持使用函数。

步骤四：高级配置

重要

高级配置即旧版数据同步中的通道控制功能。

您可通过高级配置，控制数据同步过程相关属性。相关参数说明详情可参见离线同步并发和限流之间的关系。

参数	描述
任务期望最大并发数	用于定义当前任务从源端并行读取或并行写入目标端的最大线程数。说明由于资源规格等原因，实际执行时并发数可能小于或等于此处配置的并发数，调试资源组收费将按照实际执行的并发数收费。详情请参见：性能指标。任务调度收费与单表离线任务个数有关，和任务配置的并发无关。
同步速率	用于控制同步速率。限流：您可以通过限流控制同步速率，以保护读取端数据库，避免抽取速度过大，给源库造成太大的压力。限速最小配置为1MB/s。不限流：在不限流的情况下，任务将在所配置的并发数的限制基础上，提供现有硬件环境下最大的传输性能。说明流量度量值是数据集成本身的度量值，不代表实际网卡流量。通常，网卡流量是通道流量膨胀的1至2倍，实际流量膨胀取决于具体的数据存储系统传输序列化情况。
脏数据策略	脏数据指数据写入目标端时因异常（如类型冲突、约束违反）导致失败的数据记录。单表离线支持定义脏数据策略，可定义脏数据容忍条数及对任务的影响。不配置时默认允许脏数据，即任务产生脏数据时不影响任务执行。配置为0，表示不允许脏数据存在。如果同步过程中产生脏数据，任务将失败退出。允许脏数据并设置其阈值时：若产生的脏数据在阈值范围内，同步任务将忽略脏数据（即不会写入目标端），并正常执行。若产生的脏数据超出阈值范围，同步任务将失败退出。重要当脏数据过多时，会影响同步任务的整体同步速度。
分布式处理能力	用于控制是否开启分布式模式来执行当前任务。开启：分布式执行模式可以将您的任务切片分成多个进程并发执行，突破单进程执行瓶颈，提高同步效率。未开启：保持单个进程运行。如果您对同步性能有比较高的诉求可以使用分布式模式。另外分布式模式也可以利用机器的碎片资源，对资源利用率友好。重要并发数大于等于8个才能开启分布式处理能力。开启分布式处理开关会占用更多资源，如运行时报错内存溢出（OOM），可尝试关闭此开关。
时区	若源端和目标端需进行跨时区同步，可以通过设置源端时区来进行时区转换。

说明

任务整体同步速度除受到上述配置影响外，还受源端数据源性能，同步网络环境等多方面影响，关于同步速率说明与调优，详情请参见离线同步提速或限速。

步骤五：配置调度属性

周期性调度的单表离线任务需要配置任务自动调度时的相关属性，进入节点的编辑页面，单击右侧的调度配置，配置节点调度属性。

您需为同步任务配置调度参数、调度策略、调度时间和调度依赖，配置方式与其他数据开发节点一样。此处不再重复叙述。

新版数据开发调度配置参见：节点调度（新版）。
旧版数据开发调度配置参见：节点调度配置（旧版）。

调度参数使用说明请参见：调度参数在数据集成的典型应用场景。

步骤六：测试并发布任务

配置运行参数。

在单表离线任务配置页面右侧单击运行配置，配置以下参数，用于测试运行任务使用。

配置项	配置说明
资源组	选择与数据源连通的资源组。
脚本参数	为数据同步中的占位符参数进行赋值。例如：若数据集成中配置了`${bizdate}`参数，则需配置格式为`yyyymmdd`的日期参数。

运行任务。
单击工具栏的运行按钮，可以在数据开发中对任务进行运行调试。后续，您可以创建目标表类型对应的节点类型来查询目标表数据，确认同步后的数据是否符合预期。
发布任务。
任务测试运行成功后，若任务需要进行周期性调度运行，您需要单击节点编辑页面上方的按钮，将任务发布至生产环境。关于任务发布，详情请参见：发布任务。

使用限制

单表离线任务仅支持在数据开发中配置。
部分数据源不支持使用向导模式配置单表离线任务。
您在选择数据源后，如果系统提示当前数据源不支持向导模式。您可单击工具栏中的图标，切换至脚本模式继续配置任务。详情请参见脚本模式配置。
向导模式的学习成本低，但向导模式无法支持部分高级功能。如果您需要实现更精细化的配置管理，您可以单击工具栏中的转换脚本图标，切换到脚本模式配置单表离线任务。
向导模式下的单表离线任务仅支持配置单张表的同步以及部分分库分表同步（分库分表同步仅部分数据源类型支持，且要求表结构一直），不支持整库同步（包含表结构和数据的批量同步）。如需整库同步，请参见整库离线同步任务。
离线同步任务不能直接转换为实时同步任务。如需实时数据同步，请新建单表实时同步任务节点。
发布任务时若提示节点名称过长，可在发布页面的高级配置中修改节点名称，确保名称长度不超过 128 个字符。

后续步骤

任务发布至生产环境后，您可进入生产环境运维中心查看该调度任务，关于数据集成任务的运行与管理、状态监控、资源组运维等操作详情请参见：离线同步任务运维。

大数据开发治理平台 DataWorks：通过向导模式配置单表离线任务