整库离线同步(一次性全量周期性增量)适用于需要将某些表数据进行全量同步后周期性增量同步到MaxCompute的场景。完成数据源、网络、资源的准备工作配置后,您可以创建并执行同步任务。本文为您介绍如何创建一次性全量周期性增量数据同步任务,并在创建完成后查看任务运行情况。
前提条件
创建数据同步任务前,需检查已完成以下准备操作。
创建同步解决方案任务
- 进入同步解决方案页面后,根据待同步的来源数据源和去向数据源(本场景去向数据源为MaxCompute),选择同步解决方案(本场景为整库离线同步至MaxCompute(一次性全量周期性增量))。操作详情请参见选择同步方案。
- 配置同步网络链接。根据界面提示选择数据来源、独享数据集成资源组、数据去向,并测试网络连通性,完成后单击下一步。请务必参考资源规划与配置提前规划好所用的资源组与网络连通方案,并将数据源添加至DataWorks中,完成白名单等网络连通所需配置,避免网络连通测试失败。
- 设置同步来源和规则。
- 配置基本信息。在基本配置区域,配置各项参数。
参数 描述 方案名称 同步解决方案的名称,最多支持50个字符。 描述 对当前方案进行简单描述,最多支持50个字符。 目标任务存放位置 默认创建一个新的业务流程,所有任务均以clone_database_源端数据源名称+to+目标数据源名称的命名方式存放至数据集成目录下。 您也可以取消自动建立工作流程,在选择位置下拉列表中指定存放目标任务的路径。
- 确认数据来源信息。页面展示上述步骤选择的数据来源结果并为您默认选择了数据来源的编码信息,您需确认数据来源是否正确、是否需要修改编码类型。
- 选择同步的源表。根据界面提示,选择待同步的来源数据源中的源表。后续选中的表即会通过同步方案的配置从来源数据源同步至MaxCompute。注意 如果选中的表没有主键,将无法进行实时同步。
- 设置表名的映射规则。单击添加规则,选择相应的规则进行添加。同步规则包括源表名和目标表名转换规则和目标表名规则:
- 源表名和目标表名转换规则:转换表名为目标表名,进行字符串替换。
- 目标表名规则:支持对转换后的表名添加前缀和后缀。
- 单击下一步。
- 配置基本信息。
- 设置目标表。
- 页面展示上述步骤选择的去向数据源,确认去向数据源正确。
- 单击时间自动分区设置后的
图标,在编辑对话框中,修改目标MaxCompute分区的设置。
- 单击刷新源表和MaxCompute(ODPS)表映射,创建需要同步的源表和目标MaxCompute表的映射关系。
- 查看任务的执行进度和表来源。
序号 描述 ① 显示映射关系的创建进度。说明 如果同步的表数量较多,会导致执行进度较慢,请耐心等待。② 表建立方式包括自动建表和使用已有表。 ③ 选择的表建立方式不同,此处显示的MaxCompute表名也不同:- 当选择表建立方式为自动建表时,显示自动创建的MaxCompute表名称。您可以单击表名称,查看和修改建表语句。
- 当选择表建立方式为使用已有表时,请在下拉列表中选择需要的表。
④ 暂不支持同步没有主键的表。但只要选择的表中包括有主键的表,会正常执行流程,没有主键的表会被忽略。 - 单击下一步。
- 设置同步规则。
- 配置增量同步的数据规则。
参数 描述 写入前清空对应的原有表 根据实际情况选择是否要打开此开关。打开后,后续进行数据同步时,每次向MaxCompute写入数据前,均会删除MaxCompute表内原有的数据,建议您谨慎打开此开关。 - 配置增量同步的数据规则。
您可通过where语句对待同步的数据表进行过滤,且只需在增量条件框中填写where子句,无需写where关键字。同时,在写where子句时,您可以使用系统内置变量,例如使用
${bizdate}
指代业务日期、使用${cyctime}
指代定时时间等,系统内置变量的类型与使用方法请参见调度参数概述。 - 配置增量同步的数据规则。
您可通过where语句对待同步的数据表进行过滤,且只需在增量条件框中填写where子句,无需写where关键字。同时,在写where子句时,您可以使用系统内置变量,例如使用
${bizdate}
指代业务日期、使用${cyctime}
指代定时时间等,系统内置变量的类型与使用方法请参见调度参数概述。 - 配置数据同步的调度周期。
- 单击下一步。
- 配置增量同步的数据规则。
- 运行资源设置。在运行资源设置页面,确认同步任务的任务名、所需的同步资源和调度资源,并配置来源端读取支持最大连接数。说明 来源端读取支持最大连接数需结合来源端的数据库能力,设置源库允许支持的最大JDBC连接数。如果设置的连接数过大,有可能在读取源端数据库的数据时,造成源端数据库因连接数过大而无法正常连接读数。
- 单击完成配置,完成数据同步解决方案任务创建。
执行数据同步解决方案任务
在解决方案任务列表页面,单击相应任务后的提交执行,运行创建的数据同步解决方案任务。
查看运行状态及结果
- 在解决方案任务列表页面,单击已运行任务后的执行详情,查看当前解决方案数据同步过程中各子任务节点的运行详情。
- 单击子任务节点后的执行详情,可在弹窗中单击任务链接进入子节点的数据开发页面。