全部产品
Search
文档中心

大数据开发治理平台 DataWorks:DRDS(PolarDB-X)数据源

更新时间:Feb 27, 2024

DRDS(PolarDB-X)数据源为您提供读取和写入DRDS(PolarDB-X)双向通道的功能,本文为您介绍DataWorks的DRDS(PolarDB-X)数据同步的能力支持情况。

支持的版本

实时读取

支持DRDS(PolarDB-X 1.0)和PolarDB-X 2.0的非只读实例。创建DRDS(PolarDB-X)实例的操作可参见创建PolarDB-X 1.0实例创建PolarDB-X 2.0实例

使用限制

离线读写

  • 目前DRDS(PolarDB-X)的插件仅适配MySQL引擎的场景。DRDS(PolarDB-X)是一套分布式MySQL数据库,并且大部分通信协议遵守MySQL使用场景。

  • DRDS(PolarDB-X)下的MySQL8.0版本仅支持使用独享数据集成资源组

  • 在底层实现上,DRDS(PolarDB-X) Writer通过JDBC连接远程DRDS(PolarDB-X)数据库的Proxy,执行相应的replace into语句,写入数据至DRDS(PolarDB-X)。

    执行的SQL语句是replace into,为避免数据重复写入,需要您的表具备主键(Primary Key)或唯一性索引(Unique index)。

  • DRDS(PolarDB-X) Writer通过数据同步框架获取Reader生成的协议数据,通过replace into(没有遇到主键/唯一性索引冲突时,与insert into行为一致,冲突时会用新行替换原有行所有字段)语句写入数据至DRDS(PolarDB-X)。DRDS(PolarDB-X) Writer累积一定数据,提交给DRDS(PolarDB-X)的Proxy,该Proxy内部决定数据是写入一张还是多张表,以及多张表写入时如何路由数据。

    说明

    整个任务至少需要具备replace into的权限。是否需要其它权限,取决于您配置任务时在preSql和postSql中指定的语句。

  • 支持读取视图表。

实时读

  • 目前仅支持使用实例模式配置的数据源,如果您使用JDBC连接串配置的数据源,任务运行将会出错。

  • 实例的存储类型:仅支持PolarDB(即租户侧PolarDB MySQL)和存量的用户RDS(新购已不支持),不支持RDS MySQL(即私有定制RDS MySQL)。

  • 不支持XA ROLLBACK。

    针对已经XA PREPARE的事务数据,实时同步会将其同步到目标端,如果XA ROLLBACK,实时同步不会针对XA PREPARE的数据做回滚写入的操作。若要处理XA ROLLBACK场景,需要手动将XA ROLLBACK的表从实时同步任务中移除,再添加表后重新进行同步。

支持的字段类型

DRDS(PolarDB-X) Reader和DRDS(PolarDB-X) Writer支持大部分DRDS(PolarDB-X)类型,但也存在个别类型没有支持的情况,请注意检查您的数据类型 。

DRDS(PolarDB-X) Reader和DRDS(PolarDB-X) Writer针对DRDS(PolarDB-X)类型的转换列表,如下所示。

类型分类

DRDS(PolarDB-X)数据类型

整数类

INT、TINYINT、SMALLINT、MEDIUMINT和BIGINT

浮点类

FLOAT、DOUBLE和DECIMAL

字符串类

VARCHAR、CHAR、TINYTEXT、TEXT、MEDIUMTEXT和LONGTEXT

日期时间类

DATE、DATETIME、TIMESTAMP、TIME和YEAR

布尔类

BIT和BOOL

二进制类

TINYBLOB、MEDIUMBLOB、BLOB、LONGBLOB和VARBINARY

数据同步前准备

您需要规划一个数据库的登录账户用于后续执行操作,此账号需要拥有DRDS(PolarDB-X)的相关操作权限,详情请参见新建账号

数据同步任务开发

DRDS(PolarDB-X)数据同步任务的配置入口和通用配置流程指导可参见下文的配置指导,详细的配置参数解释可在配置界面查看对应参数的文案提示。

创建数据源

在进行数据同步任务开发时,您需要在DataWorks上创建一个对应的数据源,操作流程请参见创建并管理数据源

单表离线同步任务配置指导

整库离线读、单表/整库全增量实时读同步配置指导

操作流程请参见数据集成侧同步任务配置

常见问题

  • 一致性视图问题

    DRDS(PolarDB-X)本身属于分布式数据库,对外无法提供一致性的多库多表视图。不同于MySQL等单库单表同步,DRDS(PolarDB-X) Reader无法抽取同一个时间切片的分库分表快照信息,即DRDS(PolarDB-X) Reader抽取底层不同的分表将获取不同的分表快照,无法保证强一致性。

  • 数据库编码问题

    DRDS(PolarDB-X)本身的编码设置非常灵活,包括指定编码到库、表、字段级别,甚至可以设置不同编码。优先级从高到低为字段、表、库、实例。建议您在库级别将编码统一设置为UTF-8。

    DRDS(PolarDB-X) Reader底层使用JDBC进行数据抽取,JDBC天然适配各类编码,并在底层进行了编码转换。因此DRDS(PolarDB-X) Reader不需要您指定编码,可以自动获取编码并转码。

    对于DRDS(PolarDB-X)底层写入编码和其设定的编码不一致的混乱情况,DRDS(PolarDB-X) Reader对此无法识别,该类情况的导出结果有可能为乱码。

  • 增量数据同步的方式

    DRDS(PolarDB-X) Reader使用JDBC SELECT语句完成数据抽取工作,因此您可以使用SELECT…WHERE…进行增量数据抽取,方式如下:

    • 数据库在线应用写入数据库时,填充modify字段为更改时间戳,包括新增、更新、删除(逻辑删除)。对于这类应用,DRDS(PolarDB-X) Reader只需要where条件后跟上一同步阶段时间戳即可。

    • 对于新增流水型数据,DRDS(PolarDB-X) Reader在where条件后跟上一阶段最大自增ID即可。

    对于业务上无字段区分新增、修改数据的情况,DRDS(PolarDB-X) Reader无法进行增量数据同步,只能同步全量数据。

  • 不支持在where语句中配置物理表相关的筛选条件。

附录:脚本Demo与参数说明

附录:离线任务脚本配置方式

如果您配置离线任务时使用脚本模式的方式进行配置,您需要在任务脚本中按照脚本的统一格式要求编写脚本中的reader参数和writer参数,脚本模式的统一要求请参见通过脚本模式配置离线同步任务,以下为您介绍脚本模式下的数据源的Reader参数和Writer参数的指导详情。

Reader脚本Demo

{
    "type":"job",
    "version":"2.0",//版本号
    "steps":[
        {
            "stepType":"drds",//插件名
            "parameter":{
                "datasource":"",//数据源名
                "column":[//列名
                    "id",
                    "name"
                ],
                "where":"",//过滤条件
                "table":"",//表名
                "splitPk": ""//切分键
            },
            "name":"Reader",
            "category":"reader"
        },
        {
            "stepType":"stream",//插件名
            "parameter":{},
            "name":"Writer",
            "category":"writer"
        }
    ],
    "setting":{
        "errorLimit":{
            "record":"0"//错误记录数
        },
        "speed":{
            "throttle":true,//当throttle值为false时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。
            "concurrent":1,//并发数
            "mbps":"12"//限流,此处1mbps = 1MB/s。
        }
    },
    "order":{
        "hops":[
            {
                "from":"Reader",
                "to":"Writer"
            }
        ]
    }
}

Reader脚本参数

参数

描述

是否必选

默认值

datasource

数据源名称,脚本模式支持添加数据源,该配置项填写的内容必须与添加的数据源名称保持一致。

table

所选取的需要同步的表。

column

所配置的表中需要同步的列名集合,使用JSON的数组描述字段信息,默认使用所有列配置,例如[*]

  • 支持列裁剪,即可以导出部分列。

  • 支持列换序,即可以不根据表Schema信息的顺序导出列。

  • 支持常量配置,您需要按照MySQL的语法格式。例如,["id", "`table`", "1", "'bazhen.csy'", "null", "to_char(a + 1)", "2.3", "true"]。示例中的参数说明如下:

    • id为普通列名。

    • table包含保留的列名。

    • 1为整型数字常量。

    • bazhen.csy为字符串常量。

    • null为空指针。

    • to_char(a + 1)为计算字符串长度函数表达式。

    • 2.3为浮点数。

    • true为布尔值。

  • column必须显示您指定同步的列集合,不允许为空 。

where

筛选条件,DRDS(PolarDB-X) Reader根据指定的columntablewhere条件拼接SQL,并根据该SQL进行数据抽取:

  • where条件可以有效地进行业务增量同步。

  • where条件不配置或者为空时,视作全表同步数据 。

例如,在测试时使用where条件指定实际业务场景。通常会选择当天的数据进行同步,您可以指定where条件为STRTODATE('${bdp.system.bizdate}','%Y%m%d') <= today AND today < DATEADD(STRTODATE('${bdp.system.bizdate}', '%Y%m%d'), interval 1 day)

Writer脚本Demo

{
    "type":"job",
    "version":"2.0",//版本号。
    "steps":[
        {
            "stepType":"stream",
            "parameter":{},
            "name":"Reader",
            "category":"reader"
                },
        {
            "stepType":"drds",//插件名。
            "parameter":{
                "postSql":[],//执行数据同步任务之后执行的SQL语句。
                "datasource":"",//数据源。
                "column":[//列名。
                "id"
                ],
                "writeMode":"insert ignore",
                "batchSize":"1024",//一次性批量提交的记录数大小。
                "table":"test",//表名。
                "preSql":[]//执行数据同步任务之前执行的SQL语句。
                },
            "name":"Writer",
            "category":"writer"
                }
                ],
    "setting":{
        "errorLimit":{
        "record":"0"//错误记录数。
            },
        "speed":{
            "throttle":true,//当throttle值为false时,mbps参数不生效,表示不限流;当throttle值为true时,表示限流。
            "concurrent":1, //作业并发数。
            "mbps":"12"//限流,此处1mbps = 1MB/s。
                }
            },
    "order":{
        "hops":[
            {
                "from":"Reader",
                "to":"Writer"
                }
            ]
        }
    }

Writer脚本参数

参数

描述

必选

默认值

datasource

数据源名称,脚本模式支持添加数据源,该配置项填写的内容必须与添加的数据源名称保持一致。

table

所选取的需要同步的表。

writeMode

选择导入模式,包括insert ignorereplace into

  • insert ignore:当主键或约束冲突时,忽略来源数据。

  • replace into:当主键或约束冲突时,使用来源数据替换目标数据。

insert ignore

column

目标表需要写入数据的字段,字段之间用英文逗号(,)分隔,例如"column": ["id", "name", "age"]。如果要依次写入全部列,使用(*)表示,例如"column": ["*"]

preSql

执行数据同步任务之前率先执行的SQL语句。目前向导模式仅允许执行一条SQL语句,脚本模式可以支持多条SQL语句。

例如delete * from table xxx;,表示同步写入数据前清理xxx表的数据。请根据自身需求进行配置。

postSql

执行数据同步任务之后执行的SQL语句。目前向导模式仅允许执行一条SQL语句,脚本模式可以支持多条SQL语句。

例如delete * from table xxx where xx=xx;,表示同步数据后,删除符合某条件的数据。请根据自身需求进行配置。

batchSize

一次性批量提交的记录数大小,该值可以极大减少数据同步系统与DRDS(PolarDB-X)的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程OOM异常。

1,024