本文为您介绍MySQL Writer支持的数据类型、字段映射和数据源等参数及配置示例。
前提条件
开始配置MySQL Writer插件前,请首先配置好数据源,详情请参见配置MySQL数据源。
背景信息
MySQL Writer插件实现了写入数据至MySQL数据库目标表的功能。在底层实现上,MySQL Writer通过JDBC连接远程MySQL数据库,并执行相应的insert into
或replace into
语句,写入数据至MySQL。数据库本身采用InnoDB引擎,以分批次提交数据入库。
MySQL Writer作为数据迁移工具,为数据库管理员等用户提供服务。根据您配置的writeMode,通过数据同步框架获取Reader生成的协议数据。
说明 整个任务必须具备
insert/replace into
的权限。您可以根据配置任务时,在preSql和postSql中指定的语句,判断是否需要其它权限。
类型转换列表
目前MySQL Writer支持大部分MySQL类型,但也存在个别类型没有支持的情况,请注意检查您的数据类型。
MySQL Writer针对MySQL类型的转换列表,如下所示。
类型分类 | MySQL数据类型 |
---|---|
整数类 | INT、TINYINT、SMALLINT、MEDIUMINT、BIGINT和YEAR |
浮点类 | FLOAT、DOUBLE和DECIMAL |
字符串类 | VARCHAR、CHAR、TINYTEXT、TEXT、MEDIUMTEXT和LONGTEXT |
日期时间类 | DATE、DATETIME、TIMESTAMP和TIME |
布尔型 | BOOL |
二进制类 | TINYBLOB、MEDIUMBLOB、BLOB、LONGBLOB和VARBINARY |
参数说明
参数 | 描述 | 是否必选 | 默认值 |
---|---|---|---|
datasource | 数据源名称,脚本模式支持添加数据源,此配置项填写的内容必须与添加的数据源名称保持一致。 | 是 | 无 |
table | 选取的需要同步的表名称。 | 是 | 无 |
writeMode | 选择导入模式,可以支持insert into、on duplicate key update和replace into三种方式:
|
否 | insert into |
column | 目标表需要写入数据的字段,字段之间用英文所逗号分隔,例如"column": ["id", "name", "age"] 。如果要依次写入全部列,使用星号(*)表示, 例如"column": ["*"] 。
|
是 | 无 |
preSql | 执行数据同步任务之前率先执行的SQL语句。目前向导模式仅允许执行一条SQL语句,脚本模式可以支持多条SQL语句。例如,执行前清空表中的旧数据(truncate table
tablename)。
说明 当有多条SQL语句时,不支持事务。
|
否 | 无 |
postSql | 执行数据同步任务之后执行的SQL语句,目前向导模式仅允许执行一条SQL语句,脚本模式可以支持多条SQL语句。例如,加上某一个时间戳alter table tablename add colname timestamp DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP 。
说明 当有多条SQL语句时,不支持事务。
|
否 | 无 |
batchSize | 一次性批量提交的记录数大小,该值可以极大减少数据同步系统与MySQL的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程OOM异常。 | 否 | 1,024 |
向导开发介绍
打开新建的数据同步节点,即可进行同步任务的配置,详情请参见通过向导模式配置任务。
您需要在数据同步任务的编辑页面进行以下配置:
- 选择数据源。
配置同步任务的数据来源和数据去向。
参数 描述 数据源 即上述参数说明中的datasource,通常填写您配置的数据源名称。 表 即上述参数说明中的table。 导入前准备语句 即上述参数说明中的preSql,输入执行数据同步任务之前率先执行的SQL语句。 导入后完成语句 即上述参数说明中的postSql,输入执行数据同步任务之后执行的SQL语句。 主键冲突 即上述参数说明中的writeMode,可以选择需要的导入模式。 - 字段映射,即上述参数说明中的column。左侧的源头表字段和右侧的目标表字段为一一对应的关系。
参数 描述 同名映射 单击同名映射,可以根据名称建立相应的映射关系,请注意匹配数据类型。 同行映射 单击同行映射,可以在同行建立相应的映射关系,请注意匹配数据类型。 取消映射 单击取消映射,可以取消建立的映射关系。 自动排版 可以根据相应的规律自动排版。 - 通道控制。
参数 描述 任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。 同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。 错误记录数 错误记录数,表示脏数据的最大容忍条数。
脚本开发介绍
脚本配置示例如下,使用脚本模式开发的详情请参见通过脚本模式配置任务。
{
"type":"job",
"version":"2.0",//版本号。
"steps":[
{
"stepType":"stream",
"parameter":{},
"name":"Reader",
"category":"reader"
},
{
"stepType":"mysql",//插件名。
"parameter":{
"postSql":[],//导入后的准备语句。
"datasource":"",//数据源。
"column":[//列名。
"id",
"value"
],
"writeMode":"insert",//写入模式,您可以设置为insert、replace或update。
"batchSize":1024,//一次性批量提交的记录数大小。
"table":"",//表名。
"preSql":[
"delete from XXX;" //导入前的准备语句。
]
},
"name":"Writer",
"category":"writer"
}
],
"setting":{
"errorLimit":{//错误记录数。
"record":"0"
},
"speed":{
"throttle":false,//是否限流。
"concurrent":1 //并发数。
}
},
"order":{
"hops":[
{
"from":"Reader",
"to":"Writer"
}
]
}
}