本文为您介绍如何使用DataWorks的数据同步功能将MaxCompute数据迁移至对象存储OSS(Object Storage Service)。
操作步骤
- 在DataWorks上创建表。
- 登录DataWorks控制台。
- 在左侧导航栏,单击工作空间列表。
- 单击相应工作空间后的进入数据开发。
- 右键单击已创建的业务流程,选择。
- 在新建表页面,选择引擎类型并输入表名。
- 在表的编辑页面,单击DDL模式。
- 在DDL模式对话框,输入如下建表语句,单击生成表结构。
create table Transs
(name string,
id string,
gender string);
- 单击提交到生产环境。
- 为表Transs导入数据。
- 在数据开发页面,单击
图标。
- 在数据导入向导对话框,至少输入3个字母来搜索需要导入数据的表,单击下一步。
- 选择数据导入方式为上传本地数据,单击选择文件后的浏览...。选择本地数据文件,配置导入信息。
示例数据如下。
qwe,145,F
asd,256,F
xzc,345,M
rgth,234,F
ert,456,F
dfg,12,M
tyj,4,M
bfg,245,M
nrtjeryj,15,F
rwh,2344,M
trh,387,F
srjeyj,67,M
saerh,567,M
- 单击下一步。
- 选择目标表字段与源字段的匹配方式。
- 单击导入数据。
- 在OSS控制台上创建表。
- 登录OSS控制台,创建Bucket。详情请参见创建存储空间。
- 上传文件qwee.csv至OSS。详情请参见上传文件。
说明 请确保qwee.csv文件中的字段与表transition的字段完全一致。
- 在DataWorks上新增数据源。
- 登录DataWorks控制台。
- 在左侧导航栏,单击工作空间列表。
- 单击相应工作空间后的进入数据集成。
- 在左侧导航栏上,单击数据源,进入数据源管理页面。
- 单击右上角新增数据源,并选择数据类型为ODPS。
- 在新增ODPS数据源对话框中配置参数,并单击完成。详情请参见配置MaxCompute数据源。
- 新增OSS数据源,详情请参见配置OSS数据源。
- 配置MaxCompute(ODPS)Reader和对象存储(OSS)Writer。
- 进入数据开发页面,右键单击指定业务流程,选择。
- 在新建节点对话框中,输入节点名称,并单击提交。
- 在顶部菜单栏上,单击
图标。
- 在脚本模式下,单击顶部菜单栏上的
图标。
- 在导入模板对话框中选择来源类型、数据源、目标类型及数据源,并单击确定。
- 修改JSON代码后,单击
图标。
示例代码如下。
{
"order":{
"hops":[
{
"from":"Reader",
"to":"Writer"
}
]
},
"setting":{
"errorLimit":{
"record":"0"
},
"speed":{
"concurrent":1,
"dmu":1,
"throttle":false
}
},
"steps":[
{
"category":"reader",
"name":"Reader",
"parameter":{
"column":[
"name",
"id",
"gender"
],
"datasource":"odps_first",
"partition":[],
"table":"Transs"
},
"stepType":"odps"
},
{
"category":"writer",
"name":"Writer",
"parameter":{
"datasource":"Trans",
"dateFormat":"yyyy-MM-dd HH:mm:ss",
"encoding":"UTF-8",
"fieldDelimiter":",",
"fileFormat":"csv",
"nullFormat":"null",
"object":"qweee.csv",
"writeMode":"truncate"
},
"stepType":"oss"
}
],
"type":"job",
"version":"2.0"
}
- 在OSS控制台中查看新增的表数据。详情请参见下载文件。