DataWorks的数据上传功能支持将本地文件、数据分析的电子表格、OSS文件等数据上传至MaxCompute、EMR Hive、Hologres等引擎进行分析及管理,为您提供便捷的数据传输服务,助力您快速实现数据驱动业务。本文为您介绍如何使用数据上传功能上传数据。
使用限制
数据来源限制:仅支持上传本地文件、DataWorks数据分析的电子表格、阿里云对象存储OSS的数据。
本地文件:
支持
CSV
、XLSX
格式,CSV
文件最大支持上传数据的数据量为5GB,XLSX
文件最大支持上传的数据量为100MB。默认上传文件的第一个Sheet。如需上传某个文件的多个Sheet数据,则需将每个Sheet创建一个表格且作为表格的首个Sheet。
阿里云对象存储OSS:仅支持上传与当前DataWorks工作空间同地域的Bucket数据。
目标引擎限制:仅支持将数据上传至MaxCompute、EMR Hive、Hologres引擎。
资源组限制:数据上传功能需指定调度资源组和数据集成资源组。
上传数据至MaxCompute引擎:
支持使用公共资源组及独享资源组,且需确保数据上传任务使用的数据源与所选资源组网络连通。
所选独享资源组需绑定至待接收数据的表所在的DataWorks工作空间。
上传数据至EMR Hive、Hologres引擎:
仅支持使用独享资源组(即
相应引擎必须配置为独享调度资源组和独享数据集成资源组)。所选资源组需绑定至待接收数据的表所在的DataWorks工作空间,且需确保数据上传任务使用的数据源与所选资源组网络连通。
说明通过数据分析配置引擎使用的资源组,请参见系统管理。
配置数据源与资源组网络连通,请参见配置资源组与网络连通。
配置独享资源组绑定的归属工作空间,请参见使用独享调度资源组、使用独享数据集成资源组。
计费说明
数据上传会产生引擎费用,由引擎侧收取。收费详情请参见相应引擎文档的计费介绍。
前提条件
已创建所需引擎数据源,用于存放待上传数据。后续您可在该数据源中进行相关数据的分析及管理操作。请按需创建MaxCompute数据源、EMR Hive数据源(阿里云实例模式)或Hologres数据源。
(可选)上传阿里云对象存储OSS数据,需满足如下条件:
进入数据上传
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
单击左上角的图标,选择
。在上传与下载页面单击左侧导航栏的图标,进入数据上传页面。
单击数据上传,根据界面指引上传目标数据。
上传目标数据
DataWorks支持将本地文件数据、数据分析的电子表格数据、对象存储OSS数据上传至MaxCompute、EMR Hive或Hologres引擎,不同数据的上传配置存在差异,具体如下。
上传本地文件数据
选择待上传数据。
数据来源:选择本地文件。
指定待上传数据:根据界面指引将本地文件拖拽至选择文件区域,并设置是否需要剔除脏数据。
是:如遇脏数据,平台会自动忽略,继续上传数据。
否:如遇脏数据,平台不会自动忽略,此次数据上传将被阻断。
说明支持
CSV
、XLSX
格式,CSV
文件最大支持上传数据的数据量为5GB,XLSX
文件最大支持上传的数据量为100MB。默认上传文件的第一个Sheet。如需上传某个文件的多个Sheet数据,则需将每个Sheet创建一个表格且作为表格的首个Sheet。
脏数据:例如,文件里某个单元格的数据为字符串类型,但映射到了目标表的INT类型字段,则该行数据会写入失败,该行数据为脏数据。具体的脏数据请以平台的实际判断逻辑为准。
配置存放待上传数据的目标表。
您可选择将待上传数据存放至指定引擎数据源的已有表或新建表。
参数说明如下。
参数
描述
目标引擎
仅支持将数据上传至MaxCompute、EMR Hive、Hologres引擎。
MaxCompute项目名称或数据源
存放待上传数据的项目或数据源,不同引擎需要配置的参数不同,具体参考实际界面。
说明EMR Hive仅支持选择阿里云实例模式创建的数据源。
区分生产项目(PROD)及开发项目(DEV):
选择生产项目:目标表仅支持选择生产表。
选择开发项目:目标表仅支持选择开发表。
目标表(上传数据至已有表)
选择目标表:存放待上传数据的表。支持通过关键字匹配搜索。
说明若上传数据至MaxCompute生产表,则当前登录账号需要为该表的Owner。
上传方式:选择以哪种方式将待上传数据添加至目标表中。该参数需要与步骤3(配置的源文件与目标表的映射关系)配合使用。
先清空表数据:先清空目标表数据,再全量将数据导入至目标表中相应的映射字段。
追加:将待上传数据追加至目标表相应映射字段中。
主键冲突策略:若上传数据导致目标表主键冲突,可采取如下处理策略。
忽略:忽略上传的数据,目标表中的数据不会更新。
更新(replace):上传的数据会全量覆盖目标表的旧数据,未配置列映射的字段强制写为NULL。
更新(update):上传的数据覆盖目标表的旧数据,但仅覆盖配置有列映射的字段数据。
说明仅Hologres引擎需要配置该参数。
目标表(上传数据至新建表)
表名:自定义表名称。
表类型:根据需要选择非分区表或分区表。若选择分区表,则需指定分区字段及其取值。
说明EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理。
预览待上传数据并设置目标表字段。
选择待上传数据及存放该数据的目标表后,您可预览数据详情,并配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。
说明目前仅支持预览前20条数据。
参数说明如下。
参数
描述
预览数据并设置目标表字段(上传数据至已有表)
需配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。映射方式包括按列名映射及按顺序映射。映射后您也可自定义目标表的字段名称。
说明若待上传数据与目标表字段不存在映射关系,则该数据将会被置灰,且不会被上传。
待上传数据与目标表字段不能存在重复映射关系。
字段名称和字段类型不能为空,否则数据无法上传。
预览数据并设置目标表字段(上传数据至新建表)
可通过智能字段生成自动填充字段信息,也可手动修改字段信息。
说明字段名称和字段类型不能为空,否则数据无法上传。
EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理。
文件编码
若数据存在乱码,则可切换编码格式。支持选择UTF-8、GB18030、Big5。
忽略首行
是否将文件数据的首行(通常为列名称)上传至目标表中。
勾选:文件首行不上传至目标表中。
不勾选:文件首行将上传至目标表中。
单击数据上传,开始上传数据。
上传数据分析电子表格数据
选择待上传数据。
数据来源:选择电子表格。
指定待上传数据:选择已创建的电子表格,并设置是否需要剔除脏数据。
是:如遇脏数据,平台会自动忽略,继续上传数据。
否:如遇脏数据,平台不会自动忽略,此次数据上传将被阻断。
配置存放待上传数据的目标表。
您可选择将待上传数据存放至指定引擎数据源的已有表或新建表。
参数说明如下。
参数
描述
目标引擎
仅支持将数据上传至MaxCompute、EMR Hive、Hologres引擎。
MaxCompute项目名称或数据源
存放待上传数据的项目或数据源,不同引擎需要配置的参数不同,具体参考实际界面。
说明EMR Hive仅支持选择阿里云实例模式创建的数据源。
区分生产项目(PROD)及开发项目(DEV):
选择生产项目:目标表仅支持选择生产表。
选择开发项目:目标表仅支持选择开发表。
目标表(上传数据至已有表)
选择目标表:存放待上传数据的表。支持通过关键字匹配搜索。
说明若上传数据至MaxCompute生产表,则当前登录账号需要为该表的Owner。
上传方式:选择以哪种方式将待上传数据添加至目标表中。该参数需要与步骤3(配置的源文件与目标表的映射关系)配合使用。
先清空表数据:先清空目标表数据,再全量将数据导入至目标表中相应的映射字段。
追加:将待上传数据追加至目标表相应映射字段中。
主键冲突策略:若上传数据导致目标表主键冲突,可采取如下处理策略。
忽略:忽略上传的数据,目标表中的数据不会更新。
更新(replace):上传的数据会全量覆盖目标表的旧数据,未配置列映射的字段强制写为NULL。
更新(update):上传的数据覆盖目标表的旧数据,但仅覆盖配置有列映射的字段数据。
说明仅Hologres引擎需要配置该参数。
目标表(上传数据至新建表)
表名:自定义表名称。
表类型:根据需要选择非分区表或分区表。若选择分区表,则需指定分区字段及其取值。
说明EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理。
预览待上传数据并设置目标表字段。
选择待上传数据及存放该数据的目标表后,您可预览数据详情,并配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。
说明目前仅支持预览前20条数据。
参数说明如下。
参数
描述
预览数据并设置目标表字段(上传数据至已有表)
需配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。映射方式包括按列名映射及按顺序映射。映射后您也可自定义目标表的字段名称。
说明若待上传数据与目标表字段不存在映射关系,则该数据将会被置灰,且不会被上传。
待上传数据与目标表字段不能存在重复映射关系。
字段名称和字段类型不能为空,否则数据无法上传。
预览数据并设置目标表字段(上传数据至新建表)
可通过智能字段生成自动填充字段信息,也可手动修改字段信息。
说明字段名称和字段类型不能为空,否则数据无法上传。
EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理。
文件编码
若数据存在乱码,则可切换编码格式。支持选择UTF-8、GB18030、Big5。
忽略首行
是否将文件数据的首行(通常为列名称)上传至目标表中。
勾选:文件首行不上传至目标表中。
不勾选:文件首行将上传至目标表中。
单击数据上传,根据界面指引上传目标数据。
上传对象存储OSS数据
选择待上传数据。
数据来源:选择阿里云存储对象OSS。
指定待上传数据:选择已创建的Bucket文件,并设置是否需要剔除脏数据。
是:如遇脏数据,平台会自动忽略,继续上传数据。
否:如遇脏数据,平台不会自动忽略,此次数据上传将被阻断。
- 说明
仅支持上传与当前DataWorks工作空间同地域的Bucket数据。创建Bucket,详情请参见创建存储空间。
脏数据:例如,文件里某个单元格的数据为字符串类型,但映射到了目标表的INT类型字段,则该行数据会写入失败,该行数据为脏数据。具体的脏数据请以平台的实际判断逻辑为准。
配置存放待上传数据的目标表。
您可选择将待上传数据存放至指定引擎数据源的已有表或新建表。
参数说明如下。
参数
描述
目标引擎
仅支持将数据上传至MaxCompute、EMR Hive、Hologres引擎。
MaxCompute项目名称或数据源
存放待上传数据的项目或数据源,不同引擎需要配置的参数不同,具体参考实际界面。
说明EMR Hive仅支持选择阿里云实例模式创建的数据源。
区分生产项目(PROD)及开发项目(DEV):
选择生产项目:目标表仅支持选择生产表。
选择开发项目:目标表仅支持选择开发表。
目标表(上传数据至已有表)
选择目标表:存放待上传数据的表。支持通过关键字匹配搜索。
说明若上传数据至MaxCompute生产表,则当前登录账号需要为该表的Owner。
上传方式:选择以哪种方式将待上传数据添加至目标表中。该参数需要与步骤3(配置的源文件与目标表的映射关系)配合使用。
先清空表数据:先清空目标表数据,再全量将数据导入至目标表中相应的映射字段。
追加:将待上传数据追加至目标表相应映射字段中。
主键冲突策略:若上传数据导致目标表主键冲突,可采取如下处理策略。
忽略:忽略上传的数据,目标表中的数据不会更新。
更新(replace):上传的数据会全量覆盖目标表的旧数据,未配置列映射的字段强制写为NULL。
更新(update):上传的数据覆盖目标表的旧数据,但仅覆盖配置有列映射的字段数据。
说明仅Hologres引擎需要配置该参数。
目标表(上传数据至新建表)
表名:自定义表名称。
表类型:根据需要选择非分区表或分区表。若选择分区表,则需指定分区字段及其取值。
说明EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理。
预览待上传数据并设置目标表字段。
选择待上传数据及存放该数据的目标表后,您可预览数据详情,并配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。
说明目前仅支持预览前20条数据。
参数说明如下。
参数
描述
预览数据并设置目标表字段(上传数据至已有表)
需配置数据所在文件的列与目标表字段的映射关系,配置后相关数据才可被成功上传。映射方式包括按列名映射及按顺序映射。映射后您也可自定义目标表的字段名称。
说明若待上传数据与目标表字段不存在映射关系,则该数据将会被置灰,且不会被上传。
待上传数据与目标表字段不能存在重复映射关系。
字段名称和字段类型不能为空,否则数据无法上传。
预览数据并设置目标表字段(上传数据至新建表)
可通过智能字段生成自动填充字段信息,也可手动修改字段信息。
说明字段名称和字段类型不能为空,否则数据无法上传。
EMR Hive、Hologres引擎不支持在数据上传新建表。您需在数据开发(DataStudio)新建表后,才可在数据上传中选择目标表。创建表,详情请参见表管理。
文件编码
若数据存在乱码,则可切换编码格式。支持选择UTF-8、GB18030、Big5。
忽略首行
是否将文件数据的首行(通常为列名称)上传至目标表中。
勾选:文件首行不上传至目标表中。
不勾选:文件首行将上传至目标表中。
单击数据上传,开始上传数据。
后续操作
数据上传成功后,您可根据需要执行如下操作: