MaxCompute支持通过DataWorks的数据集成功能将其他数据源的数据以离线或实时方式导入MaxCompute,也支持将部分类型的本地文件数据导入MaxCompute。本文为您介绍使用DataWorks将数据导入MaxCompute的主要操作流程与注意事项。
前提条件
已开通DataWorks并绑定MaxCompute引擎,并在MaxCompute引擎中已创建好表用于存储后续同步至MaxCompute的数据。具体操作,请参见创建MaxCompute项目和创建表。
已准备好待导入MaxCompute的数据。
场景1:导入本地文件至MaxCompute
同步能力说明
当前支持将
CSV
、XLS
、XLSX
、JSON
格式的文件,基于本地文件或阿里云对象存储OSS的方式导入MaxCompute。其中:本地文件:
CSV
文件最大支持上传的数据量为5 GB,其他文件最大支持上传的数据量为100 MB。阿里云对象存储OSS:仅支持上传与当前MaxCompute同地域Bucket中的数据。
操作入口
进入数据开发页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
单击左上角的
图标,单击 ,进入上传与下载页面。
单击左侧导航栏的
图标,进入数据上传页面。
单击数据上传,根据界面指引上传目标数据。
通用操作指导
详细操作指导请参见数据上传。
说明对于未参加数据开发(Data Studio)公测的工作空间(即旧版工作空间),您还可以通过上传数据方式将本地CSV文件或自定义文本文件数据上传至MaxCompute表。
场景2:导入其他数据源数据至MaxCompute
同步能力说明
DataWorks数据集成支持将其他数据源的数据同步至MaxCompute,例如将RDS等数据库的数据同步至MaxCompute,针对不同的同步场景,数据同步原理与能力支持不一致。
DataWorks离线同步为您提供数据读取(Reader)和写入插件(Writer)实现对数据源的读写操作(离线同步)。
DataWorks实时同步支持您将多种输入及输出数据源搭配组成同步链路进行单表或整库数据的实时增量同步。
DataWorks还为您提供多种数据源之间进行不同数据同步场景(整库离线同步、全增量实时同步)的同步解决方案。
对MaxCompute的数据同步能力支持如下表所示。
离线同步
实时同步
同步解决方案
单表读
单表写
单表增量读
单表增量写
整库增量读
整库增量写
整库离线读
整库离线写
单表/整库全增量实时读
单表/整库全增量实时写
-
-
-
-
说明离线导入场景中,每个离线同步节点仅支持将单张或多张表数据导入至MaxCompute的一张表中。
更多DataWorks数据集成对MaxCompute数据同步能力详情请参见MaxCompute数据源。
操作入口与通用操作指导
DataStudio侧操作
登录MaxCompute控制台,单击控制台左侧导航的 进入DataStudio(数据开发)页面,可在DataStudio中新建离线同步节点或实时同步节点,开始配置离线或实时同步任务,将其他数据源数据同步至MaxCompute。
旧版
新版
离线同步节点中:将数据去向配置为MaxCompute,数据来源配置为其他数据源。
实时同步节点中:将输出配置为MaxCompute,输入配置为其他数据源。
详细操作指导请参见通过向导模式配置离线同步任务、通过脚本模式配置离线同步任务、DataStudio侧实时同步任务配置。
数据集成侧操作
登录DataWorks控制台后进入工作空间页面,在目标工作空间操作列单击快速进入 > 数据集成,在数据集成页面创建数据同步任务,将其他数据源的数据同步至MaxCompute。
详细操作指导请参见数据集成侧同步任务配置。
费用说明
使用DataWorks数据集成进行数据同步时,需使用DataWorks的数据集成资源组与调度资源组,您可根据需要选择使用公共资源组或独享资源组,同时在数据传输过程中如果使用了公网传输,可能会涉及公网流量费用。各项可能费用的详情请参见:
数据集成资源组的计费详情请参见独享数据集成资源组计费说明:包年包月、公共数据集成(调试)资源组:按量计费。
公网流量费用请参见公网流量计费说明。
调度资源组的计费详情请参见独享调度资源组计费说明:包年包月、公共调度资源组计费说明:按量付费。