在正式使用MaxCompute项目处理数据前,您需要根据业务需要选择开发工具并准备相应的环境。本文为您介绍需要准备的环境及安装的工具信息。
前提条件
已创建MaxCompute项目。更多创建MaxCompute项目操作,请参见创建MaxCompute项目。背景信息
MaxCompute支持的工具如下。
工具 | 是否需要手动安装 | 应用场景 |
---|---|---|
查询编辑器(MaxCompute控制台) | 否 |
|
使用客户端(odpscmd)连接 | 是 | MaxCompute的命令行客户端,适用于任意场景,使用者可以专注于编写命令完成数据处理。 |
DataWorks | 否 | 基于MaxCompute项目以可视化方式实现全方位的数据开发、数据集成、数据服务等功能。当需要周期性调度作业时,推荐您使用该工具。 |
MaxCompute Studio | 是 | 基于流行的集成开发平台IntelliJ IDEA的开发插件,帮助您便捷、快速地进行数据开发。如果您可以熟练使用IntelliJ IDEA,推荐您使用该工具。 |
准备环境
上述工具的运行环境要求如下。
工具 | 环境要求 |
---|---|
查询编辑器(MaxCompute控制台) | 推荐使用最新版谷歌浏览器。 |
MaxCompute客户端 | 安装Java 8或以上版本。 |
DataWorks | 推荐使用最新版谷歌浏览器。 |
MaxCompute Studio |
|
安装并配置MaxCompute客户端
说明 客户端从v0.27.0版本开始支持MaxCompute 2.0新数据类型,推荐使用新数据类型。支持的数据类型列表,请参见2.0数据类型版本。
安装并配置MaxCompute客户端的操作流程如下:
- 下载MaxCompute客户端安装包(Github)。说明 如果上方链接无法下载,您可以尝试单击此处的MaxCompute客户端安装包(OSS)进行下载。更多关于Github链接访问失败的问题,推荐您直接在搜索引擎中查找相关解决方案。
- 解压下载的安装包文件,得到bin、conf、lib和plugins文件夹。
- 进入conf文件夹,配置odps_config.ini文件。odps_config.ini文件内容如下。
project_name= access_id= access_key= end_point= log_view_host= https_check= # confirm threshold for query input size(unit: GB) data_size_confirm= # this url is for odpscmd update update_url= # download sql results by instance tunnel use_instance_tunnel= # the max records when download sql results by instance tunnel instance_tunnel_max_record= # IMPORTANT: # If leaving tunnel_endpoint untouched, console will try to automatically get one from odps service, which might charge networking fees in some cases. # Please refer to Endpoint # tunnel_endpoint= # use set.<key>= # e.g. set.odps.sql.select.output.format=
odps_config.ini文件中使用井号(#)作为注释。参数详细信息如下。
参数 是否必填 描述 示例 project_name 是 访问的目标MaxCompute项目名称。 如果您创建了标准模式的工作空间,在配置project_name时,请注意区分生产环境与开发环境(_dev)的项目名称,请参见必读:简单模式和标准模式的区别。
您可以登录MaxCompute控制台,在项目管理页签获取MaxCompute项目名称。
doc_test_dev access_id 是 阿里云账号或RAM用户的AccessKey ID。 您可以进入AccessKey管理页面获取AccessKey ID。
无 access_key 是 AccessKey ID对应的AccessKey Secret。 您可以进入AccessKey管理页面获取AccessKey Secret。
无 end_point 是 MaxCompute服务的连接地址。 您需要根据创建MaxCompute项目时选择的地域以及网络连接方式配置Endpoint。各地域及网络对应的Endpoint值,请参见Endpoint。
重要 如果Endpoint配置有误,会出现无法访问错误,请务必仔细确认。http://service.cn-hangzhou.maxcompute.aliyun.com/api log_view_host 否 Logview地址。您可以通过该地址查看作业的详细运行信息,并为报错处理提供依据。固定取值为:http://logview.odps.aliyun.com。 说明 推荐您配置该参数,如果不配置该参数,在作业报错时无法快速定位问题。http://logview.odps.aliyun.com https_check 否 是否开启HTTPS访问机制,对访问MaxCompute项目的请求进行加密。取值范围如下: - True:采用HTTPS机制。
- False:采用HTTP机制。
默认值为False。
True data_size_confirm 否 输入数据量的最大值,单位为GB。取值范围无限制。推荐设置为100 GB。 100 update_url 否 预留参数,暂无需关注。 无 use_instance_tunnel 否 是否使用InstanceTunnel下载SQL执行结果。取值范围如下: - True:使用InstanceTunnel下载SQL执行结果。
- False:不使用InstanceTunnel下载SQL执行结果。
默认值为False。
True instance_tunnel_max_record 否 客户端返回的SQL执行结果的最大记录数。如果use_instance_tunnel值为True,需要配置该参数。最大值为10000。 10000 tunnel_endpoint 否 Tunnel服务的外网访问链接。如果您未配置Tunnel Endpoint,Tunnel会自动路由到MaxCompute服务所在网络对应的Tunnel Endpoint。如果您配置了Tunnel Endpoint,则以配置为准,不进行自动路由。 各地域及网络对应的Tunnel Endpoint值,请参见Endpoint。
http://dt.cn-hangzhou.maxcompute.aliyun.com set.<key> 否 设置MaxCompute项目的属性。 更多属性信息,请参见属性列表。
set.odps.sql.decimal.odps2=true 说明 请确保上述信息配置正确,若信息配置错误,会导致项目连接失败。
安装并配置MaxCompute Studio
安装并配置MaxCompute Studio的操作流程如下:
- 安装IntelliJ IDEAMaxCompute Studio是集成在IntelliJ IDEA工具上的插件,需要先安装IntelliJ IDEA。
- 安装MaxCompute Studio在IntelliJ IDEA上安装MaxCompute Studio插件。
- 配置MaxCompute Studio配置MaxCompute Studio的配置项信息。
- 连接MaxCompute项目。通过MaxCompute Studio连接MaxCompute项目,即可在MaxCompute Studio上查看MaxCompute项目的信息。
后续步骤
至此,您已完成准备工作,请根据您选择的开发工具,参照指引执行后续操作,快速完成一个完整的MaxCompute使用链路:
- 如果您使用查询编辑器处理数据,更多查询编辑器信息,请参见使用控制台(查询编辑器)连接。
- 如果您使用MaxCompute客户端处理数据,更多MaxCompute客户端信息,请参见使用客户端(odpscmd)连接。
- 如果您使用DataWorks处理数据,请参见DataWorks快速入门。
- 如果您使用MaxCompute Studio处理数据,请参见MaxCompute Studio。