本文根据您的角色推荐不同的文档阅读顺序。

如果您是MaxCompute初学者

如果您是初学者,建议先熟悉如下模块,然后再有针对性地对深入学习其他模块。
模块 说明
产品简介 介绍MaxCompute产品的概况及主要功能。通过阅读该章节,您会对MaxCompute有一个总体的认知。
快速开始 通过示例,指导您如何申请账号、安装客户端、创建表、授权、导入导出数据及运行SQL、UDF和MapReduce作业。
MaxCompute术语表 介绍MaxCompute的基本概念。
常用命令列表 介绍MaxCompute的常用命令。您可以进一步熟悉如何操作MaxCompute。
工具 您需要在分析数据前掌握MaxCompute常用工具的下载、配置及使用方法。
客户端工具 您可以通过此工具对MaxCompute进行操作。
配置Endpoint 介绍MaxCompute各区域的开通情况和连接方式,并对您在与其他云产品(ECS、Tablestore或OSS)互访场景中遇到的网络连通性和下载数据收费等问题进行说明。

如果您是数据分析师

如果您是数据分析师,建议熟读SQL模块的内容。您可以查询并分析存储在MaxCompute上的大规模数据。MaxCompute SQL支持如下主要功能:
  • DDL语句。
  • 使用CREATE、DROP和ALTER语句管理表和分区。
  • 使用SELECT语句选择表中的记录,使用WHERE语句查看满足条件的记录,实现过滤功能。
  • 使用等值连接JOIN关联两张表。
  • 使用GROUP BY实现列聚合操作。
  • 使用INSERT OVERWRITE或INSERT INTO把结果记录插入到另一张表中。
  • 使用内建函数和自定义函数(UDF)实现一系列的计算。
  • 收集表的统计信息和设置表生命周期。
  • 正则表达式。

如果您拥有一定开发经验

如果您拥有一定的开发经验,了解分布式概念,且希望解决某些无法用SQL实现的数据分析问题,推荐您学习MaxCompute更高级的功能模块。
模块 说明
MapReduce MaxCompute提供的Java MapReduce编程模型。您可以使用MapReduce提供的接口(Java API)编写MapReduce程序,处理MaxCompute中的数据。
Graph 一套面向迭代的图计算处理框架。使用图进行建模,图由点(Vertex)和边(Edge)组成,点和边包含权值(Value)。通过迭代对图进行编辑、演化,最终得出结果。
Tunnel 您可以使用Tunnel服务向MaxCompute批量上传离线数据或从MaxCompute下载离线数据。
Java SDK 向开发者提供的Java接口。
Python SDK 向开发者提供的Python接口。
说明 MapReduceGraph功能仍处于公测中,若您想使用这部分功能,可以提工单申请。申请时请指明您的项目名称,系统会在7个工作日内处理。

如果您是项目Owner或管理员

如果您是一个项目的Owner(创建和使用项目)或管理员(项目、安全和费用管理)需要熟知如下模块。
模块 子模块 说明
项目管理 创建项目前期工作 项目(Project)是MaxCompute的基本组织单元,它类似于传统数据库的Database或Schema的概念,是进行多用户隔离和访问控制的主要边界。一个用户可以同时拥有多个项目的权限,通过安全授权,可以在一个项目中访问另一个项目中的对象,例如表(Table)、资源(Resource)、函数(Function)和实例(Instance)。使用MaxCompute,实际是操作项目中的各种对象。前期准备工作如下:
  • 资源预算
    MaxCompute收费资源主要包含存储、计算和公网下载流量。
    • 存储资源:按量阶梯计费。您可以按照数据量套用公式预估费用。由于数据不是当天全部存储在MaxCompute,且每时每刻都会存在数据导入导出,所以预算结果不是绝对值。
    • 计算资源:计算资源(SQL、MapReduce、Spark和Lightning计算作业)分为按量计费和包年包月模式。由于使用初期不容易评估计算资源使用量,建议您先使用按量计费模式,测试一段时间后根据使用量再决定是否使用包年包月模式。
    • 公网下载流量:按量计费,只有通过公网下载才会收费。

    详细计费说明请参见存储费用(按量计费)计算费用下载费用(按量计费)

  • 准备账号并开通服务

    创建MaxCompute项目前,必须先开通MaxCompute服务,且只能将阿里云账号作为主账号,同时该账号为计费主体。确定账号后,在开通MaxCompute服务时,您需要根据资源预算结论选择按量计费或包年包月模式。

创建项目 创建项目具体操作请参见创建项目空间
项目成员管理 成员管理主要考虑成员的职责和安全问题,如果通过DataWorks使用MaxCompute,您需要考虑两个产品之间的关联权限。
子账号管理

MaxCompute项目支持主账号(云账号)和RAM子账号两种账号体系。您可以将主账号的任意RAM子账号加入MaxCompute的某一个项目中,但MaxCompute在对该RAM子账号做权限验证时,并不会考虑RAM中的权限定义。RAM子账号详情请参见准备RAM用户

通过DataWorks使用MaxCompute和DataWorks的工作空间,仅支持添加主账号(云账号)下的RAM子账号为成员。因此,需要主账号通过RAM系统创建子账号,并对子账号进行维护管理。

说明
  • 建议一个子账号对应一个项目成员,禁止多个成员共用一个子账号。
  • 离职或转岗的成员,需要及时清理对应子账号。若子账号在DataWorks中被加为项目成员,请先清除项目成员再到RAM系统中删除子账号。
调度资源管理
即DataWorks上的调度资源,调度资源用于执行或分发调度系统下发的任务。DataWorks的调度资源分为如下两种模式:
  • 默认调度资源。指DataWorks的公共资源池。当DataWorks节点并发量很高,调度资源紧张时会进入等待调度状态。直到占用到资源,节点才开始执行下发任务。
  • 自定义调度资源。指将您自助购买的ECS配置为可以执行分发任务的调度服务器。主账号可以新建自定义调度资源,调度资源包括若干台物理机或ECS,主要用于执行数据同步或其他任务。自定义资源组可以有效避免默认调度资源组的限制,当前新建自定义资源组功能需要您提交工单申请,已有的自定义资源组不受影响。
项目设置 在项目开发过程中,部分项目的设置操作需要项目Owner来执行。例如,设置项目是否允许全表扫描、设置项目默认打开2.0新类型等。详情请参见项目操作
费用管理 资源预算是在使用之前进行成本预估。基于MaxCompute的计费方式,很多业务无法更准确地预估成本,因此在整个业务开发过程中需要进行费用管理,主要需要关注: