控制台和登录入口整合在这里了。

确定

MaxCompute

大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。

立即购买 产品价格

MaxCompute

大数据计算服务 ( MaxCompute,原名 ODPS ) 是一种快速、完全托管的 TB/PB 级数据仓库解决方案 。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全 。


优点

大规模计算存储

适用于100GB以上规模的存储及计算需求,最大可达EB级别

多种计算模型

支持SQL、MapReduce、Graph等计算类型及MPI迭代类算法

强数据安全

稳定支撑阿里全部离线分析业务7年以上,提供多层沙箱防护及监控

低成本

与企业自建私有云相比,计算存储更高效,降低20%-30%采购成本


MaxCompute

大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。


功能

批量、历史数据通道

Tunnel是MaxCompute向用户提供的数据传输服务。该服务水平可扩展,支持每天TB/PB级别的数据导入导出。特别适合于全量数据或历史数据的批量导入。Tunnel提供了Java SDK,并且在MaxCompute的客户端工具中,有对应的命令实现本地文件与服务数据的互通。

实时、增量数据通道

针对实时数据上传的场景,我们提供了另一套名为DataHub的服务。该服务具有延迟低、使用方便的特点,特别适用于增量数据的导入。Datahub还支持多种数据传输插件,例如:Flume, Fluentd, Sqoop等。

以二维表格式存储数据

所有数据均以表格式存储,不暴露文件系统。并采用列压缩存储格式,极高的数据压缩比极大节省了用户成本。通常情况下,MaxCompute存储具备5倍压缩的能力。

计算 - SQL

MaxCompute SQL采用标准的SQL语法。更高效的计算框架支持SQL计算模型,执行效率比普通的MapReduce模型更高。需要注意的是,MaxCompute SQL不支持事务、索引及Update/Delete等操作。

计算- MapReduce

MaxCompute提供的Java MapReduce编程模型。值得注意的是,由于MaxCompute并没有开放文件接口,用户只能通过它所提供的Table读写数据,因此MaxCompute的MapReduce模型与开源社区中通用的MapReduce模型在使用上有一定的区别。我们相信,这样的改动虽然失去一定的灵活性,例如:不能够自定义排序及哈希算法,但却能够简化开发流程,免除很多琐碎的工作。更为重要的是,MaxCompute还提供了基于MapReduce的扩展计算模型, 即MR2。在该模型下,一个Map函数后,可以接入连续多个Reduce函数。

计算 - Graph

对于某些复杂的迭代计算场景,例如:K-Means,PageRank等,如果仍然使用MapReduce来完成这些计算任务将是非常耗时的。MaxCompute提供的Graph模型能够非常好的完成这一类计算任务。

安全

MaxCompute是一个多租户的计算平台。默认情况下,各租户间数据不共享,彼此隔离,但用户可以通过MaxCompute提供的授权机制将数据共享给其他人。


产品架构

利用抽象任务处理框架,MaxCompute可以支持各种计算任务,提供统一的编程接口/ GUI,共享安全控制,存储,数据管理和资源调度。 同时,MaxCompute还提供数据上传/下载隧道,SQL,MapReduce,机器学习算法,图形计算,流式计算等计算模型的功能。


应用场景

您可以从以下典型的MaxCompute应用场景中了解有关使用大型数据仓库解决方案编程建议的更多信息。

商业智能分析

MaxCompute可以与ECS,AnalyticDB / RDS和其他BI报告工具配合使用,以满足用户的BI分析需求。应用开发者将应用或网站服务器搭建在Aliyun ECS中,终端用户向APP或网站发起访问。网站日志可以通过部署在ECS上的Fluentd数据导入工 具,被上传到DataHub中。 MaxCompute的DataHub服务会将获取到的日志数据实时同步到MaxCompute的离线数据中。APP数据开发工程师 通过MaxCompute SDK或客户端工具向服务提交SQL 分析脚本。

个性化广告推荐

除了上述BI分析方案之外,MaxCompute还可以执行更复杂的分析任务,如机器学习和数据挖掘。 这有助于用户提供推荐服务和其他的广告业务场景。具体来说,他们可以使用阿里云数加提供的机器学习产品和推荐引擎进行个性化推荐,使用规则引擎进行有针对性的营销等服务。

ETL开发(抽取、转换、装载)

将原始数据导入MaxCompute后,开发人员可以将数据提取、转换、加载到目标。 MaxCompute命令行工具可用于数据开发,或者图形用户界面DataIDE(由阿里云数加提供)可用于开发和操作与维护。

快速开始

安装配置客户端

MaxCompute 的各项功能都可以通过客户端来访问,以下是安装客户端的示例。有关客户端的详细介绍,请参考客户端介绍

添加删除用户

通过安装配置后的客户端进行添加删除用户。任意非项目空间Owner用户必须被加入MaxCompute项目空间中,并被授予相对应权限,方能操作MaxCompute中的数据、作业、资源及函数。具体详见添加删除用户

创建/查看/删除表

当用户被添加到项目空间并被赋予建表等权限后,就可以操作 MaxCompute了。由于在 MaxCompute 中的操作对象(输入、输出)都是表,所以在处理数据之前,我们首先要创建表、分区 。具体可以通过大数据开发套件客户端命令来实现。

导入数据

MaxCompute 提供多种数据导入导出方式:直接在客户端使用Tunnel命令 或者通过 Tunnel SDK自行编写 Java 工具,通过 Flume 及 Fluentd 插件方式导入,以及通过大数据开发套件对数据导入导出,详情请参见:数据同步简介

运行SQL

大多数用户对SQL的语法并不陌生,简单地说,MaxCompute SQL就是用于查询和分析MaxCompute中的大规模数据。具体使用方法详见 运行SQL

编写MapReduce

在安装好 MaxCompute 客户端后,如何快速运行 MapReduce WordCount 示例程序。具体详见 编写MapReduce

资源

命令行工具

客户端命令行工具是基于Java SDK创建的。 它可以帮助您更轻松,更方便地使用MaxCompute

下载

数据导入工具

支持常用的数据传输工具,如:Fluentd和Flume

开发插件

为了方便用户使用MapReduce和UDF Java SDK进行开发,MaxCompute还提供了Eclipse插件。 Eclipse可以模拟MapReduce和UDF进程,为用户提供本地调试方法和简单的模板生成功能。

Java SDK

使用Maven的用户可以搜索Maven库中的“odps-sdk”,以便找到不同版本的Java SDK文档

常见问题

1、如何安装配置MaxCompute客户端?

首先下载 MaxCompute 客户端,下载请点击这里,并把下载包解压到一个文件夹中。具体配置详见安装配置客户端

2、关于MaxCompute的计量计费说明

关于MaxCompute计量计费主要包括计费单元(项目project)、计费模块(存储、计算、数据下载)和计算周期(天),关于存储计费、计算计费、下载计费的说明详见说明

3、Java UDF的具体使用方法?

MaxCompute 的 UDF 包括:UDF,UDAF,UDTF 三种函数,具体Java UDF的使用详见UDF开发指南

4、如何讲数据同步至MaxCompute?

目前数据同步任务支持的数据源类型包括:MaxCompute、RDS(MySQL、SQL Server、PostgreSQL)、Oracle、FTP、ADS、OSS、OCS、DRDS等。数据同步任务使用方法可参考创建数据同步任务

5、如何进行开发MapReduce?

MaxCompute提供了三个版本的MapReduce编程接口:MaxCompute MapReduce、扩展MapReduce、以及Hadoop兼容版本,具体详见MapReduce开发指南