MaxCompute

MaxCompute(原ODPS)是一項巨量資料計算服務,它能能供性快速、完全ManagedPB級資料倉儲應用程式執行個體,使您可以經濟並強烈影響剖析處理海量資料。

立即購買 連線銷售 主控台 產品價格 文件加註 & SDK

MaxCompute

巨量資料計算服務 ( MaxCompute,原名 ODPS ) 是一種快速、完全Managed TB/PB 級資料倉儲應用程式執行個體 。MaxCompute 向使用者能供性了完善的資料匯入配置以及多種傳統的分散式運算型號,能夠更快速的解析使用者海量資料計算問題,有效降低企業成本,並保障資料安全 。


優點

大級別計算儲存體

適用於100GB以上級別的儲存體及計算需求,最大可達EB等級

多種計算型號

支援SQL、MapReduce、Graph等計算類型及MPI反覆項目類演算法

強資料安全

穩定支架阿里全部離線剖析商務7年以上,能供性多層沙箱防護及監控

低成本

與企業自建私人雲端相比,計算儲存體更高效,降低20%-30%採購成本


MaxCompute

巨量資料計算服務(MaxCompute,原名ODPS)是一種快速、完全ManagedTB/PB級資料倉儲應用程式執行個體。MaxCompute向使用者能供性了完善的資料匯入配置以及多種傳統的分散式運算型號,能夠更快速的解析使用者海量資料計算問題,有效降低企業成本,並保障資料安全。


功能

批量、曆史資料通道

Tunnel是MaxCompute向使用者能供性的資料轉送服務。該服務水平可延伸項目,支援每天TB/PB等級的資料匯入匯出。特別適合於全量資料或曆史資料的大量匯入。Tunnel能供性了Java SDK,並且在MaxCompute的用戶端工具中,有對應的指令實現內部部署檔案管理員與服務資料的互通。

Just-In-Time、增量資料通道

針對Just-In-Time資料上傳的場景,我們能供性了另一套名為DataHub的服務。該服務具有延遲低、使用方便的特點,特別適用於增量資料的匯入。Datahub還支援多種資料轉送外掛程式,例如:Flume, Fluentd, Sqoop等。

以二維表格式化儲存體資料

所有資料均以表格式化儲存體,不公開檔案系統。並採用列壓縮儲存體格式化,極高的資料壓縮比極大節省了使用者成本。通常情況下,MaxCompute儲存體具備5倍壓縮的能力。

計算 - SQL

MaxCompute SQL採用標準的SQL文法。更強烈影響計算架構支援SQL計算型號,執行效率比普通的MapReduce型號更高。需要注意的是,MaxCompute SQL不支援異動、索引及Update/Delete等操作。

計算- MapReduce

MaxCompute能供性的Java MapReduce編程型號。值得注意的是,由於MaxCompute並沒有開放檔案管理員介面,使用者只能通過它所能供性的Table讀寫資料,因此MaxCompute的MapReduce型號與開源社群中通用的MapReduce型號在使用上有一定的區別。我們相信,這樣的改動雖然失去一定的靈活性,例如:不能夠自訂排序及雜湊函數,但卻能夠簡化開發流程,免除很多瑣碎的公司。更為重要的是,MaxCompute還能供性了基於MapReduce的延伸項目計算型號, 即MR2。在該型號下,一個Map函數後,可以接入連續多個Reduce函數。

計算 - Graph

對於某些複雜的反覆項目計算場景,例如:K-Means,PageRank等,如果仍然使用MapReduce來完成這些計算任務將是非常耗時的。MaxCompute能供性的Graph型號能夠非常好的完成這一類計算任務。

安全

MaxCompute是一個多租用戶的計算平台。預設情況下,各租用戶間資料不分享,彼此隔離,但使用者可以通過MaxCompute能供性的授權機制將資料共用給其他人。


產品結構描述

利用抽象任務處理架構,MaxCompute可以支援各種計算任務,能供性統一的編程介面/ GUI,分享安全控制,儲存體,資料管理和資源調度。 同時,MaxCompute還能供性資料上傳/下載通道,SQL,MapReduce,機器學習服務演算法,圖形計算,流式計算等計算型號的功能。


應用程式場景

您可以從以下典型的MaxCompute應用程式場景中了解有關使用大型資料倉儲應用程式執行個體編程建議項目的更多主題資訊。

商業智慧剖析

MaxCompute可以與ECS,AnalyticDB / RDS和其他BI報告工具配合使用,以滿足使用者的BI剖析需求。應用程式開發人員將應用程式或網站伺服器搭建在Aliyun ECS中,終端使用者向APP或網站發起存取。網站記入帳目可以通過部署在ECS上的Fluentd資料匯入工 具,被上傳到DataHub中。 MaxCompute的DataHub服務會將get到的記入帳目資料Just-In-Time同步的到MaxCompute的離線資料中。APP資料開發工程師 通過MaxCompute SDK或用戶端工具向服務繳交情況SQL 剖析指令碼。

個人化廣告推薦項目

除了上述BI剖析配置之外,MaxCompute還可以執行更複雜的剖析任務,如機器學習服務和資料採礦。 這有助於使用者能供性建議服務和其他的廣告商務場景。具體來說,他們可以使用阿里雲數加能供性的機器學習服務產品和Recommendation Engine進行個人化推薦項目,使用規則引擎進行有針對性的營銷等服務。

ETL開發(抽取、平移、掛接)

將未經處理資料匯入MaxCompute後,開發人員可以將資料解壓縮、平移、負載到顯示目標。 MaxCompute命令列工具使用中於資料開發,或者圖形化使用者介面DataIDE(由阿里雲數加能供性)使用中於開發和操作與維修。

快速開始

安裝設定用戶端

MaxCompute 的各項功能都可以通過用戶端來存取,以下是安裝用戶端的樣本。有關用戶端的詳細介紹,請參考用戶端介紹

新增卸除使用者

通過安裝設定後的用戶端進行新增卸除使用者。任意非構件空間Owner使用者必須被上線MaxCompute構件空間中,並被授予相對應權限,方能操作MaxCompute中的資料、作業、資源及函數。具體詳見新增卸除使用者

建立/查看/卸除表

當使用者被新增到構件空間並被賦予建表等權限後,就可以操作 MaxCompute了。由於在 MaxCompute 中的操作物件(輸入、輸出)都是表,所以在處理資料之前,我們首先要建立表、分割區 。具體可以通過巨量資料開發套件用戶端指令來實現。

匯入資料

MaxCompute 能供性多種資料匯入匯出方式:直接在用戶端使用Tunnel指令 或者通過 Tunnel SDK自行編寫 Java 工具,通過 Flume 及 Fluentd 外掛程式方式匯入,以及通過巨量資料開發套件對資料匯入匯出,詳情請參見:資料同步關於

執行SQL

大多數使用者對SQL的文法並不陌生,簡單地說,MaxCompute SQL就是用於查詢和剖析MaxCompute中的大級別資料。具體使用方法詳見 執行SQL

編寫MapReduce

在安裝好 MaxCompute 用戶端後,如何快速執行 MapReduce WordCount 樣本程式。具體詳見 編寫MapReduce

資源

命令列工具

用戶端命令列工具是基於Java SDK建立的。 它可以說明您更輕鬆,更方便地使用MaxCompute

下載

資料匯入工具

支援常用的資料轉送工具,如:Fluentd和Flume

開發外掛程式

為了方便使用者使用MapReduce和UDF Java SDK進行開發,MaxCompute還能供性了Eclipse外掛程式。 Eclipse可以模擬MapReduce和UDF流程,為使用者能供性內部部署偵錯方法和簡單的範本生成功能。

Java SDK

使用Maven的使用者可以搜尋Maven庫中的“odps-sdk”,以便找到不同組建的Java SDK文件加註

常見問題

1、如何安裝設定MaxCompute用戶端?

首先下載 MaxCompute 用戶端,下載請點選這裡,並把下載包解壓到一個資料夾中。具體設定詳見安裝設定用戶端

2、關於MaxCompute的計量計費說明

關於MaxCompute計量計費主要包括計費Apartment(構件project)、計費模組(儲存體、計算、資料下載)和計算周期(天),關於儲存體計費、計算計費、下載計費的說明詳見說明

3、Java UDF的具體使用方法?

MaxCompute 的 UDF 包括:UDF,UDAF,UDTF 三種函數,具體Java UDF的使用詳見UDF開發指南

4、如何講資料同步至MaxCompute?

目前資料同步任務支援的資料來源類型包括:MaxCompute、RDS(MySQL、SQL Server、PostgreSQL)、Oracle、FTP、ADS、OSS、OCS、DRDS等。資料同步任務使用方法可參考建立資料同步任務

5、如何進行開發MapReduce?

MaxCompute能供性了三個組建的MapReduce編程介面:MaxCompute MapReduce、延伸項目MapReduce、以及Hadoop相容組建,具體詳見MapReduce開發指南