MaxCompute平台支援豐富的資料上傳和下載工具(其中大部分工具已經在GitHub公開原始碼,以開源社區的方式進行維護)。根據實際應用情境,可以選擇合適的工具上傳和下載資料。
阿里雲數加產品
MaxCompute用戶端(Tunnel通道系列)
說明該專案已經開源,可進入aliyun-odps-console查看 。
DataWorksData Integration(Tunnel通道系列)
DataWorksData Integration(即資料同步),是一個穩定高效、Auto Scaling的資料同步平台,致力於為阿里雲上各類異構資料存放區系統提供離線全量和即時增量的資料同步、整合、交換服務。
其中資料同步任務支援的資料來源類型包括:MaxCompute、RDS(MySQL、SQL Server、PostgreSQL)、Oracle、FTP、ADS(AnalyticDB)、OSS、Memcache和DRDS。
DTS(Tunnel通道系列)
Data Transmission Service是阿里雲提供的一種支援RDBMS(關係型資料庫)、NoSQL、OLAP等多種資料來源之間資料互動的資料服務。它提供了資料移轉、即時資料訂閱及資料即時同步等多種資料轉送功能。
DTS可以支援RDS、MySQL執行個體的資料即時同步到MaxCompute表中,暫不支援將其他資料來源類型的資料同步至MaxCompute。
MMS(MaxCompute Migration Service)遷移工具
MaxCompute資料移轉服務MMS支援將多種資料來源的資料移轉至MaxCompute,是一個適用於整站、大批量資料的搬遷情境的雲上託管遷移服務。MMS通過與MaxCompute Spark引擎整合,可以自動遷移表結構與資料,支援多種資料來源(BigQuery、Hive、DataBricks、Redshift、MaxCompute) 到MaxCompute的大規模資料移轉。詳情請參考 遷移服務(MMS)
開源產品
Sqoop(Tunnel通道系列)
Sqoop基於社區Sqoop 1.4.6版本開發,增強了對MaxCompute的支援,可以將資料從MySQL等關聯式資料庫匯入或匯出到MaxCompute表中,也可以從HDFS或Hive匯入資料到MaxCompute表中。
說明該專案已經開源,可進入aliyun-maxcompute-data-collectors查看。
Kettle(Tunnel通道系列)
Kettle是一款開源的ETL工具,純Java實現,可以在Windows、Unix和Linux上運行,提供圖形化的操作介面,可以通過拖拽控制項的方式,方便地定義資料轉送的拓撲。
說明該專案已經開源,可進入aliyun-maxcompute-data-collectors查看。
Flume(DataHub通道系列)
Apache Flume是一個分布式的、可靠的、可用的系統,可高效地從不同的資料來源中收集、彙總和移動海量日誌資料到集中式資料存放區系統,支援多種Source和Sink外掛程式。
Apache Flume的DataHub Sink外掛程式可以將日誌資料即時上傳到DataHub,並歸檔到MaxCompute表中。
說明該專案已經開源,可進入aliyun-maxcompute-data-collectors查看。
Fluentd(DataHub通道系列)
Fluentd是一個開源的軟體,用來收集各種源頭日誌(包括Application Log、Sys Log及Access Log),允許選擇外掛程式對日誌資料過濾,並儲存到不同的資料處理端(包括MySQL、Oracle、MongoDB、Hadoop、Treasure Data等)。
Fluentd的DataHub外掛程式可以將日誌資料即時上傳到DataHub,並歸檔到MaxCompute表中。
LogStash(DataHub通道系列)
Logstash是一款開源日誌收集處理架構,logstash-output-datahub外掛程式實現了將資料匯入DataHub的功能。通過簡單的配置即可完成資料的採集和傳輸,結合MaxCompute和StreamCompute可以輕鬆構建流式資料從採集到分析的一站式解決方案。
Logstash的DataHub外掛程式可以將日誌資料即時上傳到DataHub,並歸檔到MaxCompute表中。
OGG(DataHub通道系列)
OGG的DataHub外掛程式可以支援將Oracle資料庫的資料即時地以增量方式同步到DataHub中,並最終歸檔到MaxCompute表中。
說明該專案已經開源,可進入aliyun-maxcompute-data-collectors查看。