MaxCompute平台支援豐富的資料上傳和下載工具(其中大部分工具已經在GitHub公開原始碼,以開源社區的方式進行維護)。您可以根據實際應用情境,選擇合適的工具進行資料的上傳和下載。
阿里雲數加產品
MaxCompute用戶端(Tunnel通道系列)
用戶端基於批量資料通道的SDK,實現了內建的Tunnel命令,可對資料進行上傳和下載,Tunnel命令的使用請參見Tunnel命令的基本使用介紹。
用戶端的安裝和基本使用方法請參見用戶端介紹。
說明該專案已經開源,您可進入aliyun-odps-console進行查看 。
DataWorksData Integration(Tunnel通道系列)
DataWorksData Integration(即資料同步),是一個穩定高效、Auto Scaling的資料同步平台,致力於為阿里雲上各類異構資料存放區系統提供離線全量和即時增量的資料同步、整合、交換服務。
其中資料同步任務支援的資料來源類型包括:MaxCompute、RDS(MySQL、SQL Server、PostgreSQL)、Oracle、FTP、ADS(AnalyticDB)、OSS、Memcache和DRDS,詳情請參見Data Integration。
DTS(Tunnel通道系列)
什麼是Data Transmission Service是阿里雲提供的一種支援RDBMS(關係型資料庫)、NoSQL、OLAP等多種資料來源之間資料互動的資料服務。它提供了資料移轉、即時資料訂閱及資料即時同步等多種資料轉送功能。
DTS可以支援RDS、MySQL執行個體的資料即時同步到MaxCompute表中,暫不支援將其他資料來源類型的資料同步至MaxCompute。
開源產品
Sqoop(Tunnel通道系列)
Sqoop基於社區Sqoop 1.4.6版本開發,增強了對MaxCompute的支援,可以將資料從MySQL等關聯式資料庫匯入或匯出到MaxCompute表中,也可以從HDFS或Hive匯入資料到MaxCompute表中。
說明該專案已經開源,您可進入aliyun-maxcompute-data-collectors進行查看。
Kettle(Tunnel通道系列)
Kettle是一款開源的ETL工具,純Java實現,可以在Windows、Unix和Linux上運行,提供圖形化的操作介面,可以通過拖拽控制項的方式,方便地定義資料轉送的拓撲。
說明該專案已經開源,您可進入aliyun-maxcompute-data-collectors進行查看。
Flume(DataHub通道系列)
Apache Flume是一個分布式的、可靠的、可用的系統,可高效地從不同的資料來源中收集、彙總和移動海量日誌資料到集中式資料存放區系統,支援多種Source和Sink外掛程式。
Apache Flume的DataHub Sink外掛程式可以將日誌資料即時上傳到DataHub,並歸檔到MaxCompute表中。
說明該專案已經開源,您可進入aliyun-maxcompute-data-collectors進行查看。
Fluentd(DataHub通道系列)
Fluentd是一個開源的軟體,用來收集各種源頭日誌(包括Application Log、Sys Log及Access Log),允許您選擇外掛程式對日誌資料進行過濾,並儲存到不同的資料處理端(包括MySQL、Oracle、MongoDB、Hadoop、Treasure Data等)。
Fluentd的DataHub外掛程式可以將日誌資料即時上傳到DataHub,並歸檔到MaxCompute表中。
LogStash(DataHub通道系列)
LogStash是一款開源日誌收集處理架構,logstash-output-datahub外掛程式實現了將資料匯入DataHub的功能。通過簡單的配置即可完成資料的採集和傳輸,結合MaxCompute和StreamCompute可以輕鬆構建流式資料從採集到分析的一站式解決方案。
LogStash的DataHub外掛程式可以將日誌資料即時上傳到DataHub,並歸檔到MaxCompute表中。
OGG(DataHub通道系列)
OGG的DataHub外掛程式可以支援將Oracle資料庫的資料即時地以增量方式同步到DataHub中,並最終歸檔到MaxCompute表中。
說明該專案已經開源,您可進入aliyun-maxcompute-data-collectors進行查看。