全部產品
Search
文件中心

MaxCompute:使用DataWorks(離線與即時)

更新時間:Dec 06, 2025

MaxCompute支援通過DataWorks的Data Integration功能以離線或即時方式匯入其他資料來源的資料,也支援匯入部分類型的本地檔案資料。本文介紹如何使用DataWorks將資料匯入MaxCompute的。

操作步驟

  1. 建立MaxCompute專案建立表。用於儲存後續同步至MaxCompute的資料。

  2. 建立DataWorks工作空間綁定MaxCompute計算資源

  3. 匯入資料

    將本地檔案匯入MaxCompute

    1. 登入DataWorks控制台,在左上方選擇地區。

    2. 在左側導覽列選擇数据集成 > 数据上传与下载

    3. 在左側導覽列單擊上傳表徵圖image,單擊資料上傳

    4. 根據介面指引上傳目標資料。

      當前支援將CSVXLSXLSXJSON格式的檔案,基於本地檔案阿里雲Object Storage Service的方式匯入MaxCompute。其中:

      • 本地檔案CSV檔案最大支援上傳的資料量為5 GB,其他檔案最大支援上傳的資料量為100 MB。

      • 阿里雲Object Storage Service:僅支援上傳與當前MaxCompute同地區Bucket中的資料。

    詳細操作指導請參見資料上傳

    舊版DataWorks工作空間,可以通過上傳資料方式將本地CSV檔案或自訂文字檔資料上傳至MaxCompute表。

    其他資料來源資料匯入MaxCompute

    1. 登入DataWorks控制台,在左上方選擇地區。

    2. 在左側導覽列選擇数据开发与运维 > 数据开发

    3. 选择工作空间,單擊進入Data Studio

    4. Data Studio左側,單擊image,選擇建立節點 > Data Integration > 離線同步即時同步

      • 離線同步節點:將資料去向配置為MaxCompute,資料來源配置為其他資料來源。

      • 即時同步節點:將輸出配置為MaxCompute,輸入配置為其他資料來源。

      詳細操作指導請參見嚮導模式配置指令碼模式配置DataStudio側即時同步任務配置

    5. 回到DataWorks控制台

      在左側導覽列選擇数据集成 > 数据集成

    6. 在左側導覽列選擇同步任務,單擊建立同步任務,在彈出的建立同步任務對話方塊配置資料來源資訊。

      詳細操作指導請參見整庫即時同步任務配置

Data Integration同步能力說明

DataWorksData Integration支援將其他資料來源的資料同步至MaxCompute,例如將RDS等資料庫的資料同步至MaxCompute,針對不同的同步情境,資料同步原理與能力支援不同。

  • 離線同步提供資料讀取(Reader)寫入外掛程式(Writer)實現對資料來源的讀寫操作(離線同步)。

    • 離線匯入情境中,每個離線同步節點僅支援將單張或多張表資料匯入至MaxCompute的一張表中。

  • 即時同步支援將多種輸入及輸出資料來源搭配組成同步鏈路進行單表或整庫資料的即時增量同步處理。

  • 還提供多種資料來源之間不同資料同步情境(整庫離線同步、全增量即時同步)的同步解決方案。

對MaxCompute的資料同步能力支援如下表所示。

離線同步

即時同步

同步解決方案

單表讀

單表寫

單表增量讀

單表增量寫

整庫增量讀

整庫增量寫

整庫離線讀

整庫離線寫

單表/整庫全增量即時讀

單表/整庫全增量即時寫

image..png

image..png

-

image..png

-

image..png

-

image..png

-

image..png

更多DataWorksData Integration對MaxCompute資料同步能力詳情請參見MaxCompute資料來源

計費說明

使用DataWorksData Integration資料同步,需使用DataWorks的Data Integration資源群組與調度資源群組,根據需要選擇使用公用資源群組或獨享資源群組,同時在資料轉送過程中如果使用了公網傳輸,可能會涉及公網流量費用。

最佳實務

資料庫整庫離線同步至MaxCompute

資料庫增量資料離線同步至MaxCompute

資料庫分庫分表同步至MaxCompute

資料庫全增量即時同步至MaxCompute