MaxCompute支援通過DataWorks的Data Integration功能以離線或即時方式匯入其他資料來源的資料,也支援匯入部分類型的本地檔案資料。本文介紹如何使用DataWorks將資料匯入MaxCompute的。
操作步驟
已建立MaxCompute專案和建立表。用於儲存後續同步至MaxCompute的資料。
匯入資料
將本地檔案匯入MaxCompute
登入DataWorks控制台,在左上方選擇地區。
在左側導覽列選擇。
在左側導覽列單擊上傳表徵圖
,單擊資料上傳。根據介面指引上傳目標資料。
當前支援將
CSV、XLS、XLSX、JSON格式的檔案,基於本地檔案或阿里雲Object Storage Service的方式匯入MaxCompute。其中:本地檔案:
CSV檔案最大支援上傳的資料量為5 GB,其他檔案最大支援上傳的資料量為100 MB。阿里雲Object Storage Service:僅支援上傳與當前MaxCompute同地區Bucket中的資料。
詳細操作指導請參見資料上傳。
舊版DataWorks工作空間,可以通過上傳資料方式將本地CSV檔案或自訂文字檔資料上傳至MaxCompute表。
將其他資料來源資料匯入MaxCompute
登入DataWorks控制台,在左上方選擇地區。
在左側導覽列選擇。
选择工作空间,單擊進入Data Studio。
在Data Studio左側,單擊
,選擇或即時同步。離線同步節點:將資料去向配置為MaxCompute,資料來源配置為其他資料來源。
即時同步節點:將輸出配置為MaxCompute,輸入配置為其他資料來源。
詳細操作指導請參見嚮導模式配置、指令碼模式配置、DataStudio側即時同步任務配置。
回到DataWorks控制台。
在左側導覽列選擇。
在左側導覽列選擇同步任務,單擊建立同步任務,在彈出的建立同步任務對話方塊配置資料來源資訊。
詳細操作指導請參見整庫即時同步任務配置。
Data Integration同步能力說明
DataWorksData Integration支援將其他資料來源的資料同步至MaxCompute,例如將RDS等資料庫的資料同步至MaxCompute,針對不同的同步情境,資料同步原理與能力支援不同。
離線同步提供資料讀取(Reader)和寫入外掛程式(Writer)實現對資料來源的讀寫操作(離線同步)。
離線匯入情境中,每個離線同步節點僅支援將單張或多張表資料匯入至MaxCompute的一張表中。
即時同步支援將多種輸入及輸出資料來源搭配組成同步鏈路進行單表或整庫資料的即時增量同步處理。
還提供多種資料來源之間不同資料同步情境(整庫離線同步、全增量即時同步)的同步解決方案。
對MaxCompute的資料同步能力支援如下表所示。
離線同步 | 即時同步 | 同步解決方案 | |||||||
單表讀 | 單表寫 | 單表增量讀 | 單表增量寫 | 整庫增量讀 | 整庫增量寫 | 整庫離線讀 | 整庫離線寫 | 單表/整庫全增量即時讀 | 單表/整庫全增量即時寫 |
|
| - |
| - |
| - |
| - |
|
更多DataWorksData Integration對MaxCompute資料同步能力詳情請參見MaxCompute資料來源。
計費說明
使用DataWorksData Integration資料同步,需使用DataWorks的Data Integration資源群組與調度資源群組,根據需要選擇使用公用資源群組或獨享資源群組,同時在資料轉送過程中如果使用了公網傳輸,可能會涉及公網流量費用。
Data Integration資源群組的計費詳情請參見獨享Data Integration資源群組計費說明:訂用帳戶、公用Data Integration(調試)資源群組:隨用隨付。
公網流量費用請參見公網流量計費。
調度資源群組的計費詳情請參見獨享調度資源群組計費說明:訂用帳戶、公用調度資源群組計費。