DataWorks的資料上傳功能支援將本地檔案、資料分析的試算表、OSS檔案、HTTP檔案等資料上傳至MaxCompute、EMR Hive、Hologres、StarRocks等引擎進行分析及管理,為您提供便捷的Data Transmission Service,助力您快速實現資料驅動業務。本文為您介紹如何使用資料上傳功能上傳資料。
注意事項
如您涉及跨境操作資料上傳(例如,資料從中國境內傳輸至中國境外、資料在不同省/地區間傳輸等),請提前瞭解相關合規聲明,否則可能導致資料上傳失敗並將承擔相應法律責任。
在進行資料上傳前,建議將您要上傳的資料表頭資訊設定為英文。如果表頭資訊為中文,可能會導致解析失敗,從而引發上傳錯誤。
使用限制
資源群組限制:資料上傳功能需指定調度資源群組和Data Integration資源群組。
僅支援使用Serverless資源群組(推薦)、獨享調度資源群組和獨享Data Integration資源群組,必須在中為相應引擎配置調度資源群組和Data Integration資源群組。
所選資源群組需綁定至待接收資料的表所在的DataWorks工作空間,且需確保資料上傳任務使用的資料來源與所選資源群組網路連通。
說明通過資料分析配置引擎使用的資源群組,請參見系統管理。
配置資料來源與資源群組網路連通,請參見網路連通方案。
配置獨享資源群組綁定的歸屬工作空間,請參見使用獨享調度資源群組、使用獨享Data Integration資源群組。
表限制:僅支援將目標資料上傳至自己名下的表(即您為表的Owner)。具體表現為以下情境:
資料地圖的表詳情頁顯示您為該表的Table Owner。查看錶詳情,請參見查看錶詳情。
該表是您通過資料上傳功能上傳資料時建立的表。
計費說明
資料上傳會產生如下費用:
資料轉送費用。
若涉及建立表,會收取計算和儲存費用。
以上費用均由引擎側收取,具體費用請參見相應引擎的計費文檔MaxCompute計費、Hologres計費、E-MapReduce計費、EMR Serverless StarRocks產品計費。
進入資料上傳頁面
進入資料上傳與下載頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,單擊進入資料上傳與下載,進入上傳與下載頁面。
單擊左側導覽列的
表徵圖,進入資料上傳頁面。單擊資料上傳,根據介面指引上傳目標資料。
選擇待上傳檔案資料
支援上傳本地檔案、試算表、Object Storage Service和HTTP檔案資料,您可根據實際業務情況選擇資料來源來上傳檔案資料。
在進行檔案上傳時,根據需要設定是否需要剔除髒資料。
是:如遇髒資料,平台會自動忽略,繼續上傳資料。
否:如遇髒資料,平台不會自動忽略,此次資料上傳將被阻斷。
本地檔案
如果待上傳的檔案資料為本地檔案,可以選擇此方式進行上傳。
資料來源選擇本地檔案。
指定待上傳資料:根據介面指引將需要上傳的本地檔案拖拽至選擇檔案地區。
說明支援
CSV、XLS、XLSX、JSON格式,CSV檔案最大支援上傳的資料量為5GB,其他檔案最大支援上傳的資料量為100MB。預設上傳檔案的第一個Sheet。如需上傳某個檔案的多個Sheet資料,則需為每個Sheet建立一個表格,並將其作為表格的第一個Sheet。
暫不支援上傳
SQL格式檔案。
試算表
如果待上傳的檔案資料為DataWorks資料分析的試算表,可以選擇此方式進行上傳。
Object Storage Service
如果待上傳的檔案資料為Object Storage Service資料,可以選擇此方式進行上傳。
前提條件:
為避免許可權限制,請在上傳資料前,通過許可權與存取控制為執行資料上傳操作的阿里雲帳號授予訪問目標Bucket的許可權。
上傳步驟:
資料來源選擇Object Storage Service。
指定待上傳資料:
在選擇Bucket下拉框中,選擇儲存待上傳資料的目標OSS Bucket。
說明僅支援上傳與當前DataWorks工作空間同地區的Bucket資料。
在選擇檔案地區,選擇您所需上傳的檔案資料。
說明僅支援上傳
CSV、XLS、XLSX、JSON格式的檔案資料。
HTTP檔案
如果待上傳的檔案資料為HTTP檔案,可以選擇此方式進行上傳。
資料來源選擇HTTP檔案。
指定待上傳資料:
參數
配置說明
檔案地址
選擇存放檔案資料的地址。
說明支援HTTP和HTTPS格式的檔案地址。
檔案類型
根據您所上傳的檔案類型進行自動識別。
支援
CSV、XLS、XLSX格式的檔案類型。CSV檔案最大支援上傳的資料量為5GB,其他檔案最大支援上傳的資料量為50MB。請求Method
支援GET、POST或PUT三種方式。通常建議使用GET請求擷取資料,但具體可根據您定義的允許要求方法(Method)進行設定。
進階參數
您也可根據業務情況,在進階參數裡面設定請求Header、請求Body資訊。
設定資料存放區目標表
您可以在設定目標表地區選取項目資料上傳的目標引擎,並根據所選引擎配置相關參數。
在設定資料存放區目標表時,選擇資料來源時需注意區分 PROD(生產環境)和 DEV(開發環境)。如果選擇錯誤,會導致資料上傳到其他環境。
MaxCompute
如需將資料上傳到MaxCompute對應的表中,可參考下表進行相關參數配置。
參數 | 配置說明 | |
MaxCompute專案名稱 | 支援選擇您在當前地區綁定的MaxCompute資料來源。如未找到所需上傳的資料來源,可通過在當前工作空間綁定MaxCompute計算資源來產生同名的資料來源。 | |
目標表 | 支援選擇已有表或建立表。 | |
選擇目標表 | 存放待上傳資料的表。支援通過關鍵字匹配搜尋。 說明 僅支援將目標資料上傳至自己名下的表(即您為表的Owner),詳情請參見使用限制。 | |
上傳方式 | 選擇以哪種方式將待上傳資料添加至目標表中。
| |
表名 | 自訂建立表表名。 說明 MaxCompute引擎建立表過程,使用的是DataWorks計算資源裡面配置的MaxCompute帳號資訊,然後在MaxCompute對應專案中進行建表操作。 | |
表類型 | 根據需要選擇非分區表或分區表。若選擇分區表,則需指定分區欄位及其取值。 | |
生命週期 | ||
EMR HIVE
如需將資料上傳到EMR HIVE對應的表中,可參考下表進行相關參數配置。
參數 | 配置說明 |
資料來源 | 支援選擇您在當前地區工作空間綁定的EMR Hive資料來源(阿里雲執行個體模式)。 |
目標表 | 僅支援將資料上傳到已有表。 |
選擇目標表 | 存放待上傳資料的表。支援通過關鍵字匹配搜尋。 |
上傳方式 | 選擇以哪種方式將待上傳資料添加至目標表中。
|
Hologres
如需將資料上傳到Hologres對應的表中,可參考下表進行相關參數配置。
參數 | 配置說明 |
資料來源 | 支援選擇您在當前地區工作空間綁定的Hologres資料來源。如未找到所需上傳的資料來源,可通過在當前工作空間綁定Hologres計算資源來產生同名的資料來源。 |
目標表 | 僅支援將資料上傳到已有表。 |
選擇目標表 | 存放待上傳資料的表。支援通過關鍵字匹配搜尋。 說明
|
上傳方式 | 選擇以哪種方式將待上傳資料添加至目標表中。
|
主鍵衝突策略 | 若上傳資料導致目標表主鍵衝突,可採取如下處理策略。
|
StarRocks
如需將資料上傳到StarRocks對應的表中,可參考下表進行相關參數配置。
參數 | 配置說明 |
資料來源 | 支援選擇您在當前地區工作空間綁定的StarRocks資料來源。 |
目標表 | 僅支援將資料上傳到已有表。 |
選擇目標表 | 存放待上傳資料的表。支援通過關鍵字匹配搜尋。 說明
|
上傳方式 | 選擇以哪種方式將待上傳資料添加至目標表中。
|
進階參數 | 可配置Stream Load請求參數。 |
預覽待上傳檔案資料
設定資料存放區目標表後,您可根據資料預覽情況調整檔案編碼和資料對應關係。
目前僅支援預覽前20條資料。
檔案編碼:若資料存在亂碼,則可切換編碼格式。支援選擇
UTF-8、GB18030、Big5、UTF-16LE、UTF-16BE。預覽資料並設定目標表欄位:
上傳資料至已有表:需配置資料所在檔案的列與目標表欄位的映射關係,配置後相關資料才可被成功上傳。映射方式包括按列名映射及按順序映射。映射後您也可自訂目標表的欄位名稱。
說明若待上傳資料與目標表欄位不存在映射關係,則該資料將會被置灰,且不會被上傳。
待上傳資料與目標表欄位不能存在重複映射關係。
欄位名稱和欄位類型不可為空,否則資料無法上傳。
上傳資料至建立表:可通過智能欄位產生自動填滿欄位資訊,也可手動修改欄位資訊。
說明欄位名稱和欄位類型不可為空,否則資料無法上傳。
EMR Hive、Hologres、StarRocks引擎不支援在資料上傳建立表。
忽略首行:是否將檔案資料的首行(通常為列名稱)上傳至目標表中。
勾選:檔案首行為列名時,首行不上傳至目標表。
不勾選:檔案首行為資料時,首行上傳至目標表。
上傳資料
完成資料預覽操作後,您可單擊左下方的資料上傳按鈕,對資料進行上傳。
後續操作
資料上傳成功後,您可單擊左側導覽列的
表徵圖,進入資料上傳頁面,找到已建立的資料上傳任務,並根據需求執行相關操作:
附錄:跨境操作資料上傳的合規聲明
如您涉及跨境操作資料上傳(例如,資料從中國境內傳輸至中國境外、資料在不同省/地區間傳輸等),請提前瞭解相關合規聲明,否則可能導致資料上傳失敗並將承擔相應法律責任。
資料跨境操作將導致您的雲上業務資料轉送至您所選擇的地區或產品部署地區,您應確保相關操作遵循如下要求:
擁有相關雲上業務資料的處理許可權。
採取充分的資料安全保護技術及策略。
資料轉送行為符合相關法律法規的要求。例如,傳輸的資料不含任何所適用法律限制、禁止傳輸或披露的內容。
阿里雲特別提示您,若您的資料上傳操作可能導致資料跨境傳輸,請在開展相關操作前諮詢專業的法律或合規人員,確保資料跨境傳輸行為符合所適用的法律法規及監管政策的要求(例如,獲得個人資訊主體的有效授權、完成相關合約條款的簽署及備案、完成相關安全評估等法定義務)。
若未遵守該合規聲明便開展資料跨境操作,您將承擔對應的法律後果。同時,導致阿里雲及其關係企業遭受的任何損失,您應承擔賠償責任。
相關文檔
DataStudio(資料開發)也支援上傳本地CSV檔案或文字檔資料至MaxCompute表,詳情請參見上傳資料。
MaxCompute表的更多操作,請參見建立並使用MaxCompute表。
Hologres表的更多操作,請參見建立Hologres表。
EMR表的更多操作,請參見建立EMR表。
常見問題
配置資源群組問題。
報錯資訊:當前檔案來源或者目標引擎需要配置資源群組進行資料上傳,請聯絡空間管理員進行資源群組的配置。
解決方案:通過資料分析配置引擎使用的資源群組,請參見系統管理。
綁定資源群組問題。
報錯資訊:您當前空間配置的全域資料上傳使用的資源群組和上傳表所屬的工作空間未進行綁定,請聯絡空間管理員進行綁定。
解決方案:您可將您在系統管理設定的資源群組綁定為工作空間資源群組。