DataWorks的資料集功能可以實現對非結構化資料(如映像、文檔)的有效管理控制,並在DataWorks中使用,本文將為您介紹資料集的建立與使用方式。
背景資訊
在使用DataWorks進行資料開發的過程中,當您需要讀寫儲存於OSS、NAS中的資料時,可以使用DataWorks的資料集功能。該功能支援您建立和管理資料集及其多個版本,通過資料集版本管理,您能夠追蹤資料的版本,並在新版本出現問題時迅速切換至舊版本,以確保業務流暢。
注意事項
當前資料集功能為內測版本,具體能力與穩定性需以實際體驗為準。
計費說明
DataWorks資料集功能不收費,但使用OSS或NAS儲存資料會產生相應的儲存費用和網路訪問費用。詳情請參見OSS計費、NAS計費。
建立資料集
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入資料地圖。
在資料地圖左側導覽列中,單擊資料目錄(
),進入資料目錄頁面。在目錄列表中單擊Dataset Catalog。找到需要建立資料集的工作空間後,單擊工作空間名稱,進入工作空間資料集的詳情頁,該頁面將展示空間下已經建立好的所有資料集,您可通過建立資料集按鈕,參照下文,快速建立DataWorks資料集。
儲存類型為Object Storage Service
資料集配置:
配置項
配置說明
儲存類型
Object Storage Service
內容類型
選擇您註冊資料的類型。此處非必選,預設為通用。
匯入配置:
配置項
配置說明
OSS 路徑
指定需要掛載的OSS檔案夾路徑。
說明請確保您有對應OSS Bucket的許可權。
預設掛載路徑
指定OSS檔案夾的預設掛載路徑,後續可通過此路徑在DataWorks訪問資料。系統預設為掛載至
/mnt/data/,可以手動調整掛載路徑。
儲存類型為Apsara File Storage NAS
資料集配置:
配置項
配置說明
儲存類型
內容類型
選擇您註冊資料的類型。此處非必選,預設為通用。
匯入配置:
配置項
配置說明
檔案系統
選擇在當前阿里雲賬戶下,當前地區建立的目標NAS系統。
檔案系統掛載點
配置掛載點來訪問NAS檔案系統。
重要請確保掛載點的VPC和資源群組的VPC網路已連通:
推薦NAS掛載點與資源群組使用同一VPC,確保網路連通。
其他情境,請參考網路連通方案概述將NAS掛載點的VPC與資源群組配置的VPC網路打通。
檔案系統路徑
指定需要掛載的NAS檔案夾路徑,預設為根目錄
/路徑。需要確保該路徑在NAS系統中確實存在,否則在使用該資料集時會出現錯誤。預設掛載路徑
指定上述NAS檔案夾在資料集的預設掛載路徑,後續您可以通過該路徑在DataWorks訪問上述NAS路徑上的資料。系統預設為
/mnt/data/,可手動調整掛載路徑。
管理資料集
在中,進入目標空間下的資料集列表,單擊需要管理的資料集操作列的詳情,進入資料集詳情頁面,可查看資料集的詳細概覽資訊和資料集版本資訊,並且還可以進行以下操作:
建立版本:單擊右上方的建立版本按鈕,進入資料集版本建立頁面。在建立新版本時,您可以自訂OSS路徑或NAS檔案系統配置,並設定預設掛載路徑。
刪除資料集:單擊資料集詳情頁右上方的刪除按鈕,即可刪除該資料集。
查看資料集資料:僅支援查看Object Storage Service類型的資料集。在資料集版本模組標題右側的下拉式功能表中選擇目標版本後,單擊去OSS查看,即可直接跳轉至OSS管理主控台並進入對應版本配置的儲存路徑。
刪除版本:在資料集版本模組標題右側的下拉式功能表中選擇目標版本後,單擊刪除按鈕即可刪除該版本。
無論是刪除資料集還是刪除資料集版本,不會刪除原始檔案,但刪除後在DataWorks資料集功能中將無法恢複,請謹慎操作。
使用資料集
DataWorks支援您在資料開發節點(Shell節點、Python節點、Notebook開發)以及個人開發環境中使用已建立的資料集。
具體操作請參見使用資料集。