在進行資料處理或模型訓練之前,您需要準備好指定的資料集。PAI-AI資產管理提供了強大的資料集管理功能,允許您建立和管理資料集及其多個版本。通過資料集版本管理,您可以精確複現實驗、追蹤資料版本、記錄資料變更的血緣關係,並在新版本出現問題時快速切換至舊版本,從而確保業務的連續性。
資料集簡介
資料集管理功能支援對基礎資料集和標註資料集進行全面管理。基礎資料集通常包含大量的原始資訊,主要用於預訓練模型以捕捉廣泛的特徵和模式;標註資料集是經過人工標註的、具有明確標籤的資料,主要用於模型微調和評估,以提高模型在特定任務上的效能。
|
專案 |
基礎資料集 |
標註資料集 |
|
定義 |
未經標註的未經處理資料 |
經人工標註的帶標籤資料 |
|
資料處理 |
資料清洗、去重等 |
資料標註、驗證等 |
|
應用情境 |
|
|
進入資料集管理
-
登入PAI控制台。
-
在頂部左上方根據實際情況選擇地區。
-
在左側導覽列選擇工作空间列表,單擊指定工作空間名稱,進入對應工作空間內。
-
在左側導覽列選擇AI资产管理 > 数据集。
建立基礎資料集
在自定义数据集頁簽下單擊新建数据集,数据类型選擇基础型。在建立資料集時,資料存储类型支援Object Storage Service、檔案儲存體(通用型NAS、極速型NAS、CPFS、智算CPFS),關鍵參數配置如下:
儲存類型為Object Storage Service
|
參數 |
描述 |
|
内容类型 |
選擇資料的類型,支援圖片、文本、音頻、視頻、表格、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。 |
|
所有者 |
選擇資料集所有者。僅工作空間管理員可配置該參數。 |
|
导入格式/OSS 路径 |
|
|
默认挂载路径 |
資料的預設掛載路徑,常用於DSW和DLC中:
|
|
开启版本加速 |
當导入格式選擇檔案夾時,支援開啟資料集版本加速。關鍵配置如下:
|
儲存類型為檔案儲存體
|
參數 |
描述 |
|
内容类型 |
選擇資料的類型,支援圖片、文本、音頻、視頻、表格、通用。如果選擇了特定類型,則在後續的標註情境中,系統會幫您進行資料集篩選。 |
|
所有者 |
選擇資料集所有者。僅工作空間管理員可配置該參數。 |
|
文件系统 |
選擇檔案系統,和資料存储类型對應。 |
|
文件系统挂载点 |
配置掛載點來訪問NAS檔案系統。 |
|
文件系统路径 |
配置NAS中已有的儲存路徑。例如 |
|
默认挂载路径 |
資料的預設掛載路徑,常用於DSW和DLC中:
|
|
开启版本加速 |
當資料存储类型為通用型NAS、極速型NAS或CPFS時,支援開啟資料集版本加速。關鍵配置如下:
|
建立基礎資料集版本
在自定义数据集頁簽下單擊指定資料集操作列的新建版本。
關鍵說明如下:
-
資料集名稱、儲存類型、資料類型與原資料集V1版本相同,不可修改。
-
資料集版本由系統預設產生,不可修改。
-
其他關鍵參數配置,請參見建立基礎資料集中的參數說明。
查看公用資料集
系統內建多種公用資料集(如MMLU、CMMLU、GSM8K等),您可以在公共数据集頁簽下單擊資料集名稱,查看公用資料集基本資料。
公用資料集列表展示每個資料集的資料集名稱/ID、類型、任務、語言、大小、資料量和發布方資訊。
管理資料集
對於自訂資料集,您可以對其進行版本列表查看、建立版本、公開和刪除等操作;對於標註資料集,您可以對其進行資料查看、公開和刪除等操作。
關鍵說明如下:
-
對於可见范围為仅数据集所有者可见的資料集,您也可以單擊公开数据集,將資料集在工作空間內公開,讓所有工作空間成員均可以查看該資料集。一旦公開後,該資料集後續不能再轉為僅資料集所有者可見,請謹慎操作。
-
通過RAM使用者查看資料集資料時,如果提示沒有存取權限,請為RAM使用者授權。
-
刪除資料集時,可能會影響已有的任務正常運行。一旦刪除,則不可恢複,請謹慎操作。