在使用資料集加速器(DatasetAccelerator)前,您需要建立資料集加速槽來綁定資料來源地址。系統會根據資料來源類型、資料大小、訓練的架構以及模型等因素,對關聯的資料集進行預先處理,以提高訪問速度。本文為您介紹如何建立和管理資料集加速槽。
前提條件
已建立資料集加速執行個體,具體操作,請參見建立及管理資料集加速執行個體。
建立資料集加速槽
登入PAI控制台,在左側導覽列,選擇。
進入建立加速槽配置面板。
方式一:在加速槽頁簽,單擊建立加速槽。
方式二:在加速執行個體詳情頁面建立加速槽。
說明使用該方式建立加速槽時,所屬執行個體為當前加速執行個體,不支援選擇其他加速執行個體。
在加速執行個體頁簽中,單擊目標執行個體名稱,進入加速執行個體詳情頁面。
在資料集加速槽頁簽中,單擊建立加速槽。
在建立加速槽配置面板,配置以下關鍵參數。
參數
描述
所屬執行個體
選擇已建立的加速執行個體。
綁定雲產品
選擇與加速執行個體配置的資料來源類型一致的雲產品。取值如下:
阿里雲Object Storage Service
讀寫屬性:設定OSS的讀寫權限。支援唯讀和可讀寫。
選定OSS路徑:選擇資料集在OSS中的儲存目錄。
阿里雲檔案儲存體(通用型NAS)&阿里雲檔案儲存體(極速型NAS)
選擇檔案系統:選擇已建立的檔案系統的ID。
檔案系統掛載點:選擇掛載點,通過掛載點訪問檔案系統。
檔案系統路徑:選擇NAS中已有的儲存路徑。預設為
/。
最大容量
配置資料集加速槽容量,需大於等於資料集容量。您可以參考需要加速的具體資料集容量來配置。
掛載點
僅綁定雲產品選擇阿里雲Object Storage Service時,支援配置該參數。
選擇或建立掛載點,將資料集加速器掛載到訓練叢集。在訓練叢集中進行模型訓練時,訓練任務可以通過掛載點來訪問資料集加速槽,進而讀取加速槽關聯的資料集,提高了資料集訪問效率。
支援以下兩種配置方法:
選擇掛載點:選擇已有的掛載點。
建立掛載點:配置以下參數,建立新的掛載點。
掛載點類型:僅支援VPC。
VPC網路:選擇已建立的專用網路。如果沒有可用的專用網路,您也可以單擊建立專用網路進行建立。
交換器:選擇已建立的交換器。如果沒有可用的交換器,您也可以單擊建立交換器進行建立。
說明資料集加速器只支援專用網路類型的掛載點。
一個專用網路類型掛載點,可以被同VPC下不同交換器下的訓練叢集使用。
添加掛載點時,檔案系統會佔用一個IP地址,建議您選擇內網IP較多的交換器。
掛載點只支援被同一VPC網路的訓練叢集掛載。
啟動自動回收
開啟啟動自動回收開關,配置資料集加速槽的已耗用時間或停止時間。
單擊提交。
系統將初始化加速槽執行個體,待狀態變為運行中時,即可使用。
管理資料集加速槽
支援在加速槽頁簽或加速執行個體詳情頁面管理資料集加速槽,兩個頁面的管理操作相同。
單擊加速槽名稱,進入詳情頁面,查看基本資料。
將滑鼠移至上方在②位置,查看資料集儲存類型。
支援停止或刪除不再使用的加速槽,或複製一個新的加速槽。也可以單擊自動回收配置已耗用時間或自動停止時間。
管理掛載點
單擊加速槽名稱進入加速槽詳情頁面,在該頁面管理掛載點。
查看配置資訊:將滑鼠移至上方在掛載點名稱上,可以查看掛載點的配置資訊。
查看部署配置:單擊掛載點名稱,會展示安裝資料集加速器用戶端的部署配置。
下載部署配置:在部署配置面板,單擊下載按鈕,下載YAML檔案,用於在訓練叢集中配置資料集加速器。

後續步驟
您可以啟用資料集的加速功能,以便在建立DSW執行個體或提交DLC任務時使用,從而加快對資料集的訪問速度。詳情請參見在PAI平台使用資料集加速器。