建立DLC訓練任務前,需準備計算資源、鏡像、資料集和代碼集。PAI支援OSS、NAS、CPFS等多種儲存類型。
前提條件
如果您使用OSS作為儲存系統,請確保已經根據業務需求為DLC授予了OSS存取權限。否則掛載OSS後,進行資料訪問時,可能產生I/O錯誤。關於如何為DLC授予OSS存取權限,請參見雲產品依賴與授權:DLC。
步驟一:準備資源
提交訓練任務前,您需要準備計算資源,用於後續AI訓練。以下資源任選其一即可:
步驟二:準備鏡像
準備訓練環境所需的鏡像。支援以下選項:
-
官方鏡像:PAI提供基於不同架構的官方鏡像,針對阿里雲服務進行了最佳化,相容性和效能更好。前往PAI控制台的AI資產管理鏡像頁面,在镜像:頁面的PAI官方镜像頁簽中,您可以通過篩選使用子產品為DLC,來查看支援提交DLC任務的鏡像列表詳細資料。

-
自訂鏡像:如果您的訓練任務需要特殊的環境或依賴,可選擇使用您添加到PAI的自訂鏡像,在選擇前,您需要先將自訂鏡像添加到PAI中。為了方便管理和使用,建議您在工作空間的頁面中,將該鏡像添加為PAI的AI資產,便於多個訓練任務直接選擇使用。操作詳情請參見自訂鏡像。
重要使用靈駿智算資源提交訓練任務時,如果選擇使用自訂鏡像提交訓練任務,則相關注意事項,請參見RDMA:使用高效能網路進行分布式訓練。
-
鏡像地址:提交訓練任務時,支援填寫您的自訂鏡像或官方鏡像地址。您可以前往PAI控制台的AI資產管理鏡像頁面,查看鏡像地址。
步驟三:準備資料集
準備訓練資料。您可以將資料上傳至OSS、NAS或CPFS,並建立為資料集,或直接掛載OSS資料、公用資料集。
支援的資料集類型
支援Object Storage Service、檔案儲存體(通用型NAS)、檔案儲存體(極速型NAS)、檔案儲存體(CPFS)和檔案儲存體(智算CPFS)類型的資料集。除檔案儲存體(智算CPFS)類型外,其他類型的資料集均支援開啟資料集加速功能。後續提交分布式訓練任務時,可直接使用已開啟加速的資料集,提升資料讀取效率。
建立資料集
操作步驟和參數說明請參見建立及管理資料集。準備資料集時,有以下注意事項:
-
OSS限制:OSS是分布式Object Storage Service,並非真正的檔案系統,因此不支援檔案系統的部分功能。例如,掛載OSS後,不支援對已存在的檔案進行追加寫和覆蓋寫。
-
CPFS專用網路:如果建立的資料集類型為檔案儲存體(CPFS),則在提交訓練任務時,需要配置專用網路,並選擇與CPFS一致的專用網路。否則,提交的DLC訓練任務會運行異常,任務可能長時間處於環境準備中狀態。
開啟資料集加速功能
您可以開啟資料集加速功能,在提交訓練任務時,可以直接使用已開啟加速的資料集,提升資料讀取效率。詳情請參見在PAI平台使用資料集加速器。
步驟四:準備代碼集
準備訓練代碼。建議在工作空間的頁面中將代碼添加為AI資產,便於多個訓練任務使用。操作詳情請參見代碼配置。
後續步驟
完成準備工作後,您可以建立訓練任務,詳情請參見建立訓練任務。