在提交DLC訓練任務時,您可以通過代碼配置或掛載的方式配置OSS、NAS、CPFS或MaxCompute儲存,從而方便地在訓練過程中直接讀寫相應儲存中的資料。本文為您介紹如何在DLC訓練任務中進行OSS、MaxCompute、NAS或CPFS的儲存配置。
前提條件
已開通PAI(DLC)並建立工作空間。具體操作,請參見開通PAI並建立預設工作空間。
(可選)配置OSS資料存放區時,需要完成以下準備工作:
(可選)配置NAS資料存放區時:需要建立通用型NAS檔案系統,詳情請參見建立檔案系統。
(可選)配置MaxCompute儲存時:需要開通MaxCompute並建立MaxCompute專案,詳情請參見開通MaxCompute和建立MaxCompute專案。
使用OSS儲存
通過掛載方式進行OSS儲存配置
在建立分布式訓練(DLC)任務時,掛載OSS儲存。支援以下幾種掛載類型,具體配置方法,請參見建立訓練任務。
掛載類型 | 描述 |
資料集 | 通過資料集(自訂資料集或公用資料集)進行掛載,其中:
選擇Object Storage Service類型的資料集,並配置掛載路徑,當執行DLC任務時,系統會按照該路徑來訪問OSS中的資料。 |
直接掛載 | 直接掛載OSS Bucket儲存路徑,並通過是否唯讀開關,來設定讀寫權限。 |
當前DLC底層支援使用JindoFuse和ossfs來掛載OSS:
通過非掛載方式進行OSS儲存配置
DLC任務支援使用OSS Pytorch Connector或OSS SDK來讀寫OSS資料。您可以在建立訓練任務時,通過代碼配置來配置相關代碼檔案。具體程式碼範例,請參見OSS Pytorch Connector或OSS SDK。
使用NAS/CPFS儲存
您可以在建立分布式訓練(DLC)任務時,通過綁定NAS/CPFS類型的自訂資料集或直接掛載的方式,使用NAS/CPFS儲存。具體配置方法,請參見NAS/CPFS使用。
掛載類型 | 描述 |
資料集 | 通過自訂資料集進行掛載,您可以通過是否唯讀開關,來設定讀寫權限。 |
直接掛載 | 直接掛載NAS/CPFS檔案系統,並通過是否唯讀開關,來設定讀寫權限。 此外,您還可以在進階配置中,通過設定nconnect參數提升DLC容器訪問NAS的吞吐效能。nconnect是NFS用戶端Linux掛載選項,通過在用戶端和伺服器之間建立更多的TCP傳輸串連來提高吞吐效能,詳情請參見如何解決Linux作業系統上訪問NAS效能不好?。參數樣本如下: |
使用MaxCompute儲存
通過非掛載的方式進行MaxCompute儲存配置。您可以在建立訓練任務時,通過代碼配置來配置相關代碼檔案。具體程式碼範例,請參見MaxCompute使用。
常見問題
使用paiio讀表沒有報錯但日誌裡顯示killed?
由於資源不足,paiio未做限制,導致MaxCompute資料讀取到記憶體時會出現膨脹現象,同時作業系統和其他系統組件也會佔用部分記憶體。
