全部產品
Search
文件中心

Platform For AI:在DLC訓練任務中使用雲端儲存

更新時間:Apr 02, 2025

在提交DLC訓練任務時,您可以通過代碼配置或掛載的方式配置OSS、NAS、CPFS或MaxCompute儲存,從而方便地在訓練過程中直接讀寫相應儲存中的資料。本文為您介紹如何在DLC訓練任務中進行OSS、MaxCompute、NAS或CPFS的儲存配置。

前提條件

使用OSS儲存

通過掛載方式進行OSS儲存配置

在建立分布式訓練(DLC)任務時,掛載OSS儲存。支援以下幾種掛載類型,具體配置方法,請參見建立訓練任務image

掛載類型

描述

資料集

通過資料集(自訂資料集或公用資料集)進行掛載,其中:

  • 公用資料集只支援唯讀掛載模式。

  • 自訂資料集(Object Storage Service)可以通過是否唯讀開關,來設定讀寫權限。

選擇Object Storage Service類型的資料集,並配置掛載路徑,當執行DLC任務時,系統會按照該路徑來訪問OSS中的資料。

直接掛載

直接掛載OSS Bucket儲存路徑,並通過是否唯讀開關,來設定讀寫權限。

當前DLC底層支援使用JindoFuse和ossfs來掛載OSS:

  • JindoFuse:預設使用JindoFuse,但使用DLC的預設配置有功能限制(詳情請參見JindoFuse),並不適合所有的情境。您可以通過調整參數,來適配具體的情境。具體操作,請參見JindoFuse

  • ossfs:通過直接掛載方式掛載OSS Bucket儲存路徑時,您可以在進階配置中設定{"mountType":"ossfs"},以使用ossfs方式進行掛載。image

通過非掛載方式進行OSS儲存配置

DLC任務支援使用OSS Pytorch Connector或OSS SDK來讀寫OSS資料。您可以在建立訓練任務時,通過代碼配置來配置相關代碼檔案。具體程式碼範例,請參見OSS Pytorch ConnectorOSS SDKimage

使用NAS/CPFS儲存

您可以在建立分布式訓練(DLC)任務時,通過綁定NAS/CPFS類型的自訂資料集或直接掛載的方式,使用NAS/CPFS儲存。具體配置方法,請參見NAS/CPFS使用image

掛載類型

描述

資料集

通過自訂資料集進行掛載,您可以通過是否唯讀開關,來設定讀寫權限。

直接掛載

直接掛載NAS/CPFS檔案系統,並通過是否唯讀開關,來設定讀寫權限。

此外,您還可以在進階配置中,通過設定nconnect參數提升DLC容器訪問NAS的吞吐效能。nconnect是NFS用戶端Linux掛載選項,通過在用戶端和伺服器之間建立更多的TCP傳輸串連來提高吞吐效能,詳情請參見如何解決Linux作業系統上訪問NAS效能不好?。參數樣本如下:

// 請將<樣本值>替換為具體的正整數。 
{"nconnect":"<樣本值>"}

使用MaxCompute儲存

通過非掛載的方式進行MaxCompute儲存配置。您可以在建立訓練任務時,通過代碼配置來配置相關代碼檔案。具體程式碼範例,請參見MaxCompute使用image

常見問題

使用paiio讀表沒有報錯但日誌裡顯示killed?

由於資源不足,paiio未做限制,導致MaxCompute資料讀取到記憶體時會出現膨脹現象,同時作業系統和其他系統組件也會佔用部分記憶體。