本文為您介紹如何在使用預付費資源配額(Quota)提交分布式訓練(DLC)任務時,合理利用並配置閑時資源。
功能介紹
在PAI平台中,您可根據自身業務情境靈活劃分和分配Quota,不同業務團隊的訓練任務會消耗相應的Quota。但某些業務的Quota在特定時間段內可能閑置,而其他業務可能因缺少Quota而排隊,導致資源的錯配與浪費。
在大規模的叢集算力和複雜的組織圖下,資源使用率成為算力型產品的必然目標。為瞭解決上述問題,DLC提供了閑時資源能力。您可以通過該功能提交閑時計算任務,在不影響正常業務的前提下,提升整體算力資源使用率。
實現原理如下:
閑時計算任務使用當前或其他Quota下的空閑計算資源。不受本Quota資源總量和剩餘資源數量的限制。
當借用的空閑資源需要被原Quota任務使用時,閑時計算任務將會被終止,自動歸還資源。
閑時計算任務配合PAI的AIMaster和EasyCKPT功能,自動提升任務續跑能力,避免算力浪費。
前提條件
已建立預付費資源配額(包括通用計算資源專有資源配額和靈駿智算資源配額),並綁定到工作空間。具體操作,請參見資源配額(Quota)功能介紹。
提交DLC任務使用閑時資源
在控制台提交DLC訓練任務時,您可以在資源資訊地區,配置閑時資源,其中關鍵參數說明如下,更多詳情請參見建立訓練任務。

參數
描述
資源配額
選擇通用計算資源配額或靈駿智算資源配額。
說明如果您需要進行高效能AI訓練和計算,可以使用靈駿智算資源。該資源僅支援在華北6(烏蘭察布)或新加坡地區使用。
閑時資源
取值如下:
可接受:作業可以接受使用閑時計算資源,也可以使用當前已關聯的Quota。
只接受:作業僅接受閑時計算資源,而不會使用當前已關聯的Quota內的資源。
使用閑時資源的任務(即使用已關聯Quota外的資源啟動並執行任務),可能會被回收,導致任務停止。
請確保程式碼封裝含Checkpoint機制,以便任務重新啟動續跑。具體操作,請參見EasyCkpt:AI大模型高效能狀態儲存恢複。
自動容錯
由於閑時計算任務在資源緊張時有被搶佔的風險,為了最佳化這類任務的運行效率並提升整體算力的有效利用率,建議您開啟自動容錯功能。在閑時資源被回收的情況下,系統將自動尋找合適的資源,重新運行任務。具體配置方法,請參見AIMaster:彈性自動容錯引擎。

查看DLC任務資源使用詳情。
在工作清單或詳情中,查看資源使用方式。

配額內:普通資源,表示運行該任務使用已關聯的Quota。
配額外:閑時共用資源,表示運行該任務使用閑時計算資源。
當任務使用的閑時資源被搶佔回收時,在任務詳情頁面的執行個體(Pod)狀態將被標記為被搶佔。
當隸屬於借出資源的Quota組,且不使用閑時資源的任務出隊後,如因資源不足導致無法調度時,系統將會為該Quota組回收資源以保障該任務的調度。此時,使用該閑時資源的任務執行個體狀態將被標記為被搶佔。
相關文檔
由於閑時計算任務在資源緊張時有被搶佔的風險,為了最佳化這類任務的運行效率並提升整體算力的有效利用率,DLC建議您啟用AIMaster:彈性自動容錯引擎功能,以便在任務被搶佔時實現無縫切換和繼續執行。推薦您使用PAI團隊提供的EasyCkpt:AI大模型高效能狀態儲存恢複組件,從而在任務被搶佔時最大限度地減少訓練進度損失,並實現任務的自動續跑和恢複。