全部產品
Search
文件中心

Platform For AI:使用閑時資源

更新時間:Jan 01, 2025

本文為您介紹如何在使用預付費資源配額(Quota)提交分布式訓練(DLC)任務時,合理利用並配置閑時資源。

功能介紹

在PAI平台中,您可根據自身業務情境靈活劃分和分配Quota,不同業務團隊的訓練任務會消耗相應的Quota。但某些業務的Quota在特定時間段內可能閑置,而其他業務可能因缺少Quota而排隊,導致資源的錯配與浪費。

在大規模的叢集算力和複雜的組織圖下,資源使用率成為算力型產品的必然目標。為瞭解決上述問題,DLC提供了閑時資源能力。您可以通過該功能提交閑時計算任務,在不影響正常業務的前提下,提升整體算力資源使用率。

實現原理如下:

  • 閑時計算任務使用當前或其他Quota下的空閑計算資源。不受本Quota資源總量和剩餘資源數量的限制。

  • 當借用的空閑資源需要被原Quota任務使用時,閑時計算任務將會被終止,自動歸還資源。

  • 閑時計算任務配合PAI的AIMaster和EasyCKPT功能,自動提升任務續跑能力,避免算力浪費。

前提條件

已建立預付費資源配額(包括通用計算資源專有資源配額和靈駿智算資源配額),並綁定到工作空間。具體操作,請參見資源配額(Quota)功能介紹

提交DLC任務使用閑時資源

  1. 在控制台提交DLC訓練任務時,您可以在資源資訊地區,配置閑時資源,其中關鍵參數說明如下,更多詳情請參見建立訓練任務image

    參數

    描述

    資源配額

    選擇通用計算資源配額或靈駿智算資源配額。

    說明

    如果您需要進行高效能AI訓練和計算,可以使用靈駿智算資源。該資源僅支援在華北6(烏蘭察布)或新加坡地區使用。

    閑時資源

    取值如下:

    • 可接受:作業可以接受使用閑時計算資源,也可以使用當前已關聯的Quota。

    • 只接受:作業僅接受閑時計算資源,而不會使用當前已關聯的Quota內的資源。

    使用閑時資源的任務(即使用已關聯Quota外的資源啟動並執行任務),可能會被回收,導致任務停止。

    請確保程式碼封裝含Checkpoint機制,以便任務重新啟動續跑。具體操作,請參見EasyCkpt:AI大模型高效能狀態儲存恢複

    自動容錯

    由於閑時計算任務在資源緊張時有被搶佔的風險,為了最佳化這類任務的運行效率並提升整體算力的有效利用率,建議您開啟自動容錯功能。在閑時資源被回收的情況下,系統將自動尋找合適的資源,重新運行任務。具體配置方法,請參見AIMaster:彈性自動容錯引擎image

  2. 查看DLC任務資源使用詳情。

    • 在工作清單或詳情中,查看資源使用方式。image

      • 配額內:普通資源,表示運行該任務使用已關聯的Quota。

      • 配額外:閑時共用資源,表示運行該任務使用閑時計算資源。

    • 當任務使用的閑時資源被搶佔回收時,在任務詳情頁面的執行個體(Pod)狀態將被標記為被搶佔

      當隸屬於借出資源的Quota組,且不使用閑時資源的任務出隊後,如因資源不足導致無法調度時,系統將會為該Quota組回收資源以保障該任務的調度。此時,使用該閑時資源的任務執行個體狀態將被標記為被搶佔。

相關文檔

由於閑時計算任務在資源緊張時有被搶佔的風險,為了最佳化這類任務的運行效率並提升整體算力的有效利用率,DLC建議您啟用AIMaster:彈性自動容錯引擎功能,以便在任務被搶佔時實現無縫切換和繼續執行。推薦您使用PAI團隊提供的EasyCkpt:AI大模型高效能狀態儲存恢複組件,從而在任務被搶佔時最大限度地減少訓練進度損失,並實現任務的自動續跑和恢複。