在多團隊協作環境中,合理分配計算資源是確保各團隊高效運作的關鍵。本方案通過建立資源配額並為不同團隊分配這些資源,來實現資源的有效管理和利用。
背景資訊
情境樣本
假設購買AI計算資源(例如總計128卡GPU),用於A、B和C三個團隊。其中:
A團隊負責推理服務,需要高資源保障。
B團隊和C團隊分別是訓練團隊,用來提交訓練任務。
B和C團隊的訓練任務相較於A團隊的推理服務優先順序更低。即當A團隊推理資源不足時,系統可以快速回收用於訓練的資源,優先滿足推理服務的需求。
B和C團隊使用的計算資源量可調整,可以根據實際需求動態增加或減少資源。
B和C團隊可以管理各自的資源和任務。
方案介紹
本文以上圖情境為例,方案介紹如下:
建立資源配額Quota1(例如128卡GPU),並開啟子級算力搶佔開關。然後為Quota1建立兩個子級資源配額,分別為Quota1.1(例如48卡GPU)和Quota1.2(例如80卡GPU)。如上圖所示,Quota1與Quota1.1和Quota1.2形成父子級關係QuotaTree,其中Quota1為父級資源配額,Quota1.1和Quota1.2為子級資源配額。
為團隊A建立工作空間workspace-a,並綁定Quota1。在Quota1上部署EAS服務,用於模型推理。
為團隊B建立工作空間workspace-b,並綁定Quota1.1。在Quota1.1上建立DLC任務。
為團隊C建立工作空間workspace-c,並綁定Quota1.2。在Quota1.2上建立DSW執行個體,進行模型開發。
操作方法
請準備好所需的AI計算資源(通用計算資源或靈駿智算資源)。具體購買方法,請參見資源集區。如果您已購買了AI計算資源,可忽略該步驟。
建立資源配額。
分別建立以下三個工作空間並綁定資源配額。具體操作,請參見建立及管理工作空間。
團隊A:工作空間名稱為workspace-a;新增關聯資源選擇Quota1。
團隊B:工作空間名稱為workspace-b;新增關聯資源選擇Quota1.1。
團隊C:工作空間名稱為workspace-c;新增關聯資源選擇Quota1.2。
為團隊A、B和C添加了工作空間管理員權限。具體操作,請參見管理工作空間。您還可以參考附錄:角色及許可權列表,添加其他相應的許可權。
建立推理服務和訓練任務。
功能情境
情境一:推理資源不足,搶佔訓練任務
管理員需要前往資源配額(Quota)頁面,單擊父級資源配額名稱Quota1,然後在概覽頁面中開啟子級算力搶佔開關。
開關開啟後,當團隊A在工作空間workspace-a中,使用Quota1提交新的推理服務時,如果系統發現資源不足(由於團隊B和C使用子級資源配額建立了訓練任務)。系統將回收團隊B和C中正在啟動並執行任務的算力資源,以保障團隊A推理服務的運行。
情境二:團隊B和團隊C的資源再分配
管理員根據團隊B和團隊C的需求,通過資源配額擴縮容功能,調整Quota1.1和Quota1.2的資源。具體操作,請參見擴縮容資源配額。
例如:將Quota1.1的GPU從48卡擴容到56卡(新增8卡)。
例如:將Quota1.2的GPU從80卡縮容到72卡(減少8卡)。
情境三:團隊B和團隊C的許可權隔離
Quota1.1分配給了團隊B的workspace-b,Quota1.2分配給了團隊C的workspace-c。團隊B和團隊C可以在各自的工作空間中管理資源和任務等許可權。詳情請參見工作空間調度中心。