為部署模型服務時更經濟、高效地利用計算資源,模型線上服務(EAS)提供了GPU切分功能。該功能允許將一張物理GPU卡的算力和顯存資源,切分給多個服務執行個體共用使用,從而顯著提升GPU利用率並降低部署成本。
適用範圍
配置GPU切分
可以在建立服務或更新服務時,通過PAI控制台或eascmd用戶端配置GPU切分。
通過控制台
登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS。
通過建立服務或者更新服務進入服務配置頁面。
在資源資訊地區,配置以下關鍵參數,其他參數配置說明,請參見自訂部署。

參數
描述
資源類型
選擇EAS資源群組或資源配額。
GPU切分
選中該複選框以啟用GPU切分功能。
說明選擇EAS專屬資源群組、虛擬資源群組或靈駿資源配額之後,才會出現GPU切分的選項。
部署資源
單卡使用顯存(GB):必選,每個執行個體所需的單個GPU顯存大小,取值為整型。系統支援執行個體按顯存進行調度,實現多執行個體共用單卡功能。
重要ml開頭的資源規格單卡使用顯存單位為GB,ecs開頭的資源規格單位為GiB。
單卡算力佔比(%):可選,每個執行個體所需的單個GPU算力比例,取值為1~100之間的整數。系統支援執行個體按算力進行調度,實現多執行個體共用單卡功能。
單卡使用顯存和單卡算力佔比這兩個配置項是“且”的關係。例如,設定單卡使用顯存為48 GB,單卡算力佔比為10%,則表示最多隻能用48 GB顯存,並且同時最多隻能用10%的算力。
參數配置完成後,單擊部署或更新。
通過本地用戶端
JSON設定檔中關於GPU切分的欄位樣本如下:
{ "metadata": { "gpu_core_percentage": 5, "gpu_memory": 20 } }gpu_memory:對應控制台的單卡使用顯存(GB)。
gpu_core_percentage:對應控制台的單卡算力佔比(%)。指定該參數時,必須指定gpu_memory參數,否則該參數不生效。
重要如果使用顯存調度,gpu欄位需不配置或配置為0。當gpu欄位配置為1時,表示執行個體獨佔整張GPU卡,此時gpu_memory和gpu_core_percentage欄位會被忽略。
參見命令使用說明,使用
create或modify命令建立服務或修改服務配置。