為部署模型服務時更經濟、高效地利用計算資源,模型線上服務(EAS)提供了GPU切分功能。該功能允許將一張物理GPU卡的算力和顯存資源,切分給多個服務執行個體共用使用,從而顯著提升GPU利用率並降低部署成本。
適用範圍
僅滿足以下條件時可配置GPU切分功能:
配置指南
可以在建立或更新服務時配置GPU切分。
通過控制台
登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS。
通過建立服務或者更新服務進入服務配置頁面。
在资源信息地區,配置以下關鍵參數,其他參數配置說明,請參見自訂部署。

參數
描述
资源类型
選擇EAS资源组或资源配额。
GPU切分
選中該複選框以啟用GPU切分功能。
說明若無該選項,請參見為什麼沒有GPU切分選項。
部署资源
单卡使用显存(GB):必選,每個執行個體所需的單個GPU顯存大小,取值為整型。系統支援執行個體按顯存進行調度,實現多執行個體共用單卡功能。
重要ml開頭的資源規格單卡使用顯存單位為GB,ecs開頭的資源規格單位為GiB。
单卡算力占比(%):可選,每個執行個體所需的單個GPU算力比例,取值為1~100之間的整數。系統支援執行個體按算力進行調度,實現多執行個體共用單卡功能。
單卡使用顯存和單卡算力佔比這兩個配置項是“且”的關係。例如,設定單卡使用顯存為48 GB,單卡算力佔比為10%,則表示最多隻能用48 GB顯存,並且同時最多隻能用10%的算力。
參數配置完成後,單擊部署或更新。
通過本地用戶端
JSON設定檔中關於GPU切分的欄位樣本如下:
{ "metadata": { "gpu_core_percentage": 5, "gpu_memory": 20 } }gpu_memory:對應控制台的单卡使用显存(GB)。
gpu_core_percentage:對應控制台的单卡算力占比(%)。指定該參數時,必須指定gpu_memory參數,否則該參數不生效。
重要如果使用顯存調度,gpu欄位需不配置或配置為0。當gpu欄位配置為1時,表示執行個體獨佔整張GPU卡,此時gpu_memory和gpu_core_percentage欄位會被忽略。
參見命令使用說明,使用
create或modify命令建立服務或修改服務配置。
常見問題
Q:為什麼在控制台沒有看到“GPU切分”選項?
請按以下步驟排查:
確認資源類型選擇 EAS資源群組或靈駿智算資源配額。
檢查所選資源群組中是否包含GPU資源(即GPU列是否顯示為0)。
檢查GPU執行個體狀態是否為"運行中"(非"啟動中"、"停止"等狀態)。如果資源正在初始化,需要等待資源完全就緒。