為EAS服務配置GPU共用實現單卡多執行個體-人工智慧平台 PAI-阿里雲

為部署模型服務時更經濟、高效地利用計算資源，模型線上服務（EAS）提供了GPU切分功能。該功能允許將一張物理GPU卡的算力和顯存資源，切分給多個服務執行個體共用使用，從而顯著提升GPU利用率並降低部署成本。

適用範圍

僅滿足以下條件時可配置GPU切分功能：

資源類型：使用EAS資源群組或靈駿智算資源配額。
執行個體狀態：資源群組中的GPU執行個體必須處於運行中狀態（非啟動中、停止等狀態）。
說明
首次購買GPU機器時，初始化通常需要8-10分鐘，請耐心等待執行個體完全就緒後再進行配置。

可以在建立或更新服務時配置GPU切分。

在资源信息地區，配置以下關鍵參數，其他參數配置說明，請參見自訂部署。

參數	描述
资源类型	選擇EAS资源组或资源配额。
GPU切分	選中該複選框以啟用GPU切分功能。說明若無該選項，請參見為什麼沒有GPU切分選項。
部署资源	单卡使用显存（GB）：必選，每個執行個體所需的單個GPU顯存大小，取值為整型。系統支援執行個體按顯存進行調度，實現多執行個體共用單卡功能。重要 ml開頭的資源規格單卡使用顯存單位為GB，ecs開頭的資源規格單位為GiB。单卡算力占比（%）：可選，每個執行個體所需的單個GPU算力比例，取值為1～100之間的整數。系統支援執行個體按算力進行調度，實現多執行個體共用單卡功能。單卡使用顯存和單卡算力佔比這兩個配置項是“且”的關係。例如，設定單卡使用顯存為48 GB，單卡算力佔比為10%，則表示最多隻能用48 GB顯存，並且同時最多隻能用10%的算力。

請按以下步驟排查：