全部產品
Search
文件中心

Platform For AI:GPU切分

更新時間:Mar 03, 2026

為部署模型服務時更經濟、高效地利用計算資源,模型線上服務(EAS)提供了GPU切分功能。該功能允許將一張物理GPU卡的算力和顯存資源,切分給多個服務執行個體共用使用,從而顯著提升GPU利用率並降低部署成本。

適用範圍

僅滿足以下條件時可配置GPU切分功能:

  • 資源類型:使用EAS資源群組靈駿智算資源配額

  • 執行個體狀態:資源群組中的GPU執行個體必須處於運行中狀態(非啟動中、停止等狀態)。

    說明

    首次購買GPU機器時,初始化通常需要8-10分鐘,請耐心等待執行個體完全就緒後再進行配置。

配置指南

可以在建立或更新服務時配置GPU切分。

通過控制台

  1. 登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS

  2. 通過建立服務或者更新服務進入服務配置頁面。

  3. 资源信息地區,配置以下關鍵參數,其他參數配置說明,請參見自訂部署

    image

    參數

    描述

    资源类型

    選擇EAS资源组资源配额

    GPU切分

    選中該複選框以啟用GPU切分功能。

    說明

    若無該選項,請參見為什麼沒有GPU切分選項

    部署资源

    • 单卡使用显存(GB):必選,每個執行個體所需的單個GPU顯存大小,取值為整型。系統支援執行個體按顯存進行調度,實現多執行個體共用單卡功能。

      重要

      ml開頭的資源規格單卡使用顯存單位為GB,ecs開頭的資源規格單位為GiB

    • 单卡算力占比(%):可選,每個執行個體所需的單個GPU算力比例,取值為1~100之間的整數。系統支援執行個體按算力進行調度,實現多執行個體共用單卡功能。

    單卡使用顯存單卡算力佔比這兩個配置項是“且”的關係。例如,設定單卡使用顯存為48 GB,單卡算力佔比為10%,則表示最多隻能用48 GB顯存,並且同時最多隻能用10%的算力。

  4. 參數配置完成後,單擊部署更新

通過本地用戶端

  1. JSON設定檔中關於GPU切分的欄位樣本如下:

    {
        "metadata": {
            "gpu_core_percentage": 5,
            "gpu_memory": 20
        }
    }
    • gpu_memory:對應控制台的单卡使用显存(GB)

    • gpu_core_percentage:對應控制台的单卡算力占比(%)。指定該參數時,必須指定gpu_memory參數,否則該參數不生效。

    重要

    如果使用顯存調度,gpu欄位需不配置或配置為0。當gpu欄位配置為1時,表示執行個體獨佔整張GPU卡,此時gpu_memorygpu_core_percentage欄位會被忽略。

  2. 參見命令使用說明,使用create 或 modify 命令建立服務或修改服務配置。

常見問題

Q:為什麼在控制台沒有看到“GPU切分”選項?

請按以下步驟排查:

  1. 確認資源類型選擇 EAS資源群組靈駿智算資源配額

  2. 檢查所選資源群組中是否包含GPU資源(即GPU列是否顯示為0)。

  3. 檢查GPU執行個體狀態是否為"運行中"(非"啟動中"、"停止"等狀態)。如果資源正在初始化,需要等待資源完全就緒。