全部產品
Search
文件中心

:使用共用GPU調度實現cGPU算力分配策略

更新時間:Mar 21, 2026

ACK專有版叢集支援共用GPU能力,ACK專有版叢集的共用GPU隔離功能由共用技術cGPU實現。關於cGPU的更多資訊,請參見什麼是GPU容器共用技術cGPU。共用GPU算力隔離提供不同的分配策略,您可以在ACK專有版叢集中通過設定共用GPU組件的Policy來選擇不同的分配策略。本文介紹如何通過配置共用GPU算力分配策略,實現不同效果的算力分配。

前提條件

已建立ACK專有版GPU叢集。具體操作,請參見為叢集添加GPU節點

注意事項

  • 如果您的節點已安裝cGPU隔離模組,在安裝共用GPU組件之後,您需要重啟該節點,Policy才會生效。如果您的節點未安裝cGPU隔離模組或已卸載cGPU隔離模組,安裝共用GPU組件後,Policy立即生效。關於重啟節點的具體操作,請參見重啟執行個體

    說明
    • 您可以登入節點,執行命令,查看是否安裝cGPU隔離模組。執行命令後顯示cGPU的版本號碼,表明已安裝cGPU隔離模組。

    • 僅支援1.0.6及以上版本的cGPU。關於cGPU的升級操作,請參見升級節點cGPU版本

  • 同一個叢集中的共用GPU節點只能使用同一種Policy。

步驟一:查看是否已安裝共用GPU組件

配置共用GPU算力分配策略時,未安裝共用GPU組件和已安裝共用GPU組件的操作方式不同,因此需要您確認叢集是否已安裝共用GPU組件。

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集列表

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇應用 > Helm

  3. Helm頁面的組件列表,查看是否存在cgpu組件。

    若存在cgpu組件,表示您已安裝共用GPU組件;若不存在cgpu組件,表示您未安裝共用GPU組件。

步驟二:配置共用GPU算力分配策略

未安裝共用GPU組件

  1. 登入Container Service管理主控台,在左側導覽列選擇市場 > 應用市場

  2. 搜尋並單擊ack-cgpu,在ack-cgpu頁面右側,單擊一鍵部署

  3. 基本資料設定精靈頁面,選擇叢集命名空間,輸入發布名稱。然後單擊下一步

  4. 參數配置設定精靈頁面,選擇Chart 版本,在參數地區,配置policy欄位,然後單擊確定

    policy取值說明如下。關於時間片及調度策略的更多資訊,請參見cGPU服務使用樣本

    取值

    說明

    0

    平均調度。每個容器佔用固定的時間片,時間片佔比為1/max_inst

    1

    搶佔調度。每個容器佔用盡量多的時間片,時間片佔比為1/當前容器數

    2

    權重搶佔調度。當ALIYUN_COM_GPU_SCHD_WEIGHT的取值大於1時,自動使用權重搶佔調度。

    3

    固定算力調度。用於固定算力的百分比。

    4

    算力弱調度。隔離性弱於搶佔調度。

    5

    原生調度。即GPU驅動本身的調度方式。

已安裝共用GPU組件

  1. 執行以下命令,編輯共用GPU組件中安裝cGPU隔離模組的Daemonset。

    kubectl edit daemonset cgpu-installer -nkube-system
  2. 修改並儲存安裝cGPU隔離模組的Daemonset。

    1. image欄位,查看Daemonset的鏡像版本。

      請確保鏡像版本為v1.0.6及其以上。image欄位樣本如下:

       image: registry-vpc.cn-hongkong.aliyuncs.com/acs/cgpu-installer:<鏡像版本>
    2. 修改value值。

      containers.env參數下,POLICYvalue修改為目標策略值。關於value的取值說明,請參見取值說明

      # 省略其他欄位。
      spec:
        containers:
        - env:
          - name: POLICY
            value: "1"
      # 省略其他欄位。
  3. 重啟共用GPU節點執行個體。

    關於重啟節點的具體操作,請參見重啟執行個體

相關文檔