全部產品
Search
文件中心

Container Service for Kubernetes:升級節點cGPU版本

更新時間:Sep 12, 2025

ACK叢集支援GPU共用調度時節點需要安裝cGPU模組。本文介紹如何通過命令及控制台升級節點上的cGPU模組。

步驟一:組件升級

叢集類型

組件升級方式

  • ACK託管叢集Pro版

  • ACK Edge叢集Pro版

ack-ai-installer組件升級方式,請參見升級共用GPU調度組件

ACK專有叢集

ack-cgpu組件升級方式,請按照如下步驟進行:

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集列表

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇應用 > Helm

  3. Helm頁面,找到ack-cgpu組件,點擊其對應的更新按鈕,選擇對應的版本,然後單擊確定

步驟二:存量節點升級

重要
  • 升級過程中需停止節點上的GPU業務應用。

  • 建議先操作一個節點,驗證GPU業務沒有問題以後,再大量操作其他GPU節點。

  • 本方案會重設節點的作業系統盤,如果您的節點作業系統盤存在資料,請先做好備份。

1. 移除並重新添加節點

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集列表

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇節點管理 > 節點

  3. 節點頁面選中待升級的cGPU節點,單擊大量移除移除節點對話方塊選中自動排空節點(drain)

  4. 將移除的節點重新添加到原有的節點池中。具體操作,請參見添加已有節點

    重要

    添加節點方式請選擇自動添加。手動添加節點方式不會進行重設節點操作。

2. 結果驗證

  1. 執行以下命令,查詢新添加節點所對應的cgpu-installer。

    kubectl get po -l name=cgpu-installer -n kube-system -o wide

    預期輸出:

    NAME                   READY   STATUS    RESTARTS   AGE    IP                NODE                         NOMINATED NODE   READINESS GATES
    cgpu-installer-*****   1/1     Running   0          4d2h   192.168.XXX.XX1   cn-beijing.192.168.XXX.XX1   <none>           <none>
    cgpu-installer-**2     1/1     Running   0          4d2h   192.168.XXX.XX2   cn-beijing.192.168.XXX.XX2   <none>           <none>
    cgpu-installer-**3     1/1     Running   0          4d2h   192.168.XXX.XX3   cn-beijing.192.168.XXX.XX3   <none>           <none>
  2. 執行以下命令,進入名稱為cgpu-installer-******的Pod。

    kubectl exec -ti cgpu-installer-xxxxx -n kube-system -- bash
  3. 執行以下命令,查詢cGPU目前的版本。

    nsenter -t 1 -i -p -n -u -m -- cat /proc/cgpu_km/version

    樣本輸出:

    1.5.16
    說明

    關於最新的cGPU版本,請參見ack-ai-installer

cGPU版本相容性

NVIDIA驅動相容性

cGPU版本

相容的 NVIDIA 驅動

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

支援:

  • 460系列

  • 470系列

  • 510系列

  • 515系列

  • 525系列

  • 535系列

  • 550系列

  • 560系列

  • 565系列

  • 570系列

  • 575系列

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

支援:

  • 460系列

  • 470系列 <= 470.161.03

  • 510系列 <= 510.108.03

  • 515系列 <= 515.86.01

  • 525系列 <= 525.89.03

不支援:

  • 535系列

  • 550系列

  • 560系列

  • 565系列

  • 570系列

  • 575系列

1.0.3

0.8.17

0.8.13

支援:

  • 460系列

  • 470系列 <= 470.161.03

不支援:

  • 510系列

  • 515系列

  • 525系列

  • 535系列

  • 550系列

  • 560系列

  • 565系列

  • 570系列

  • 575系列

執行個體規格類型系列相容性

cGPU版本

相容的執行個體規格類型系列

1.5.20

1.5.19

支援:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

支援:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

不支援:

  • ebmgn9t

1.5.8

1.5.7

支援:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

不支援:

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.6

1.5.5

支援:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

不支援:

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.3

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

支援:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

不支援:

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

0.8.17

0.8.13

支援:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

不支援:

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

nvidia-container-toolkit相容性

cGPU版本

相容的 nvidia-container-toolkit

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

1.5.2

1.0.10

支援:

  • nvidia-container-toolkit <= 1.10

  • nvidia-container-toolkit: 1.11 ~ 1.17

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

0.8.17

0.8.13

支援:

  • nvidia-container-toolkit <= 1.10

不支援:

  • nvidia-container-toolkit: 1.11 ~ 1.17

kernel 版本相容性

cGPU版本

相容的 kernel 版本

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

支援:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.15

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

支援:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.10

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

支援:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.1

0.8.17

支援:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.0

0.8.13

0.8.12

0.8.10

支援:

  • kernel 3.x

  • kernel 4.x

不支援:

  • kernel 5.x