ACK叢集支援GPU共用調度時節點需要安裝cGPU模組。本文介紹如何通過命令及控制台升級節點上的cGPU模組。
步驟一:組件升級
叢集類型 | 組件升級方式 |
| ack-ai-installer組件升級方式,請參見升級共用GPU調度組件。 |
ACK專有叢集 | ack-cgpu組件升級方式,請按照如下步驟進行:
|
步驟二:存量節點升級
升級過程中需停止節點上的GPU業務應用。
建議先操作一個節點,驗證GPU業務沒有問題以後,再大量操作其他GPU節點。
本方案會重設節點的作業系統盤,如果您的節點作業系統盤存在資料,請先做好備份。
1. 移除並重新添加節點
登入Container Service管理主控台,在左側導覽列選擇叢集列表。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇。
在節點頁面選中待升級的cGPU節點,單擊大量移除,在移除節點對話方塊選中自動排空節點(drain)。
將移除的節點重新添加到原有的節點池中。具體操作,請參見添加已有節點。
重要添加節點方式請選擇自動添加。手動添加節點方式不會進行重設節點操作。
2. 結果驗證
執行以下命令,查詢新添加節點所對應的cgpu-installer。
kubectl get po -l name=cgpu-installer -n kube-system -o wide預期輸出:
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES cgpu-installer-***** 1/1 Running 0 4d2h 192.168.XXX.XX1 cn-beijing.192.168.XXX.XX1 <none> <none> cgpu-installer-**2 1/1 Running 0 4d2h 192.168.XXX.XX2 cn-beijing.192.168.XXX.XX2 <none> <none> cgpu-installer-**3 1/1 Running 0 4d2h 192.168.XXX.XX3 cn-beijing.192.168.XXX.XX3 <none> <none>執行以下命令,進入名稱為
cgpu-installer-******的Pod。kubectl exec -ti cgpu-installer-xxxxx -n kube-system -- bash執行以下命令,查詢cGPU目前的版本。
nsenter -t 1 -i -p -n -u -m -- cat /proc/cgpu_km/version樣本輸出:
1.5.16說明關於最新的cGPU版本,請參見ack-ai-installer。
cGPU版本相容性
NVIDIA驅動相容性
cGPU版本 | 相容的 NVIDIA 驅動 |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | 支援:
|
1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 | 支援:
不支援:
|
1.0.3 0.8.17 0.8.13 | 支援:
不支援:
|
執行個體規格類型系列相容性
cGPU版本 | 相容的執行個體規格類型系列 |
1.5.20 1.5.19 | 支援:
|
1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | 支援:
不支援:
|
1.5.8 1.5.7 | 支援:
不支援:
|
1.5.6 1.5.5 | 支援:
不支援:
|
1.5.3 1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | 支援:
不支援:
|
0.8.17 0.8.13 | 支援:
不支援:
|
nvidia-container-toolkit相容性
cGPU版本 | 相容的 nvidia-container-toolkit |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 1.5.2 1.0.10 | 支援:
|
1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 0.8.17 0.8.13 | 支援:
不支援:
|
kernel 版本相容性
cGPU版本 | 相容的 kernel 版本 |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | 支援:
|
1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | 支援:
|
1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | 支援:
|
0.8.17 | 支援:
|
0.8.13 0.8.12 0.8.10 | 支援:
不支援:
|