建立GPU節點池為叢集添加GPU節點-Container Service Kubernetes 版 ACK-阿里雲

NVIDIA GPU裝置多用於科學計算、圖形渲染等情境，為這些計算應用提供加速計算能力。Container Service for KubernetesACK支援對各種型號的計算型GPU資源進行統一調度和營運管理，能夠顯著提高GPU叢集資源的使用效率。本文介紹如何為叢集添加GPU節點。

前提條件

登入Container Service管理主控台，在左側導覽列選擇叢集列表。
在叢集列表頁面，單擊目的地組群名稱，然後在左側導覽列，選擇節點管理 > 節點池。
單擊建立節點池，選擇執行個體規格為GPU雲端服務器，並設定期望節點數為所需節點數量。更多參數，請參見建立和管理節點池。
關於可選的GPU ECS規格，請參見ACK支援的GPU執行個體規格。
說明
- 當在執行個體規格列表裡沒有可用執行個體時，可選擇其他虛擬交換器進行嘗試。
- 若您節點作業系統為Ubuntu 22.04或Red Hat Enterprise Linux(RHEL) 9.3 64位，由於NVIDIA Device Plugin組件會為Pod預設配置環境變數NVIDIA_VISIBLE_DEVICES=all，可能會因為節點執行systemctl daemon-reload、systemctl daemon-reexec命令後，無法訪問GPU裝置導致NVIDIA Device Plugin無法正常工作。更多詳情，請參見運行GPU容器出現Failed to initialize NVML: Unknown Error的問題怎麼辦？。

節點池建立成功後，可查看節點掛載的GPU裝置。