NVIDIA GPU裝置多用於科學計算、圖形渲染等情境,為這些計算應用提供加速計算能力。Container Service for KubernetesACK支援對各種型號的計算型GPU資源進行統一調度和營運管理,能夠顯著提高GPU叢集資源的使用效率。本文介紹如何為叢集添加GPU節點。
前提條件
建立GPU節點池
登入Container Service管理主控台,在左側導覽列選擇叢集列表。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇。
單擊建立節點池,選擇執行個體規格為GPU雲端服務器,並設定期望節點數為所需節點數量。更多參數,請參見建立和管理節點池。
關於可選的GPU ECS規格,請參見ACK支援的GPU執行個體規格。
說明當在執行個體規格列表裡沒有可用執行個體時,可選擇其他虛擬交換器進行嘗試。
若您節點作業系統為Ubuntu 22.04或Red Hat Enterprise Linux(RHEL) 9.3 64位,由於NVIDIA Device Plugin組件會為Pod預設配置環境變數
NVIDIA_VISIBLE_DEVICES=all,可能會因為節點執行systemctl daemon-reload、systemctl daemon-reexec命令後,無法訪問GPU裝置導致NVIDIA Device Plugin無法正常工作。更多詳情,請參見運行GPU容器出現Failed to initialize NVML: Unknown Error的問題怎麼辦?。
查看節點掛載的GPU裝置
節點池建立成功後,可查看節點掛載的GPU裝置。
登入Container Service管理主控台,在左側導覽列選擇叢集列表。
在叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇。
在目標節點所在行,單擊操作列的詳情,查看該節點掛載的GPU裝置。
