全部產品
Search
文件中心

Container Service for Kubernetes:為叢集添加GPU節點

更新時間:Jul 11, 2025

NVIDIA GPU裝置多用於科學計算、圖形渲染等情境,為這些計算應用提供加速計算能力。Container Service for KubernetesACK支援對各種型號的計算型GPU資源進行統一調度和營運管理,能夠顯著提高GPU叢集資源的使用效率。本文介紹如何為叢集添加GPU節點。

前提條件

建立ACK託管叢集Pro版ACK專有叢集(已停止建立)

建立GPU節點池

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集列表

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇節點管理 > 節點池

  3. 單擊建立節點池,選擇執行個體規格為GPU雲端服務器,並設定期望節點數為所需節點數量。更多參數,請參見建立和管理節點池

    關於可選的GPU ECS規格,請參見ACK支援的GPU執行個體規格

    說明
    • 當在執行個體規格列表裡沒有可用執行個體時,可選擇其他虛擬交換器進行嘗試。

    • 若您節點作業系統為Ubuntu 22.04或Red Hat Enterprise Linux(RHEL) 9.3 64位,由於NVIDIA Device Plugin組件會為Pod預設配置環境變數NVIDIA_VISIBLE_DEVICES=all,可能會因為節點執行systemctl daemon-reloadsystemctl daemon-reexec命令後,無法訪問GPU裝置導致NVIDIA Device Plugin無法正常工作。更多詳情,請參見運行GPU容器出現Failed to initialize NVML: Unknown Error的問題怎麼辦?

查看節點掛載的GPU裝置

節點池建立成功後,可查看節點掛載的GPU裝置。

  1. 登入Container Service管理主控台,在左側導覽列選擇叢集列表

  2. 叢集列表頁面,單擊目的地組群名稱,然後在左側導覽列,選擇節點管理 > 節點

  3. 在目標節點所在行,單擊操作列的詳情,查看該節點掛載的GPU裝置。image