全部產品
Search
文件中心

Container Service for Kubernetes:接入雲上GPU算力

更新時間:Oct 01, 2025

ACK One註冊叢集支援對各種異構計算資源進行統一調度和營運管理,能夠顯著提高異構計算叢集資源的使用效率。

節點池架構

ACK One註冊叢集通過節點池來高效管理叢集節點。節點池是一組具有相同配置的節點集合,支援在單個叢集中建立多個不同類型的節點池。

功能分類

節點池功能概述

功能項

說明

相關文檔

建立、編輯、刪除與查看

  • 支援通過控制台建立節點池,配置節點池的基礎資訊、網路設定、執行個體規格配置、儲存配置、期望節點數等。

  • 支援編輯調整已有節點池的部分配置。

  • 節點無需使用時,可刪除節點池。節點池是否開啟期望節點數以及節點的計費模式會影響節點釋放的行為。

  • 支援查看節點池詳情,包括基本配置資訊、資源監控大盤、節點列表、伸縮活動等。

建立與管理節點池

手動或自動擴縮容

  • 支援通過手動調整節點池的期望節點數,實現節點池的擴縮容,將節點數目維持在期望數量,節省資源成本。

  • 支援配置節點自動調整方案,當叢集的容量規劃無法滿足應用Pod調度時,自動擴縮節點資源。

移除節點

如果不再需要某些節點,可將節點從叢集或節點池中移除。請按標準化操作移除,避免出現預期外行為。

移除節點池內節點

建立節點池自訂指令碼

  • 自訂指令碼使用者確保註冊叢集的節點池能夠正確同步節點狀態,並滿足雲上調度需求。

  • 自訂指令碼必須接收阿里雲註冊叢集下發的系統內容變數。

建立節點池自訂指令碼

GPU節點池

功能項

說明

相關文檔

為叢集添加GPU節點

Container Service Kubernetes 版ACK支援對各種型號的計算型GPU資源進行統一調度和營運管理,能夠顯著提高GPU叢集資源的使用效率。

為叢集添加GPU節點

NVIDIA驅動版本列表

ACK支援的NVIDIA驅動版本列表。

ACK支援的NVIDIA驅動版本列表

通過指定版本號碼自訂節點GPU驅動版本

不同類型和版本的ACK One註冊叢集預設安裝不同版本的NVIDIA驅動。

如果CUDA庫需要與更高版本的NVIDIA驅動相容,可以自訂安裝GPU節點的NVIDIA驅動。

通過指定版本號碼自訂節點GPU驅動版本

GPU監控

功能項

說明

相關文檔

開啟GPU監控

GPU監控基於NVIDIA DCGM構建功能強大的GPU監控體系。

開啟叢集GPU監控

監控面板說明

介紹監控大盤中各個監控面板(Panel)的含義。

監控面板說明

監控指標說明

GPU監控2.0基於Exporter+Prometheus+Grafana體系打造更為豐富的GPU可觀性情境,支援基於Container Service開發的GPU Exporter監控指標構建Grafana大盤。

監控指標說明

GPU故障診斷與恢複

功能項

說明

相關文檔

GPU故障檢測與自動隔離

介紹如何正確安裝、配置和使用ACK GPU故障檢測組件,以便管理和維護ACK環境中的GPU資源。

GPU故障檢測與自動隔離