ACK One註冊叢集支援對各種異構計算資源進行統一調度和營運管理,能夠顯著提高異構計算叢集資源的使用效率。
節點池架構
ACK One註冊叢集通過節點池來高效管理叢集節點。節點池是一組具有相同配置的節點集合,支援在單個叢集中建立多個不同類型的節點池。
功能分類
節點池功能概述
功能項 | 說明 | 相關文檔 |
建立、編輯、刪除與查看 |
| |
手動或自動擴縮容 |
| |
移除節點 | 如果不再需要某些節點,可將節點從叢集或節點池中移除。請按標準化操作移除,避免出現預期外行為。 | |
建立節點池自訂指令碼 |
|
GPU節點池
功能項 | 說明 | 相關文檔 |
為叢集添加GPU節點 | Container Service Kubernetes 版ACK支援對各種型號的計算型GPU資源進行統一調度和營運管理,能夠顯著提高GPU叢集資源的使用效率。 | |
NVIDIA驅動版本列表 | ACK支援的NVIDIA驅動版本列表。 | |
通過指定版本號碼自訂節點GPU驅動版本 | 不同類型和版本的ACK One註冊叢集預設安裝不同版本的NVIDIA驅動。 如果CUDA庫需要與更高版本的NVIDIA驅動相容,可以自訂安裝GPU節點的NVIDIA驅動。 |
GPU監控
功能項 | 說明 | 相關文檔 |
開啟GPU監控 | GPU監控基於NVIDIA DCGM構建功能強大的GPU監控體系。
| |
監控面板說明 | 介紹監控大盤中各個監控面板(Panel)的含義。 | |
監控指標說明 | GPU監控2.0基於Exporter+Prometheus+Grafana體系打造更為豐富的GPU可觀性情境,支援基於Container Service開發的GPU Exporter監控指標構建Grafana大盤。 |
GPU故障診斷與恢複
功能項 | 說明 | 相關文檔 |
GPU故障檢測與自動隔離 | 介紹如何正確安裝、配置和使用ACK GPU故障檢測組件,以便管理和維護ACK環境中的GPU資源。 |