ACK One 登録済みクラスターは、異種計算資源をオーケストレーションおよび管理するための統一プラットフォームを提供します。この機能により、異種コンピューティング向けの Kubernetes クラスターのリソース使用率と効率が大幅に向上します。
ノードプールのアーキテクチャ
ACK One 登録済みクラスターは、ノードプールを使用してクラスターノードを効率的に管理します。ノードプールは、同じ構成を共有するノードのコレクションです。単一のクラスター内に、異なる構成を持つ複数のノードプールを作成できます。
機能概要
一般的なノードプールの管理
機能 | 説明 | 関連ドキュメント |
ライフサイクル管理 |
| |
スケーリング |
| |
ノードの削除 | クラスターまたはノードプールから不要なノードを削除します。予期しない動作を避けるために、標準的なプロシージャに従ってください。 | |
カスタムユーザーデータ |
|
GPU ノードプール
機能 | 説明 | 関連ドキュメント |
GPU ノードの追加 | Container Service for Kubernetes (ACK) は、さまざまなタイプのコンピューティング最適化 GPU リソースに対して、統一されたスケジューリングと運用管理を提供します。この機能により、GPU クラスターのリソース使用率が大幅に向上します。 | |
NVIDIA ドライバーバージョン | ACK は、NVIDIA ドライバーバージョンのリストをサポートしています。 | |
カスタム GPU ドライバー | さまざまなタイプとバージョンの ACK One 登録済みクラスターは、異なるデフォルトバージョンの NVIDIA ドライバーをインストールします。 アプリケーションまたは CUDA ライブラリが特定の NVIDIA ドライバーバージョンを必要とする場合は、GPU ノードにインストールされるドライバーバージョンをカスタマイズできます。 |
GPU モニタリング
機能 | 説明 | 関連ドキュメント |
GPU モニタリングの有効化 | GPU モニタリングは NVIDIA DCGM に基づいており、強力な GPU モニタリングシステムを構築します。
| |
ダッシュボードパネル | GPU モニタリングダッシュボードの各パネルの意味について説明します。 | |
メトリックリファレンス | GPU モニタリング 2.0 は、Exporter、Prometheus、および Grafana アーキテクチャを使用して、より豊富な GPU 可観測性シナリオを提供します。カスタム Grafana ダッシュボードの構築に使用できる、GPU Exporter によって公開される GPU メトリックのリストを表示します。 |
GPU のエラー診断と回復
機能 | 説明 | 関連ドキュメント |
エラーの検出と隔離 | GPU のエラーを自動的に検出し、影響を受けるノードを隔離して、異常なハードウェアにワークロードがスケジュールされるのを防ぎます。 |