すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:クラウド GPU 計算能力の統合

最終更新日:Oct 18, 2025

ACK One 登録済みクラスターは、異種計算資源をオーケストレーションおよび管理するための統一プラットフォームを提供します。この機能により、異種コンピューティング向けの Kubernetes クラスターのリソース使用率と効率が大幅に向上します。

ノードプールのアーキテクチャ

ACK One 登録済みクラスターは、ノードプールを使用してクラスターノードを効率的に管理します。ノードプールは、同じ構成を共有するノードのコレクションです。単一のクラスター内に、異なる構成を持つ複数のノードプールを作成できます。

機能概要

一般的なノードプールの管理

機能

説明

関連ドキュメント

ライフサイクル管理

  • コンソールでノードプールを作成し、基本情報、ネットワーク設定、インスタンスの仕様、ストレージ構成、および希望するノード数を構成します。

  • 既存のノードプールの一部の構成を編集します。

  • ノードが不要になった場合、ノードプールを削除します。ノードのリリース動作は、希望するノード数の設定とノードの課金方法によって異なります。

  • 基本情報、リソース監視ダッシュボード、ノードリスト、スケーリングアクティビティなど、ノードプールの詳細を表示します。

ノードプールの作成と管理

スケーリング

  • 希望するノード数を調整して、ノードプールを手動でスケーリングします。このメソッドは、ノード数を希望のレベルに保ち、リソースコストを節約します。

  • ワークロードの要求に基づいてノードを自動的に追加または削除するように Auto Scaling を構成します。

ノードの削除

クラスターまたはノードプールから不要なノードを削除します。予期しない動作を避けるために、標準的なプロシージャに従ってください。

ノードプールからノードを削除する

カスタムユーザーデータ

  • カスタムスクリプトを使用して、登録済みクラスターのノードプールがノードのステータスを正しく同期し、クラウドスケジューリングの要件を満たすようにします。

  • カスタムスクリプトは、ACK One 登録済みクラスターからのシステム環境変数を受け入れる必要があります。

ノードプール用のカスタムスクリプトの作成

GPU ノードプール

機能

説明

関連ドキュメント

GPU ノードの追加

Container Service for Kubernetes (ACK) は、さまざまなタイプのコンピューティング最適化 GPU リソースに対して、統一されたスケジューリングと運用管理を提供します。この機能により、GPU クラスターのリソース使用率が大幅に向上します。

クラスターへの GPU アクセラレーションノードの追加

NVIDIA ドライバーバージョン

ACK は、NVIDIA ドライバーバージョンのリストをサポートしています。

ACK でサポートされている NVIDIA ドライバーバージョン

カスタム GPU ドライバー

さまざまなタイプとバージョンの ACK One 登録済みクラスターは、異なるデフォルトバージョンの NVIDIA ドライバーをインストールします。

アプリケーションまたは CUDA ライブラリが特定の NVIDIA ドライバーバージョンを必要とする場合は、GPU ノードにインストールされるドライバーバージョンをカスタマイズできます。

バージョン番号を指定してノードの GPU ドライバーバージョンをカスタマイズする

GPU モニタリング

機能

説明

関連ドキュメント

GPU モニタリングの有効化

GPU モニタリングは NVIDIA DCGM に基づいており、強力な GPU モニタリングシステムを構築します。

クラスターの GPU モニタリングを有効にする

ダッシュボードパネル

GPU モニタリングダッシュボードの各パネルの意味について説明します。

パネル

メトリックリファレンス

GPU モニタリング 2.0 は、Exporter、Prometheus、および Grafana アーキテクチャを使用して、より豊富な GPU 可観測性シナリオを提供します。カスタム Grafana ダッシュボードの構築に使用できる、GPU Exporter によって公開される GPU メトリックのリストを表示します。

メトリックの概要

GPU のエラー診断と回復

機能

説明

関連ドキュメント

エラーの検出と隔離

GPU のエラーを自動的に検出し、影響を受けるノードを隔離して、異常なハードウェアにワークロードがスケジュールされるのを防ぎます。

GPU のエラー検出と自動隔離