すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:パネル

最終更新日:Nov 09, 2025

GPU モニタリングは、Exporter+Prometheus+Grafana システム上に構築され、包括的な GPU モニタリングシナリオを作成します。この Topic では、GPU モニタリングによって提供されるダッシュボードのパネルについて説明します。

パネルの概要

GPU モニタリングには、[クラスター GPU モニタリング - クラスターディメンション][クラスター GPU モニタリング - ノードディメンション]、および [クラスター GPU モニタリング - アプリケーション Pod ディメンション] が含まれます。次のセクションでは、これらのダッシュボードについて説明します。

[クラスター GPU モニタリング - クラスターディメンション]

パネル

説明

合計 GPU ノード数

クラスターまたはノードプール内の GPU アクセラレーションノードの総数。

割り当て済み GPU

クラスターまたはノードプール内の GPU の総数と割り当て済み GPU の数。

割り当て済み GPU メモリ

クラスターまたはノードプール内の合計 GPU メモリに対する割り当て済み GPU メモリの比率。

使用済み GPU メモリ

クラスターまたはノードプール内の合計 GPU メモリに対する占有 GPU メモリの比率。

平均 GPU 使用率

クラスターまたはノードプール内の平均 GPU 使用率。

GPU メモリコピー使用率

クラスターまたはノードプール内のメモリコピーの平均使用率。

最後の XID エラー

GPU で発生した最新の XID エラー。

GPU ノード詳細

GPU アクセラレーションノードに関する情報。

  • ノード名: ノードの名前。

  • GPU インデックス: ノードの GPU インデックス。

  • GPU 使用率: ノードの GPU 使用率。

  • GPU メモリコピー使用率: ノードのメモリコピー使用率。

  • 使用済み GPU メモリ: 占有されている GPU メモリの量。

  • 割り当て済み GPU メモリ: 合計 GPU メモリに対する割り当て済み GPU メモリの比率。

  • 合計 GPU メモリ: GPU メモリの総量。

  • 仕事率: GPU の仕事率。

  • GPU 温度: GPU の温度。

  • GPU メモリ温度: GPU メモリの温度。

[クラスター GPU モニタリング - ノードディメンション]

パネルグループ

パネル

説明

概要

GPU モード

ノードの GPU スケジュールモード。次の GPU モードがサポートされています:

  • 排他的: 排他モードでは、ノード上の Pod が GPU をリクエストします。

  • 共有: 共有モードでは、ノード上の Pod が GPU メモリと計算能力をリクエストします。

  • なし: GPU アクセラレーションアプリケーションはノード上で実行されません。ノードは排他モードと共有モードを切り替えることができます。GPU アクセラレーションアプリケーションがノードで実行されていない場合、システムはノードで有効になっているモードを識別できません。

NVIDIA ドライバーバージョン

ノードにインストールされている GPU ドライバーのバージョン。

割り当て済み GPU

割り当て済み GPU の数と GPU の総数。

GPU 使用率

ノードの平均 GPU 使用率。これは、ノード上のすべての GPU の使用率の値の平均に等しくなります。

割り当て済み GPU メモリ

ノード上の合計 GPU メモリに対する割り当て済み GPU メモリの比率。

使用済み GPU メモリ

ノード上の合計 GPU メモリに対する占有 GPU メモリの比率。

割り当てられた計算能力 (GPU 共有で有効)

ノードに割り当てられた計算能力の量。このメトリックは、GPU スケジューリングで共有モードが有効になっており、ノード上の Pod が計算能力をリクエストする場合に表示されます。

最後の XID エラー

ノード上の GPU で発生した最新の XID エラー。

使用率

GPU 使用率

ノードの GPU 使用率。

GPU メモリコピー使用率

ノードのメモリコピーの使用率。

エンコーダーエンジン使用率

ノード上の GPU エンコーダーの使用率。

デコーダーエンジン使用率

ノード上の GPU デコーダーの使用率。

メモリ & BAR1

GPU メモリ詳細

GPU のメモリ情報。

  • UUID: GPU の UUID。

  • GPU インデックス: GPU のインデックス。

  • モデル名: GPU のモデル。

  • 使用率: GPU メモリ使用量の割合。

  • 使用済み: 占有されている GPU メモリの量。

  • 割り当て済み: 合計 GPU メモリに対する割り当て済み GPU メモリの比率。

  • 合計: GPU メモリの総量。

BAR1 使用済み

BAR1 メモリが使用されています。

GPU メモリ使用済み

ノード上で占有されている GPU メモリの総量。

BAR1 合計

BAR1 メモリの総量。

GPU プロセス

GPU プロセス詳細

ノード上の GPU プロセスに関する情報。

  • Pod 名前空間: GPU プロセスの Pod が属する名前空間。

  • Pod 名: GPU プロセスの Pod 名。

  • コンテナー名: GPU プロセスのコンテナー名。

  • 割り当てモード: GPU プロセスの Pod が GPU リソースをリクエストするために使用する GPU スケジュールモード。Pod は、排他モードまたは共有モードで GPU リソースをリクエストできます。

  • プロセス ID: GPU プロセスの ID。

  • プロセス名: GPU プロセスの名前。

  • プロセスタイプ: GPU プロセスのタイプ。有効な値: C (計算) および G (グラフィックス)。

  • GPU インデックス: GPU プロセスがスケジュールされている GPU。

  • 使用済みメモリ: GPU プロセスによって占有されている GPU メモリの量。

  • SM 使用率: GPU プロセスの SM 使用率。

  • メモリコピー使用率: メモリコピーの使用率。

  • デコード使用率: GPU デコーダーの使用率。

  • エンコード使用率: GPU エンコーダーの使用率。

不正な GPU プロセス (k8s resources.limits によらない GPU リクエスト) の詳細

不正な GPU プロセス (Kubernetes のリソース制限に従わない GPU リクエスト) の詳細。次の GPU プロセスが表示されます:

  • ノード上で GPU アクセラレーションアプリケーションを直接実行する。

  • docker run コマンドを実行して、GPU アクセラレーションアプリケーションを実行するコンテナーを直接起動する。

  • Pod の env パラメーターに環境変数 NVIDIA_VISIBLE_DEVICES=all または NVIDIA_VISIBLE_DEVICES=<GPU ID> を直接追加して、NVIDIA_VISIBLE_DEVICES 環境変数を介して GPU リソースを直接申請し、GPU プログラムを実行する。

  • Pod の securityContext パラメーターで privileged: true を指定し、GPU リソースを使用するプログラムを実行する。

  • NVIDIA_VISIBLE_DEVICES=all 環境変数で構成されたコンテナイメージを使用してデプロイされた Pod の構成で NVIDIA_VISIBLE_DEVICES 環境変数を指定せずに、GPU リソースを使用するプログラムを実行する。

プロファイリング

グラフィックスエンジンアクティブ

モニタリングサイクル内でグラフィックスまたはコンピュートエンジンがアクティブなままである時間の割合。

DRAM アクティブ

メモリ帯域幅の使用率。

SM アクティブ

アクティブな SM の割合。

SM 占有率

SM の占有率。

テンソルコアエンジンアクティブ

モニタリングサイクル内でテンソルコアパイプがアクティブなままである時間の割合。

FP32 エンジンアクティブ

モニタリングサイクル内で FP32 パイプがアクティブなままである時間の割合。

FP16 エンジンアクティブ

モニタリングサイクル内で FP16 パイプがアクティブなままである時間の割合。

FP64 エンジンアクティブ

モニタリングサイクル内で FP64 パイプがアクティブなままである時間の割合。

PCIE TX バイト (デバイスからホストへ)

ノード上の GPU の Peripheral Component Interconnect Express (PCIe) TX レート。

PCIE RX バイト (ホストからデバイスへ)

ノード上の GPU の PCIe RX レート。

NVLINK TX バイト

NVLink TX または RX レート。

NVLINK RX バイト

NVLink TX または RX レート。

温度 & エネルギー

電力使用量

ノードの GPU 仕事率。

総エネルギー消費量 (J)

GPU がドライバーのロードを開始した後に消費されるエネルギー量。単位: ジュール。

メモリ温度

ノードの GPU メモリ温度。

GPU 温度

ノード上の GPU 計算ユニットの温度。

時計

SM クロック

SM クロック速度。

メモリクロック

メモリクロック。

APP SM クロック

アプリケーションの SM クロック。

APP メモリクロック

アプリケーションのメモリクロック。

ビデオクロック

ビデオクロック。

クロックスロットリングの理由

クロックスロットリングの理由。

リタイアページ

リタイアページ (シングルビットエラー)

シングルビットエラーのためにリタイアしたページの数。

リタイアページ (ダブルビットエラー)

ダブルビットエラーのためにリタイアしたページの数。

違反

電力違反

仕事率の上限によって発生した違反。違反が発生した時間。単位: マイクロ秒。

サーマル違反

温度の上限によって発生した違反。違反が発生した時間。単位: マイクロ秒。

同期ブースト違反

同期ブースト制限によって発生した違反。違反が発生した時間。単位: マイクロ秒。

ボード制限違反

回路基板の制限によって発生した違反。違反が発生した時間。単位: マイクロ秒。

ボード信頼性違反

回路基板の信頼性制限によって発生した違反。違反が発生した時間。単位: マイクロ秒。

低使用率違反

低使用率によって発生した違反。違反が発生した時間。単位: マイクロ秒。

[クラスター GPU モニタリング - アプリケーション Pod ディメンション]

パネルグループ

パネル

説明

概要

GPU Pod 詳細

GPU リソースをリクエストする Pod に関する情報。

  • Pod 名前空間: Pod が属する名前空間。

  • Pod 名: Pod の名前。

  • ノード名: Pod がデプロイされているノード。

  • Pod ソース: Pod のソース。

  • 割り当てモード: Pod の割り当てモード。

  • 使用済み GPU メモリ: Pod によって占有されている GPU メモリの量。

  • 割り当て済み GPU メモリ: Pod に割り当てられた GPU メモリの量。

  • 割り当てられた計算能力: GPU スケジューリングで共有モードが有効になっている場合に Pod によってリクエストされる計算能力の量。Pod が GPU リソースのみをリクエストするか、GPU 排他モードを使用する場合、このメトリックは表示されません。

  • SM 使用率: ストリーミングマルチプロセッサ (SM) の使用率。

  • GPU メモリコピー使用率: メモリコピーの使用率。

  • エンコード使用率: GPU エンコーダーの使用率。

  • デコード使用率: GPU デコーダーの使用率。

Pod メトリック (GPU デバイス)

Pod の使用済み GPU メモリ

Pod によって占有されている GPU メモリの量。

Pod の GPU メモリ使用率

利用可能な合計 GPU メモリのうち、Pod が使用する GPU メモリの割合。

Pod の GPU メモリコピー使用率

Pod のメモリコピー使用率。

Pod の平均 SM 使用率

Pod の平均 SM 使用率。

Pod の GPU デコード使用率

Pod のデコーダー使用率。

Pod の GPU エンコード使用率

Pod のエンコーダー使用率。

Pod メトリック (ホストリソース)

メモリパーセント

メモリ使用量の割合。

メモリ使用量

メモリ使用量。

コア別の CPU 使用率

コア別の CPU 使用率。

CPU 使用率

CPU 使用率の割合。

ネットワーク帯域幅使用量

ネットワーク帯域幅の使用量。

ネットワークソケット

ネットワークソケット。

ファイルシステム

ファイルシステム。

プロセス数

プロセスの数。

GPU 使用率 (Pod に関連)

GPU 使用率

アプリケーションの GPU 使用率。

GPU メモリコピー使用率

アプリケーションの GPU のメモリコピー使用率。

エンコーダーエンジン使用率

アプリケーションの GPU のエンコーダー使用率。

デコーダーエンジン使用率

アプリケーションの GPU のデコーダー使用率。

GPU メモリ & BAR1 (Pod に関連)

GPU メモリ詳細

アプリケーションの GPU のメモリ情報。

  • UUID: GPU の UUID。

  • Pod ソース: Pod のソース。

  • モデル名: GPU のモデル。

  • ドライバーバージョン: ドライバーのバージョン。

  • 割り当てモード: Pod の割り当てモード。

  • 割り当て率: 合計 GPU メモリに対する割り当て済み GPU メモリの比率。

  • 使用済み: 占有されている GPU メモリの量。

  • 使用率: GPU メモリ使用量の割合。

  • 合計: GPU メモリの総量。

GPU メモリ使用済み

アプリケーションの GPU で占有されている GPU メモリの量。

GPU メモリ使用率

アプリケーションの GPU メモリ使用量の割合。

BAR1 使用済み

BAR1 メモリが使用されています。

BAR1 合計

BAR1 メモリの総量。

GPU プロファイリング (Pod に関連)

グラフィックスエンジンアクティブ

モニタリングサイクル内でグラフィックスまたはコンピュートエンジンがアクティブなままである時間の割合。

DRAM アクティブ

メモリ帯域幅の使用率。

SM アクティブ

アクティブな SM の割合。

SM 占有率

SM の占有率。

テンソルコアエンジンアクティブ

モニタリングサイクル内でテンソルコアパイプがアクティブなままである時間の割合。

FP32 エンジンアクティブ

モニタリングサイクル内で FP32 パイプがアクティブなままである時間の割合。

FP16 エンジンアクティブ

モニタリングサイクル内で FP16 パイプがアクティブなままである時間の割合。

FP64 エンジンアクティブ

モニタリングサイクル内で FP64 パイプがアクティブなままである時間の割合。

PCIE TX バイト (デバイスからホストへ)

アプリケーションの GPU の PCIe TX レート。

PCIE RX バイト (ホストからデバイスへ)

アプリケーションの GPU の PCIe RX レート。

NVLINK TX バイト

NVLink TX または RX レート。

NVLINK RX バイト

NVLink TX または RX レート。

GPU 温度 & エネルギー (Pod に関連)

電力使用量

アプリケーションの GPU の仕事率。

総エネルギー消費量 (J)

GPU がドライバーのロードを開始した後に消費されるエネルギー量。単位: ジュール。

メモリ温度

アプリケーションの GPU のメモリ温度。

GPU 温度

アプリケーションの GPU 計算ユニットの温度。

GPU クロック (Pod に関連)

SM クロック

SM クロック速度。

メモリクロック

メモリクロック。

APP SM クロック

アプリケーションの SM クロック。

APP メモリクロック

アプリケーションのメモリクロック。

ビデオクロック

ビデオクロック。

クロックスロットリングの理由

クロックスロットリングの理由。