すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:モニタリングダッシュボードの概要

最終更新日:Mar 10, 2026

GPU モニタリングでは、Exporter、Prometheus、Grafana のスタックを活用して、より豊かな GPU モニタリングシナリオをサポートします。本トピックでは、モニタリングダッシュボード上の各パネルについて説明します。

パネルの概要

GPU モニタリングには、GPU - クラスターの次元GPU - ノード、および GPU - ポッド の 3 つのダッシュボードが含まれます。以降のセクションで、それぞれのダッシュボードについて詳しく説明します。

GPU - クラスターの次元

パネル名

説明

GPU ノード合計数

クラスターまたはノードプール内の GPU ノードの総数。

割り当て済み GPU 数

クラスターまたはノードプール内の GPU の総数と、そのうち割り当て済みの GPU 数。

割り当て済み GPU メモリ

GPU メモリ全体に占める割り当て済みメモリの割合。

使用中の GPU メモリ

GPU メモリ全体に占める現在使用中のメモリの割合。

平均 GPU 利用率

クラスターまたはノードプールの平均利用率を示します。

GPU メモリコピー利用率

クラスター(またはノードプール)における平均メモリレプリケーション利用率を表します。

最新の XID エラー

クラスター内の GPU カードで発生した最も新しい XID エラー。

GPU ノードの詳細

クラスター内の GPU ノードに関する詳細情報。以下を含みます:

  • ノード名:ノードの名前。

  • GPU インデックス:ノード上の GPU のインデックス番号。

  • GPU 利用率:GPU カードの利用率。

  • GPU メモリコピー利用率:メモリコピー利用率。

  • 使用中の GPU メモリ:現在使用中の GPU メモリ量。

  • 割り当て済み GPU メモリ:GPU メモリ全体に占める割り当て済みメモリの割合。

  • GPU メモリ合計量:GPU メモリの総量。

  • 電力消費量:現在の電力消費量。

  • GPU 温度: GPU の温度。

  • GPU メモリ温度:GPU メモリの温度。

GPU - ノード

パネルグループ

パネル名

説明

概要

GPU モード

GPU モード(排他的、共有、なし)。

  • 排他的:GPU リソースが GPU カード単位で割り当てられます。

  • 共有:GPU リソースが GPU メモリおよびコンピューティング能力に基づいて割り当てられます。

  • なし:ノード上で GPU アプリケーションが実行されていません。ノードは排他的モードと共有モード間で切り替えることができます。ただし、GPU プログラムが実行されていない場合、システムはノードが排他的モードか共有モードかを検出できません。

NVIDIA ドライバーのバージョン

ノードにインストールされている GPU ドライバーのバージョン。

割り当て済み GPU 数

ノード上で割り当てられた GPU 数およびノード上の GPU 総数。

GPU 利用率

ノード上のすべての GPU カードにおける平均 GPU 利用率。

割り当て済み GPU メモリ

ノード上で割り当て済みの GPU メモリが占める割合。

使用中の GPU メモリ

ノード上で現在使用中の GPU メモリが占める割合。

割り当て済みコンピューティング能力(GPU 共有時のみ有効)

割り当て済みのコンピューティング能力。GPU 共有が有効化され、かつコンピューティング能力のスケジューリングが要求された場合にのみ適用されます。

最新の XID エラー

ノード上の GPU カードで発生した最も新しい XID エラー。

利用率

GPU 利用率

ノード上の GPU カードの利用率。

GPU メモリコピー利用率

GPU カード上のメモリコピー利用率。

エンコーダーエンジン利用率

GPU カード上のエンコーダーエンジン利用率。

デコーダーエンジン利用率

GPU カード上のデコーダーエンジン利用率。

メモリ & BAR1

GPU メモリの詳細

ノードの GPU メモリに関する詳細情報:

  • UUID:GPU カードの UUID。

  • GPU インデックス:GPU カードのインデックス番号。

  • モード名: カードモデル。

  • 使用率:GPU メモリの使用率。

  • 使用量:この GPU カードで現在使用中の GPU メモリ量。

  • 割り当て済み率:GPU メモリ全体に占める割り当て済みメモリの割合。

  • 合計量:この GPU カードの GPU メモリ総量。

BAR1 使用中

BAR1 は使用されています。

GPU メモリ使用量

ノード上の GPU カードで使用中の GPU メモリ量。

BAR1 合計量

BAR1 の合計量を表します。

GPU プロセス

GPU プロセスの詳細

ノード上の GPU プロセスに関する詳細情報:

  • Pod 名前空間:プロセスを所有する Pod の名前空間。

  • Pod 名:プロセスを所有する Pod の名前。

  • コンテナ名:プロセスを所有するコンテナの名前。

  • 割り当てモード:Pod が GPU リソースを要求する方法(排他的モードまたは共有モード)。

  • プロセス ID:プロセスの ID。

  • プロセス名:プロセスの名前。

  • プロセスタイプ:プロセスの種類(計算処理 (C) またはグラフィックス処理 (G))。

  • GPU インデックス:プロセスが実行される GPU カード。

  • 使用メモリ:プロセスが使用する GPU メモリ量。

  • SM 利用率:プロセスのストリーミングマルチプロセッサ (SM) 利用率。

  • メモリコピー利用率:メモリコピー利用率。

  • デコード利用率:デコーダー利用率。

  • エンコード利用率:エンコーダー利用率。

不正な GPU プロセス(Kubernetes の resources.limits を使用しない GPU リクエスト)の詳細

不正な GPU プロセスに関する詳細情報。これは、Kubernetes のリソース制限を使用せずに GPU リソースを要求するプロセスです。以下を含みます:

  • ノード上で GPU アプリケーションを直接実行する。

  • docker run コマンドで直接起動したコンテナ内で GPU アプリケーションを実行する。

  • Pod の env セクションで NVIDIA_VISIBLE_DEVICES=all または NVIDIA_VISIBLE_DEVICES=<GPU ID> 環境変数を直接設定し、GPU プログラムを実行する。

  • Pod の securityContextprivileged: true を設定し、GPU プログラムを実行する。

  • NVIDIA_VISIBLE_DEVICES 環境変数が設定されていない Pod で GPU プログラムを実行するが、その Pod で使用されるコンテナイメージにデフォルトで NVIDIA_VISIBLE_DEVICES=all が設定されている。

プロファイリング

グラフィックスエンジンのアクティブ状態

モニタリングサイクル中にグラフィックスまたはコンピュートエンジンがアクティブであった時間の割合。

DRAM のアクティブ状態

メモリ帯域幅の利用率。

SM のアクティブ状態

SM ユニットがアクティブであった時間の割合。

SM 占有率

SM の占有率。

Tensor Core エンジンのアクティブ状態

モニタリングサイクル中に Tensor Core パイプラインがアクティブであった時間の割合。

FP32 エンジンのアクティブ状態

モニタリングサイクル中に FP32 パイプラインがアクティブであった時間の割合。

FP16 エンジンのアクティブ状態

モニタリングサイクル中に FP16 パイプラインがアクティブであった時間の割合。

FP64 エンジンのアクティブ状態

モニタリングサイクル中に FP64 パイプラインがアクティブであった時間の割合。

PCIe TX バイト数(デバイス → ホスト)

PCIe バス経由での GPU デバイスからホストへのデータ転送速度。

PCIe RX バイト数(ホスト → デバイス)

PCIe バス経由でのホストから GPU デバイスへのデータ転送速度。

NVLink TX バイト数

NVLink 経由でのデータ転送速度。

NVLink RX バイト数

NVLink 経由でのデータ転送速度。

温度 & エネルギー

電力消費量

GPU カードの電力消費量。

総エネルギー消費量(単位:J)

ドライバーがロードされてからの GPU カードの総エネルギー消費量。単位:ジュール(J)。

メモリ温度

GPU メモリの温度。

GPU 温度

GPU の温度(計算ユニット)。

クロック

SM クロック

SM クロック周波数。

メモリクロック

メモリクロック周波数。

アプリケーション SM クロック

SM アプリケーションクロック周波数。

アプリケーションメモリクロック

アプリケーションメモリクロック周波数。

ビデオクロック

ビデオエンジンクロック周波数。

クロックの速度制限理由

クロックの速度制限が発生した理由。

廃止されたページ

退避ページ(1 ビットエラー)

1 ビットエラーにより退避されたメモリページ数。

退避ページ(2 ビットエラー)

2 ビットエラーにより退避されたメモリページ数。

違反

電源違反

電力制限を超えた時間。単位:マイクロ秒。

熱制限違反

熱制限を超えた時間。単位:マイクロ秒。

同期ブースト制限違反

同期ブースト制限を超えた時間。単位:マイクロ秒。

ボード制限違反

ボード制限を超えた時間。単位:マイクロ秒。

ボード信頼性違反

ボード信頼性制限を超えた時間。単位:マイクロ秒。

低利用率制限違反

低利用率制限を超えた時間。単位:マイクロ秒。

GPU - ポッド

パネルグループ

パネル名

説明

概要

GPU リソースを要求する Pod の詳細

GPU リソースを要求する Pod の詳細情報。以下を含みます:

  • Pod 名前空間:Pod の名前空間。

  • Pod 名:Pod の名前。

  • ノード名:Pod が実行されるノード。

  • Pod ソース:Pod のソース。

  • 割り当てモード:Pod の割り当てモード。

  • 使用中の GPU メモリ:Pod が現在使用中の GPU メモリ量。

  • 割り当て済み GPU メモリ:Pod に割り当てられた GPU メモリ量。

  • 割り当て済みコンピューティング能力:GPU 共有モードで Pod が要求したコンピューティング能力。Pod が GPU メモリのみを要求する場合、または排他的 GPU モードを使用する場合は、このフィールドは空欄になります。

  • SM 利用率:ストリーミングマルチプロセッサ (SM) の利用率。

  • GPU メモリコピー利用率:メモリコピー利用率。

  • エンコード利用率:エンコーダー利用率。

  • デコード利用率:デコーダー利用率。

Pod メトリクス(GPU デバイス)

Pod の使用中 GPU メモリ量

Pod が現在使用中の GPU メモリ量。

Pod の GPU メモリ使用率

Pod が使用する GPU メモリ量が、利用可能な GPU メモリ総量に占める割合。

Pod の GPU メモリコピー利用率

Pod のメモリコピー利用率。

Pod の平均 SM 利用率

Pod の平均 SM 利用率。

Pod の GPU デコード利用率

Pod のデコーダー利用率。

Pod の GPU エンコード利用率

Pod のエンコーダー利用率。

Pod メトリクス(ホストリソース)

メモリ使用率

メモリの使用率。

メモリ使用量

メモリの使用量。

コア別 CPU 使用量

コアごとの CPU 使用量。

CPU 使用率

CPU の使用率。

ネットワーク帯域幅使用量

ネットワーク帯域幅の使用量。

ネットワークソケット

ネットワークソケットを表します。

ファイルシステム

ファイルシステムを表します。

プロセス数

プロセスの数。

GPU 利用率(関連付けられた Pod)

GPU 利用率

アプリケーションの GPU カードの利用率。

GPU メモリコピー利用率

アプリケーションの GPU カードのメモリコピー利用率。

エンコーダーエンジン利用率

アプリケーションの GPU カードのエンコーダーエンジン利用率。

デコーダーエンジン利用率

アプリケーションの GPU カードのデコーダーエンジン利用率。

GPU メモリ & BAR1(関連付けられた Pod)

GPU メモリの詳細

アプリケーションの GPU メモリに関する詳細情報:

  • UUID:GPU カードの UUID。

  • Pod ソース:Pod のソース。

  • モデル名:GPU のモデル名。

  • ドライバーのバージョン:ドライバーのバージョン。

  • 割り当てモード:Pod の割り当てに使用されるモード。

  • 割り当て済み率:GPU メモリ全体に占める割り当て済みメモリの割合。

  • 使用量:この GPU カードで現在使用中の GPU メモリ量。

  • 使用率:GPU メモリの使用率。

  • 合計量:この GPU カードの GPU メモリ総量。

GPU メモリ使用量

アプリケーションの GPU カードで使用中の GPU メモリ量。

GPU メモリ使用率

アプリケーションが使用する GPU メモリの割合。

BAR1 使用中

BAR1 は使用されています。

BAR1 合計量

BAR1 の合計量を表します。

GPU プロファイリング(関連付けられた Pod)

グラフィックスエンジンのアクティブ状態

モニタリングサイクル中にグラフィックスまたはコンピュートエンジンがアクティブであった時間の割合。

DRAM のアクティブ状態

メモリ帯域幅の利用率。

SM のアクティブ状態

SM ユニットがアクティブであった時間の割合。

SM 占有率

SM の占有率。

Tensor Core エンジンのアクティブ状態

モニタリングサイクル中に Tensor Core パイプラインがアクティブであった時間の割合。

FP32 エンジンのアクティブ状態

モニタリングサイクル中に FP32 パイプラインがアクティブであった時間の割合。

FP16 エンジンのアクティブ状態

モニタリングサイクル中に FP16 パイプラインがアクティブであった時間の割合。

FP64 エンジンのアクティブ状態

モニタリングサイクル中に FP64 パイプラインがアクティブであった時間の割合。

PCIe TX バイト数(デバイス → ホスト)

アプリケーションの GPU デバイスからホストへの PCIe バス経由のデータ転送速度。

PCIe RX バイト数(ホスト → デバイス)

ホストからアプリケーションの GPU デバイスへの PCIe バス経由のデータ転送速度。

NVLink TX バイト数

NVLink 経由でのデータ転送速度。

NVLink RX バイト数

NVLink 経由でのデータ転送速度。

GPU 温度 & エネルギー(関連付けられた Pod)

電力消費量

アプリケーションの GPU カードの電力消費量。

総エネルギー消費量(単位:J)

ドライバーがロードされてからの GPU カードの総エネルギー消費量。単位:ジュール(J)。

メモリ温度

アプリケーションの GPU メモリ温度。

GPU 温度

アプリケーションの GPU 温度(計算ユニット)。

GPU クロック(関連付けられた Pod)

SM クロック

SM クロック周波数。

メモリクロック

メモリクロック周波数。

アプリケーション SM クロック

SM アプリケーションクロック周波数。

アプリケーションメモリクロック

アプリケーションメモリクロック周波数。

ビデオクロック

ビデオエンジンクロック周波数。

クロックの速度制限理由

クロックの速度制限が発生した理由。