GPU モニタリングでは、Exporter、Prometheus、Grafana のスタックを活用して、より豊かな GPU モニタリングシナリオをサポートします。本トピックでは、モニタリングダッシュボード上の各パネルについて説明します。
パネルの概要
GPU モニタリングには、GPU - クラスターの次元、GPU - ノード、および GPU - ポッド の 3 つのダッシュボードが含まれます。以降のセクションで、それぞれのダッシュボードについて詳しく説明します。
GPU - クラスターの次元
|
パネル名 |
説明 |
|
GPU ノード合計数 |
クラスターまたはノードプール内の GPU ノードの総数。 |
|
割り当て済み GPU 数 |
クラスターまたはノードプール内の GPU の総数と、そのうち割り当て済みの GPU 数。 |
|
割り当て済み GPU メモリ |
GPU メモリ全体に占める割り当て済みメモリの割合。 |
|
使用中の GPU メモリ |
GPU メモリ全体に占める現在使用中のメモリの割合。 |
|
平均 GPU 利用率 |
クラスターまたはノードプールの平均利用率を示します。 |
|
GPU メモリコピー利用率 |
クラスター(またはノードプール)における平均メモリレプリケーション利用率を表します。 |
|
最新の XID エラー |
クラスター内の GPU カードで発生した最も新しい XID エラー。 |
|
GPU ノードの詳細 |
クラスター内の GPU ノードに関する詳細情報。以下を含みます:
|
GPU - ノード
|
パネルグループ |
パネル名 |
説明 |
|
概要 |
GPU モード |
GPU モード(排他的、共有、なし)。
|
|
NVIDIA ドライバーのバージョン |
ノードにインストールされている GPU ドライバーのバージョン。 |
|
|
割り当て済み GPU 数 |
ノード上で割り当てられた GPU 数およびノード上の GPU 総数。 |
|
|
GPU 利用率 |
ノード上のすべての GPU カードにおける平均 GPU 利用率。 |
|
|
割り当て済み GPU メモリ |
ノード上で割り当て済みの GPU メモリが占める割合。 |
|
|
使用中の GPU メモリ |
ノード上で現在使用中の GPU メモリが占める割合。 |
|
|
割り当て済みコンピューティング能力(GPU 共有時のみ有効) |
割り当て済みのコンピューティング能力。GPU 共有が有効化され、かつコンピューティング能力のスケジューリングが要求された場合にのみ適用されます。 |
|
|
最新の XID エラー |
ノード上の GPU カードで発生した最も新しい XID エラー。 |
|
|
利用率 |
GPU 利用率 |
ノード上の GPU カードの利用率。 |
|
GPU メモリコピー利用率 |
GPU カード上のメモリコピー利用率。 |
|
|
エンコーダーエンジン利用率 |
GPU カード上のエンコーダーエンジン利用率。 |
|
|
デコーダーエンジン利用率 |
GPU カード上のデコーダーエンジン利用率。 |
|
|
メモリ & BAR1 |
GPU メモリの詳細 |
ノードの GPU メモリに関する詳細情報:
|
|
BAR1 使用中 |
BAR1 は使用されています。 |
|
|
GPU メモリ使用量 |
ノード上の GPU カードで使用中の GPU メモリ量。 |
|
|
BAR1 合計量 |
BAR1 の合計量を表します。 |
|
|
GPU プロセス |
GPU プロセスの詳細 |
ノード上の GPU プロセスに関する詳細情報:
|
|
不正な GPU プロセス(Kubernetes の resources.limits を使用しない GPU リクエスト)の詳細 |
不正な GPU プロセスに関する詳細情報。これは、Kubernetes のリソース制限を使用せずに GPU リソースを要求するプロセスです。以下を含みます:
|
|
|
プロファイリング |
グラフィックスエンジンのアクティブ状態 |
モニタリングサイクル中にグラフィックスまたはコンピュートエンジンがアクティブであった時間の割合。 |
|
DRAM のアクティブ状態 |
メモリ帯域幅の利用率。 |
|
|
SM のアクティブ状態 |
SM ユニットがアクティブであった時間の割合。 |
|
|
SM 占有率 |
SM の占有率。 |
|
|
Tensor Core エンジンのアクティブ状態 |
モニタリングサイクル中に Tensor Core パイプラインがアクティブであった時間の割合。 |
|
|
FP32 エンジンのアクティブ状態 |
モニタリングサイクル中に FP32 パイプラインがアクティブであった時間の割合。 |
|
|
FP16 エンジンのアクティブ状態 |
モニタリングサイクル中に FP16 パイプラインがアクティブであった時間の割合。 |
|
|
FP64 エンジンのアクティブ状態 |
モニタリングサイクル中に FP64 パイプラインがアクティブであった時間の割合。 |
|
|
PCIe TX バイト数(デバイス → ホスト) |
PCIe バス経由での GPU デバイスからホストへのデータ転送速度。 |
|
|
PCIe RX バイト数(ホスト → デバイス) |
PCIe バス経由でのホストから GPU デバイスへのデータ転送速度。 |
|
|
NVLink TX バイト数 |
NVLink 経由でのデータ転送速度。 |
|
|
NVLink RX バイト数 |
NVLink 経由でのデータ転送速度。 |
|
|
温度 & エネルギー |
電力消費量 |
GPU カードの電力消費量。 |
|
総エネルギー消費量(単位:J) |
ドライバーがロードされてからの GPU カードの総エネルギー消費量。単位:ジュール(J)。 |
|
|
メモリ温度 |
GPU メモリの温度。 |
|
|
GPU 温度 |
GPU の温度(計算ユニット)。 |
|
|
クロック |
SM クロック |
SM クロック周波数。 |
|
メモリクロック |
メモリクロック周波数。 |
|
|
アプリケーション SM クロック |
SM アプリケーションクロック周波数。 |
|
|
アプリケーションメモリクロック |
アプリケーションメモリクロック周波数。 |
|
|
ビデオクロック |
ビデオエンジンクロック周波数。 |
|
|
クロックの速度制限理由 |
クロックの速度制限が発生した理由。 |
|
|
廃止されたページ |
退避ページ(1 ビットエラー) |
1 ビットエラーにより退避されたメモリページ数。 |
|
退避ページ(2 ビットエラー) |
2 ビットエラーにより退避されたメモリページ数。 |
|
|
違反 |
電源違反 |
電力制限を超えた時間。単位:マイクロ秒。 |
|
熱制限違反 |
熱制限を超えた時間。単位:マイクロ秒。 |
|
|
同期ブースト制限違反 |
同期ブースト制限を超えた時間。単位:マイクロ秒。 |
|
|
ボード制限違反 |
ボード制限を超えた時間。単位:マイクロ秒。 |
|
|
ボード信頼性違反 |
ボード信頼性制限を超えた時間。単位:マイクロ秒。 |
|
|
低利用率制限違反 |
低利用率制限を超えた時間。単位:マイクロ秒。 |
GPU - ポッド
|
パネルグループ |
パネル名 |
説明 |
|
概要 |
GPU リソースを要求する Pod の詳細 |
GPU リソースを要求する Pod の詳細情報。以下を含みます:
|
|
Pod メトリクス(GPU デバイス) |
Pod の使用中 GPU メモリ量 |
Pod が現在使用中の GPU メモリ量。 |
|
Pod の GPU メモリ使用率 |
Pod が使用する GPU メモリ量が、利用可能な GPU メモリ総量に占める割合。 |
|
|
Pod の GPU メモリコピー利用率 |
Pod のメモリコピー利用率。 |
|
|
Pod の平均 SM 利用率 |
Pod の平均 SM 利用率。 |
|
|
Pod の GPU デコード利用率 |
Pod のデコーダー利用率。 |
|
|
Pod の GPU エンコード利用率 |
Pod のエンコーダー利用率。 |
|
|
Pod メトリクス(ホストリソース) |
メモリ使用率 |
メモリの使用率。 |
|
メモリ使用量 |
メモリの使用量。 |
|
|
コア別 CPU 使用量 |
コアごとの CPU 使用量。 |
|
|
CPU 使用率 |
CPU の使用率。 |
|
|
ネットワーク帯域幅使用量 |
ネットワーク帯域幅の使用量。 |
|
|
ネットワークソケット |
ネットワークソケットを表します。 |
|
|
ファイルシステム |
ファイルシステムを表します。 |
|
|
プロセス数 |
プロセスの数。 |
|
|
GPU 利用率(関連付けられた Pod) |
GPU 利用率 |
アプリケーションの GPU カードの利用率。 |
|
GPU メモリコピー利用率 |
アプリケーションの GPU カードのメモリコピー利用率。 |
|
|
エンコーダーエンジン利用率 |
アプリケーションの GPU カードのエンコーダーエンジン利用率。 |
|
|
デコーダーエンジン利用率 |
アプリケーションの GPU カードのデコーダーエンジン利用率。 |
|
|
GPU メモリ & BAR1(関連付けられた Pod) |
GPU メモリの詳細 |
アプリケーションの GPU メモリに関する詳細情報:
|
|
GPU メモリ使用量 |
アプリケーションの GPU カードで使用中の GPU メモリ量。 |
|
|
GPU メモリ使用率 |
アプリケーションが使用する GPU メモリの割合。 |
|
|
BAR1 使用中 |
BAR1 は使用されています。 |
|
|
BAR1 合計量 |
BAR1 の合計量を表します。 |
|
|
GPU プロファイリング(関連付けられた Pod) |
グラフィックスエンジンのアクティブ状態 |
モニタリングサイクル中にグラフィックスまたはコンピュートエンジンがアクティブであった時間の割合。 |
|
DRAM のアクティブ状態 |
メモリ帯域幅の利用率。 |
|
|
SM のアクティブ状態 |
SM ユニットがアクティブであった時間の割合。 |
|
|
SM 占有率 |
SM の占有率。 |
|
|
Tensor Core エンジンのアクティブ状態 |
モニタリングサイクル中に Tensor Core パイプラインがアクティブであった時間の割合。 |
|
|
FP32 エンジンのアクティブ状態 |
モニタリングサイクル中に FP32 パイプラインがアクティブであった時間の割合。 |
|
|
FP16 エンジンのアクティブ状態 |
モニタリングサイクル中に FP16 パイプラインがアクティブであった時間の割合。 |
|
|
FP64 エンジンのアクティブ状態 |
モニタリングサイクル中に FP64 パイプラインがアクティブであった時間の割合。 |
|
|
PCIe TX バイト数(デバイス → ホスト) |
アプリケーションの GPU デバイスからホストへの PCIe バス経由のデータ転送速度。 |
|
|
PCIe RX バイト数(ホスト → デバイス) |
ホストからアプリケーションの GPU デバイスへの PCIe バス経由のデータ転送速度。 |
|
|
NVLink TX バイト数 |
NVLink 経由でのデータ転送速度。 |
|
|
NVLink RX バイト数 |
NVLink 経由でのデータ転送速度。 |
|
|
GPU 温度 & エネルギー(関連付けられた Pod) |
電力消費量 |
アプリケーションの GPU カードの電力消費量。 |
|
総エネルギー消費量(単位:J) |
ドライバーがロードされてからの GPU カードの総エネルギー消費量。単位:ジュール(J)。 |
|
|
メモリ温度 |
アプリケーションの GPU メモリ温度。 |
|
|
GPU 温度 |
アプリケーションの GPU 温度(計算ユニット)。 |
|
|
GPU クロック(関連付けられた Pod) |
SM クロック |
SM クロック周波数。 |
|
メモリクロック |
メモリクロック周波数。 |
|
|
アプリケーション SM クロック |
SM アプリケーションクロック周波数。 |
|
|
アプリケーションメモリクロック |
アプリケーションメモリクロック周波数。 |
|
|
ビデオクロック |
ビデオエンジンクロック周波数。 |
|
|
クロックの速度制限理由 |
クロックの速度制限が発生した理由。 |