GPU モニタリングは、Exporter+Prometheus+Grafana システム上に構築され、包括的な GPU モニタリングシナリオを作成します。この Topic では、GPU モニタリングによって提供されるダッシュボードのパネルについて説明します。
パネルの概要
GPU モニタリングには、[クラスター GPU モニタリング - クラスターディメンション]、[クラスター GPU モニタリング - ノードディメンション]、および [クラスター GPU モニタリング - アプリケーション Pod ディメンション] が含まれます。次のセクションでは、これらのダッシュボードについて説明します。
[クラスター GPU モニタリング - クラスターディメンション]
パネル | 説明 |
合計 GPU ノード数 | クラスターまたはノードプール内の GPU アクセラレーションノードの総数。 |
割り当て済み GPU | クラスターまたはノードプール内の GPU の総数と割り当て済み GPU の数。 |
割り当て済み GPU メモリ | クラスターまたはノードプール内の合計 GPU メモリに対する割り当て済み GPU メモリの比率。 |
使用済み GPU メモリ | クラスターまたはノードプール内の合計 GPU メモリに対する占有 GPU メモリの比率。 |
平均 GPU 使用率 | クラスターまたはノードプール内の平均 GPU 使用率。 |
GPU メモリコピー使用率 | クラスターまたはノードプール内のメモリコピーの平均使用率。 |
最後の XID エラー | GPU で発生した最新の XID エラー。 |
GPU ノード詳細 | GPU アクセラレーションノードに関する情報。
|
[クラスター GPU モニタリング - ノードディメンション]
パネルグループ | パネル | 説明 |
概要 | GPU モード | ノードの GPU スケジュールモード。次の GPU モードがサポートされています:
|
NVIDIA ドライバーバージョン | ノードにインストールされている GPU ドライバーのバージョン。 | |
割り当て済み GPU | 割り当て済み GPU の数と GPU の総数。 | |
GPU 使用率 | ノードの平均 GPU 使用率。これは、ノード上のすべての GPU の使用率の値の平均に等しくなります。 | |
割り当て済み GPU メモリ | ノード上の合計 GPU メモリに対する割り当て済み GPU メモリの比率。 | |
使用済み GPU メモリ | ノード上の合計 GPU メモリに対する占有 GPU メモリの比率。 | |
割り当てられた計算能力 (GPU 共有で有効) | ノードに割り当てられた計算能力の量。このメトリックは、GPU スケジューリングで共有モードが有効になっており、ノード上の Pod が計算能力をリクエストする場合に表示されます。 | |
最後の XID エラー | ノード上の GPU で発生した最新の XID エラー。 | |
使用率 | GPU 使用率 | ノードの GPU 使用率。 |
GPU メモリコピー使用率 | ノードのメモリコピーの使用率。 | |
エンコーダーエンジン使用率 | ノード上の GPU エンコーダーの使用率。 | |
デコーダーエンジン使用率 | ノード上の GPU デコーダーの使用率。 | |
メモリ & BAR1 | GPU メモリ詳細 | GPU のメモリ情報。
|
BAR1 使用済み | BAR1 メモリが使用されています。 | |
GPU メモリ使用済み | ノード上で占有されている GPU メモリの総量。 | |
BAR1 合計 | BAR1 メモリの総量。 | |
GPU プロセス | GPU プロセス詳細 | ノード上の GPU プロセスに関する情報。
|
不正な GPU プロセス (k8s resources.limits によらない GPU リクエスト) の詳細 | 不正な GPU プロセス (Kubernetes のリソース制限に従わない GPU リクエスト) の詳細。次の GPU プロセスが表示されます:
| |
プロファイリング | グラフィックスエンジンアクティブ | モニタリングサイクル内でグラフィックスまたはコンピュートエンジンがアクティブなままである時間の割合。 |
DRAM アクティブ | メモリ帯域幅の使用率。 | |
SM アクティブ | アクティブな SM の割合。 | |
SM 占有率 | SM の占有率。 | |
テンソルコアエンジンアクティブ | モニタリングサイクル内でテンソルコアパイプがアクティブなままである時間の割合。 | |
FP32 エンジンアクティブ | モニタリングサイクル内で FP32 パイプがアクティブなままである時間の割合。 | |
FP16 エンジンアクティブ | モニタリングサイクル内で FP16 パイプがアクティブなままである時間の割合。 | |
FP64 エンジンアクティブ | モニタリングサイクル内で FP64 パイプがアクティブなままである時間の割合。 | |
PCIE TX バイト (デバイスからホストへ) | ノード上の GPU の Peripheral Component Interconnect Express (PCIe) TX レート。 | |
PCIE RX バイト (ホストからデバイスへ) | ノード上の GPU の PCIe RX レート。 | |
NVLINK TX バイト | NVLink TX または RX レート。 | |
NVLINK RX バイト | NVLink TX または RX レート。 | |
温度 & エネルギー | 電力使用量 | ノードの GPU 仕事率。 |
総エネルギー消費量 (J) | GPU がドライバーのロードを開始した後に消費されるエネルギー量。単位: ジュール。 | |
メモリ温度 | ノードの GPU メモリ温度。 | |
GPU 温度 | ノード上の GPU 計算ユニットの温度。 | |
時計 | SM クロック | SM クロック速度。 |
メモリクロック | メモリクロック。 | |
APP SM クロック | アプリケーションの SM クロック。 | |
APP メモリクロック | アプリケーションのメモリクロック。 | |
ビデオクロック | ビデオクロック。 | |
クロックスロットリングの理由 | クロックスロットリングの理由。 | |
リタイアページ | リタイアページ (シングルビットエラー) | シングルビットエラーのためにリタイアしたページの数。 |
リタイアページ (ダブルビットエラー) | ダブルビットエラーのためにリタイアしたページの数。 | |
違反 | 電力違反 | 仕事率の上限によって発生した違反。違反が発生した時間。単位: マイクロ秒。 |
サーマル違反 | 温度の上限によって発生した違反。違反が発生した時間。単位: マイクロ秒。 | |
同期ブースト違反 | 同期ブースト制限によって発生した違反。違反が発生した時間。単位: マイクロ秒。 | |
ボード制限違反 | 回路基板の制限によって発生した違反。違反が発生した時間。単位: マイクロ秒。 | |
ボード信頼性違反 | 回路基板の信頼性制限によって発生した違反。違反が発生した時間。単位: マイクロ秒。 | |
低使用率違反 | 低使用率によって発生した違反。違反が発生した時間。単位: マイクロ秒。 |
[クラスター GPU モニタリング - アプリケーション Pod ディメンション]
パネルグループ | パネル | 説明 |
概要 | GPU Pod 詳細 | GPU リソースをリクエストする Pod に関する情報。
|
Pod メトリック (GPU デバイス) | Pod の使用済み GPU メモリ | Pod によって占有されている GPU メモリの量。 |
Pod の GPU メモリ使用率 | 利用可能な合計 GPU メモリのうち、Pod が使用する GPU メモリの割合。 | |
Pod の GPU メモリコピー使用率 | Pod のメモリコピー使用率。 | |
Pod の平均 SM 使用率 | Pod の平均 SM 使用率。 | |
Pod の GPU デコード使用率 | Pod のデコーダー使用率。 | |
Pod の GPU エンコード使用率 | Pod のエンコーダー使用率。 | |
Pod メトリック (ホストリソース) | メモリパーセント | メモリ使用量の割合。 |
メモリ使用量 | メモリ使用量。 | |
コア別の CPU 使用率 | コア別の CPU 使用率。 | |
CPU 使用率 | CPU 使用率の割合。 | |
ネットワーク帯域幅使用量 | ネットワーク帯域幅の使用量。 | |
ネットワークソケット | ネットワークソケット。 | |
ファイルシステム | ファイルシステム。 | |
プロセス数 | プロセスの数。 | |
GPU 使用率 (Pod に関連) | GPU 使用率 | アプリケーションの GPU 使用率。 |
GPU メモリコピー使用率 | アプリケーションの GPU のメモリコピー使用率。 | |
エンコーダーエンジン使用率 | アプリケーションの GPU のエンコーダー使用率。 | |
デコーダーエンジン使用率 | アプリケーションの GPU のデコーダー使用率。 | |
GPU メモリ & BAR1 (Pod に関連) | GPU メモリ詳細 | アプリケーションの GPU のメモリ情報。
|
GPU メモリ使用済み | アプリケーションの GPU で占有されている GPU メモリの量。 | |
GPU メモリ使用率 | アプリケーションの GPU メモリ使用量の割合。 | |
BAR1 使用済み | BAR1 メモリが使用されています。 | |
BAR1 合計 | BAR1 メモリの総量。 | |
GPU プロファイリング (Pod に関連) | グラフィックスエンジンアクティブ | モニタリングサイクル内でグラフィックスまたはコンピュートエンジンがアクティブなままである時間の割合。 |
DRAM アクティブ | メモリ帯域幅の使用率。 | |
SM アクティブ | アクティブな SM の割合。 | |
SM 占有率 | SM の占有率。 | |
テンソルコアエンジンアクティブ | モニタリングサイクル内でテンソルコアパイプがアクティブなままである時間の割合。 | |
FP32 エンジンアクティブ | モニタリングサイクル内で FP32 パイプがアクティブなままである時間の割合。 | |
FP16 エンジンアクティブ | モニタリングサイクル内で FP16 パイプがアクティブなままである時間の割合。 | |
FP64 エンジンアクティブ | モニタリングサイクル内で FP64 パイプがアクティブなままである時間の割合。 | |
PCIE TX バイト (デバイスからホストへ) | アプリケーションの GPU の PCIe TX レート。 | |
PCIE RX バイト (ホストからデバイスへ) | アプリケーションの GPU の PCIe RX レート。 | |
NVLINK TX バイト | NVLink TX または RX レート。 | |
NVLINK RX バイト | NVLink TX または RX レート。 | |
GPU 温度 & エネルギー (Pod に関連) | 電力使用量 | アプリケーションの GPU の仕事率。 |
総エネルギー消費量 (J) | GPU がドライバーのロードを開始した後に消費されるエネルギー量。単位: ジュール。 | |
メモリ温度 | アプリケーションの GPU のメモリ温度。 | |
GPU 温度 | アプリケーションの GPU 計算ユニットの温度。 | |
GPU クロック (Pod に関連) | SM クロック | SM クロック速度。 |
メモリクロック | メモリクロック。 | |
APP SM クロック | アプリケーションの SM クロック。 | |
APP メモリクロック | アプリケーションのメモリクロック。 | |
ビデオクロック | ビデオクロック。 | |
クロックスロットリングの理由 | クロックスロットリングの理由。 |