GPU の障害検出と自動フェンシング - Container Service for Kubernetes

ACK は、ack-node-problem-detector (ACK NPD) コンポーネントを使用して GPU のヘルスを監視します。GPU ノードで XID エラーや SXID エラーなどの例外が発生すると、ACK NPD は障害が発生した GPU を自動的に検出し、ACK NVIDIA デバイスプラグインと連携して当該 GPU をフェンシングします。このプロセスにより、正常な GPU をワークロードに利用できる状態に保ち、ビジネスへの影響を最小限に抑え、クラスターの信頼性と効率を向上させます。

ack-node-problem-detector (ACK NPD) は、オープンソースの node-problem-detector プロジェクトを ACK が改良・拡張した、クラスターノードの異常を監視するためのモニタリングコンポーネントです。GPU 固有の異常向けの豊富なチェックを提供し、GPU ワークロードの障害検出を強化します。コンポーネントが異常を検出すると、異常のタイプに基づいて Kubernetes イベントと Node Condition を生成します。

使用上の注意

障害のある GPU カードが隔離され、ノード上の残りの GPU がタスクの要件を満たせない場合、タスクがスケジュールされなくなる可能性があります。たとえば、8 枚の GPU カードを必要とするタスクは、7 枚しか利用できない場合は実行できません。これにより、GPU リソースがアイドル状態になる可能性があります。自動 GPU 隔離は自動修復とは異なり、ノードインスタンスは引き続き課金されます。ノードの修復は別途必要です。タイムリーな修復を確実にするために、GPU例外アラートの設定を推奨します。GPU ステータスが正常に戻ると、隔離は自動的に解除されます。
また、ビジネス要件に基づいて自動 GPU 隔離を有効または無効にすることもできます。NVIDIA Device Plugin コンポーネントの特定バージョンは、障害のある GPU カードの自動隔離をサポートしていますが、この機能を無効にする手順は異なります。詳細な手順については、「NVIDIA Device Plugin のネイティブ GPU 隔離機能を無効にする方法」をご参照ください。
NVIDIA の XID および SXID は、NVRM イベントメカニズムを介して、GPU ドライバーによって/var/log/messages または /var/log/syslog に書き込まれます。ACK NPD は、各 XID および SXID が処理されたかどうかを追跡します。XID または SXID が検出された後にノードが再起動されると、ACK NPD は問題が解決されたとみなし、Event や Node Condition を生成しません。これは、根本的な問題が修正されていない場合でも発生します。たとえば、XID 79 エラーを解決するには GPU デバイスの交換が必要ですが、ACK NPD はノードの再起動後もそのエラーを解決済みとしてマークします。
ACK NPD は、ノード上の /var/log/messages または /var/log/syslog ファイルをチェックして、NVIDIA XID または NVIDIA SXID を検出します。dmesg ログが別のファイルにリダイレクトされている場合、ACK NPD は NVIDIA XID および SXID を検出できません。
ACK NPD バージョン 1.2.29 以降、ACK NPD の GPU 障害検出プラグインは、ack-accel-health-monitor という名前の個別の DaemonSet としてデプロイされます。
場合によっては、ノード上の GPU 障害が、新しい GPU コンテナの作成を妨げることがあります。これにより、GPU 障害検出コンテナ自体が起動に失敗し、検出プロセスが正しく実行されなくなる可能性があります。

ACK NPD GPU 検出プラグイン Pod は、GPU デバイスと GPU コンポーネントのステータスを検出するために、privileged=true などの特権を必要とします。詳細については、以下の表をご参照ください。

クラスターRBAC権限

コンテナ権限

Node: get

Node/Status: update

Events: create

privileged: true

ホストの /dev/kmsg の読み取り専用マウント

ホストの /usr/lib の読み取り専用マウント

ホストの /etc ディレクトリの読み取り専用マウント

ホストの /usr/lib64 の読み取り専用マウント

ホストの /proc の読み取り専用マウント

GPU 自動隔離

ACK Node Problem Detector (ACK NPD) コンポーネントのバージョン 1.2.35 および ACK NVIDIA Device Plugin コンポーネントのバージョン 0.7.0 以降、GPU 自動隔離メカニズムは デフォルトトリガー から 設定ベースのトリガー に変更されました。詳細については、「[Product Change] Announcement on Changes to the Automatic GPU Isolation Feature」をご参照ください。

レガシーメカニズム (デフォルトトリガー)
ACK NPD コンポーネントが GPU 障害を検出すると、GPU 隔離ファイルを生成します。次に、ACK NVIDIA Device Plugin コンポーネントがこのファイルに記載されたすべての GPU デバイスを隔離します。デフォルトでは、特定の障害を検出するとシステムが GPU を自動的に隔離します。GPU 隔離ファイルを生成するかどうかを設定することで、この機能を有効または無効にできます。
新しいメカニズム (設定ベースのトリガー)
ACK NPD コンポーネントが GPU 障害を検出すると、障害検出レポートを生成します。ACK NVIDIA Device Plugin コンポーネントは、このレポートと、隔離トリガーとして設定した NPD チェック項目 に基づいて、GPU を隔離するかどうかを判断します。デフォルトでは、ACK NVIDIA Device Plugin コンポーネントにトリガーとなるチェック項目が設定されていないため、GPU 自動隔離はデフォルトで無効 になっています。これらのチェック項目を設定することで、自動隔離をトリガーする障害を指定できます。

各メカニズムの適用範囲については、「GPU 自動隔離の動作」をご参照ください。

説明

互換性を維持するため、新しいバージョンの ACK NPD は従来形式の GPU 隔離ファイルも引き続き生成します。ただし、新しいバージョンの ACK NVIDIA Device Plugin はこのファイルを読み取りません。隔離の動作は、同プラグイン自身の構成によって完全に決定されます。

GPU 自動隔離の動作

この新しいメカニズムは、Kubernetes バージョン 1.32 以降を実行している ACK クラスターにのみ適用されます。
Kubernetes バージョン 1.32 未満のクラスターでは、引き続き既存の隔離メカニズムが使用されます。

GPU 自動隔離機能の動作は、アドオンのバージョンの組み合わせによって異なります。

ACK NPD バージョン	ACK NVIDIA Device Plugin バージョン	GPU 自動隔離の動作	対応
ACK NPD バージョン < 1.2.24	該当なし	GPU 異常検出はサポートされていません。	該当なし
ACK NPD バージョン ≥ 1.2.24	ACK NVIDIA Device Plugin バージョン < 0.7.0	隔離はレガシーメカニズムに従います。	レガシー手順に従ってください。
1.2.24 ≤ ACK NPD バージョン < 1.2.35	ACK NVIDIA Device Plugin バージョン ≥ 0.7.0	GPU 自動隔離は無効ですが、その他の機能は正常に動作します。以前の ACK NPD バージョンでは異常検出レポートが生成されません。そのため、新しい ACK NVIDIA Device Plugin は故障した GPU を識別できず、自動隔離は実行されません。	該当なし新しいメカニズムを使用するには、ACK NPD を最新バージョンにアップグレードしてください。
ACK NPD バージョン ≥ 1.2.35 このバージョンはカナリアリリース中です。許可リストに追加するには、チケットを送信してください。	ACK NVIDIA Device Plugin バージョン ≥ 0.7.0 このバージョンはカナリアリリース中です。許可リストに追加するには、チケットを送信してください。	隔離は新しいメカニズムに従います。	新しい手順に従ってください。

ACK NPD および ACK NVIDIA Device Plugin コンポーネントの確認とアップグレードの手順については、ACK NPD バージョンの確認またはアップグレードおよびACK NVIDIA Device Plugin バージョンの確認またはアップグレードを参照してください。

GPU 自動隔離の有効化または無効化

説明

GPU 自動隔離を無効にした場合、または機能が動作していない場合でも、影響を受けるのは GPU の自動隔離のみです。ACK NPD が GPU 例外を検出すると、ACK NPD チェック項目に基づいて Node Condition、Kubernetes イベント、およびアラームをトリガーしますが、故障した GPU を自動的に隔離することはありません。

新しい方法

有効にすると、故障した GPU が設定済みのACK NPD チェック項目をトリガーした際に、自動的に隔離されます。自動隔離は自動修復とは異なります。GPU が隔離されたノードインスタンスは引き続き課金されます。ノードの修復は引き続き必要です。迅速な対応のため、GPU 例外アラームを設定することを推奨します。チェック項目が選択されていない場合、自動隔離はトリガーされません。

ACKコンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、管理するクラスターの名前をクリックします。左側のウィンドウで、[操作] > [アドオン] を選択します。
コンポーネント管理ページで、ack-nvidia-device-plugin コンポーネントを検索し、そのカードにある設定をクリックします。
表示されるダイアログボックスで、GPU 自動隔離を有効化または無効化します。
- 有効化： [GPU 自動隔離を有効にする] チェックボックスをオンにし、[GPU 自動隔離をトリガーする NPD チェック項目] を選択します。
- 無効化： [GPU 自動隔離を有効にする] チェックボックスをオフにするか、チェック項目を未選択のままにします。

従来の方法

GPU 例外が検出されると、ack-node-problem-detector コンポーネントはデフォルトの隔離ポリシーに基づいて NVIDIA GPU 隔離ファイルを生成します。その後、ack-nvidia-device-plugin コンポーネントは、ファイルの内容に基づいて故障した GPU を自動的に隔離します。これにより、新しいワークロードが故障した GPU にスケジュールされないようになり、ノード上の他の正常な GPU は引き続きワークロードを処理できます。ただし、自動隔離 は 自動修復 を実行しません。GPU が隔離されたノードインスタンスは引き続き課金されます。ノードの再起動または修復は引き続き手動で行う必要があります。迅速な対応のため、GPU 例外アラームを設定することを推奨します。

説明

ack-node-problem-detector v1.2.30 以降では、コンポーネント管理画面の generateNvidiaGpuIsolationFile 設定を使用して、故障した GPU の自動隔離を制御します。
コンポーネントをアップグレードした後、GPU 自動隔離の動作を参照して、新しいコンポーネントバージョンで GPU 自動隔離を有効化または無効化する方法を確認してください。

有効化：従来のメカニズムでは、GPU 自動隔離はデフォルトで有効になっています。generateNvidiaGpuIsolationFile (v1.2.30 以降) または EnabledIsolateGPU (v1.2.24 から v1.2.29) を true に設定することで再度有効にできます。
無効化：
1. [クラスター] ページで、管理するクラスターの名前をクリックします。左側のナビゲーションウィンドウで、[操作] > [アドオン] を選択します。
2. ログとモニタリング タブで、[ack-node-problem-detector] コンポーネントを見つけ、コンポーネントのバージョンに応じて次の手順に従います。
  - v1.2.24 から v1.2.29：最新バージョンに アップグレード します。
  - v1.2.30 以降：設定をクリックします。
3. コンポーネントのアップグレードまたは設定ページで、generateNvidiaGpuIsolationFile パラメータを false に設定し、OK をクリックします。
  説明
  以前にバージョン 1.2.24 から 1.2.29 で ack-node-problem-detector-daemonset を変更し、EnabledIsolateGPU パラメータを false に設定して GPU 自動隔離を無効にしていた場合、この設定は ACK NPD コンポーネントをアップグレードする際に自動的に保持されます。GPU 自動隔離を再度有効にする場合は、generateNvidiaGpuIsolationFile を true に設定してください。
既存の GPU 隔離を解除するには、XID エラーが発生したノードにログインし、/etc/nvidia-device-plugin/unhealthyDevices.json ファイルを削除してください。GPU が再度隔離されないようにするには、前述の手順に従って機能を無効にしてください。

検出と修復

GPU 例外が検出された場合は、Nvidia Xid Errors で解決策を確認してください。また、対応するクラウド製品 (ECS や Lingjun など) のコンソールで関連する O&M イベントを確認するか、自己診断ツールでハードウェア例外のトラブルシューティングを行うこともできます。

重要

次の表の「障害 GPU の自動隔離」は、レガシーメカニズムにおけるデフォルトの隔離動作です。新しいメカニズムでは、カスタム設定に基づいて GPU を隔離します。詳細については、「自動 GPU 隔離メカニズム」をご参照ください。

チェック項目と推奨事項

推奨が「なし」の場合、ハードウェア側での対応は不要です。代わりに、アプリケーション構成を確認してください。

エラータイプ	ノードコンディションの生成	イベントを生成	説明	自動的に隔離レガシーメカニズムにのみ適用	修復
NvidiaXID13Error	いいえ	はい `Type: Warning` `Reason: NvidiaXID13Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 13 error has occurred.`	`グラフィックスエンジンの例外。` このエラーは通常、配列の範囲外アクセスまたは不正な命令によって発生します。ハードウェアの問題が原因であることは稀です。	いいえ	なし
NvidiaXID31Error	いいえ	はい `Type: Warning` `Reason: NvidiaXID31Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 31 error has occurred.`	`GPU メモリのページフォールト。` このエラーは通常、アプリケーションからの不正なメモリアクセスによって発生します。ドライバーやハードウェアの問題である可能性は低いです。	いいえ	なし
NvidiaXID43Error	いいえ	はい `Type: Warning` `Reason: NvidiaXID43Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 43 error has occurred.`	`GPU の処理が停止しました。` このイベントは、アプリケーションがソフトウェア起因の例外に遭遇し、終了する必要がある場合に記録されます。GPU 自体は正常な状態を維持します。ほとんどの場合、これはドライバーの問題ではなく、アプリケーションのエラーを示します。	いいえ	なし
NvidiaXID44Error	はい `Type: NvidiaXID44Error` `Reason: NodeHasNvidiaXID44Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 44 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID44Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 44 error has occurred.`	`コンテキストスイッチ中のグラフィックスエンジンの障害。` この障害はコンテキストスイッチ中に発生します。	はい (ACK NPD <= 1.2.28) いいえ (ACK NPD >= 1.2.30)	ノードを再起動する
NvidiaXID45Error	いいえ	はい `Type: Warning` `Reason: NvidiaXID45Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 45 error has occurred.`	`以前のエラーによる予防的クリーンアップ - 複数の CUDA アプリケーションを実行し、DBE が発生した場合に最もよく見られます。` このイベントは、アプリケーションが中止され、カーネルドライバーが GPU 上でそのアプリケーションを終了させたときに記録されます。このイベントをトリガーする例として、Control-C の押下、GPU リセットの実行、`sigkill シグナル` の送信などがあります。多くの場合、このイベントは根本的なエラーではなく、ユーザーまたはシステムの操作に起因します。	いいえ	なし
NvidiaXID48Error	はい `Type: NvidiaXID48Error` `Reason: NodeHasNvidiaXID48Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 48 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID48Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 48 error has occurred.`	`ダブルビット ECC エラー (DBE)。` このイベントは、GPU が修正不可能なエラーを検出したときに記録されます。アプリケーションにもこの状態が通知されます。このエラーをクリアするには、GPU リセットまたはノードの再起動が必要です。	はい	ノードを再起動する
NvidiaXID61Error	はい `Type: NvidiaXID61Error` `Reason: NodeHasNvidiaXID61Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 61 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID61Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 61 error has occurred.`	`内部マイクロコントローラーのブレークポイント/警告 (新しいドライバーの場合)。`	はい (ACK NPD <= 1.2.28) いいえ (ACK NPD >= 1.2.30)	ノードを再起動する
NvidiaXID62Error	はい `Type: NvidiaXID62Error` `Reason: NodeHasNvidiaXID62Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 62 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID62Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 62 error has occurred.`	`内部マイクロコントローラーの停止 (新しいドライバーの場合)。`	はい	ノードを再起動する
NvidiaXID63Error	いいえ	はい `Type: Warning` `Reason: NvidiaXID63Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 63 error has occurred.`	`ECC ページリタイアメントまたはロウリマッピングの記録イベント。` アプリケーションが GPU メモリのハードウェアの問題に遭遇すると、NVIDIA の自動修正メカニズムが障害のあるメモリ領域をリタイアまたはリマップします。このリタイアメントおよびリマッピング情報は、永続的に有効にするために infoROM に記録される必要があります。 Volta アーキテクチャ：ECC ページリタイアメントイベントは infoROM に正常に記録されました。 Ampere アーキテクチャ：ロウリマッピングイベントは infoROM に正常に記録されました。	いいえ	なし
NvidiaXID64Error	いいえ	はい `Type: Warning` `Reason: NvidiaXID64Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 64 error has occurred.`	`ECC ページリタイアメントまたはロウリマッパーの記録失敗。` `Xid 63` と同様に、このイベントはメモリリマッピングに関連しています。ただし、`Xid 64` は記録の失敗を示し、`Xid 63` は成功を示します。	いいえ	なし
NvidiaXID69Error	はい `Type: NvidiaXID69Error` `Reason: NodeHasNvidiaXID69Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 69 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID69Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 69 error has occurred.`	`グラフィックスエンジンクラスのエラー。`	はい (ACK NPD <= 1.2.28) いいえ (ACK NPD >= 1.2.30)	ノードを再起動する
NvidiaXID74Error	はい `Type: NvidiaXID74Error` `Reason: NodeHasNvidiaXID74Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 74 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID74Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 74 error has occurred.`	`致命的な NVLINK エラー。` NVLink ハードウェアエラーがこの XID を生成します。	はい	ハードウェアの修理
NvidiaXID79Error	はい `Type: NvidiaXID79Error` `Reason: NodeHasNvidiaXID79Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 79 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID79Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 79 error has occurred.`	`GPU がバスから脱落しました。` GPU がバスから脱落し、検出できなくなりました。	はい	ハードウェアの修理
NvidiaXID94Error	いいえ	はい `Type: Warning` `Reason: NvidiaXID94Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 94 error has occurred.`	`封じ込められた ECC エラー。` NVIDIA のエラーの封じ込めメカニズムは、修正不可能な ECC エラーを、エラーが発生したアプリケーションに限定を試みます。これにより、エラーが GPU 上の他のアプリケーションに影響を与えるのを防ぎます。`Xid 94` は、封じ込めが成功した場合に生成され、エラーに遭遇したアプリケーションのみが影響を受けることを意味します。	いいえ	なし
NvidiaXID95Error	はい `Type: NvidiaXID95Error` `Reason: NodeHasNvidiaXID95Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 95 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID95Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 95 error has occurred.`	`封じ込められていない ECC エラー。` `Xid 95` は、エラーの封じ込めが失敗し、GPU 上のすべてのアプリケーションに影響が及んだことを示します。アプリケーションを再起動する前に、GPU をリセットする必要があります。	はい	ノードを再起動する
NvidiaXID109Error	はい `Type: NvidiaXID109Error` `Reason: NodeHasNvidiaXID109Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 109 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID109Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 109 error has occurred.`	`コンテキストスイッチのタイムアウトエラー。`	はい (ACK NPD <= 1.2.28) いいえ (ACK NPD >= 1.2.30)	なし
NvidiaXID119Error	はい `Type: NvidiaXID119Error` `Reason: NodeHasNvidiaXID119Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 119 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID119Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 119 error has occurred.`	`GSP RPC タイムアウト。` GSP コアからの RPC メッセージへの応答を待機中にタイムアウトが発生しました。	はい	ノードを再起動する
NvidiaXID120Error	はい `Type: NvidiaXID120Error` `Reason: NodeHasNvidiaXID120Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 120 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID120Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 120 error has occurred.`	`GSP エラー。` GPU の GSP コアで実行されているコードでエラーが発生しました。	はい	ノードを再起動する
NvidiaXID140Error	はい `Type: NvidiaXID140Error` `Reason: NodeHasNvidiaXID140Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 140 error has occurred.`	はい `Type: Warning` `Reason: NvidiaXID140Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 140 error has occurred.`	`未回復の ECC エラー。` このイベントは、GPU ドライバーが GPU メモリ内で、動的ページオフライン化またはロウリマッピングのためにページをマークする能力に影響を与える修正不可能なエラーを検出したときに発生する可能性があります。GPU リセットが必要です。	はい	ノードを再起動する
NvidiaXID[code]Error	いいえ	はい (イベントは 3 回のみ生成されます) `Type: Warning` `Reason: NvidiaXID[code]Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid [code] error has occurred.`	この表に記載されていないその他の XID エラー。	いいえ	チケットを送信。
NvidiaSXID[code]Error	いいえ	はい (イベントは 3 回のみ生成されます) `Type: Warning` `Reason: NvidiaSXID[code]Error` `Message: TS=xxx;NVSwitchIds=xxx;MSG=An nvidia sxid [code] error has occurred.`	SXID エラーは 3 つのカテゴリに分類されます：修正可能：エラーはシステム動作に影響を与えることなく自動的に修正されます。アクションは不要です。致命的：エラーはデバイスにとって致命的であり、システム動作に影響を与えます。回復にはデバイスリセットまたはシステムの再起動が必要です。非致命的：エラーはデバイスにとって致命的ではありませんが、システム動作に影響を与えます。デバイスリセットまたはシステムの再起動は不要な場合があります。	いいえ	なし
NvidiaEccModeNotEnabled	はい `Type: NvidiaEccModeNotEnabled` `Reason: EccModeNotEnabled` `Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.`	はい (問題が修正されるまでイベントは継続的に生成されます) `Type: Warning` `Reason: NvidiaEccModeNotEnabled` `Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.`	ノードで ECC モードが有効になっていません。	いいえ	ECC モードの有効化とノードの再起動
NvidiaPendingRetiredPages	はい `Type: NvidiaPendingRetiredPages` `Reason: NodeHasNvidiaPendingRetiredPages` `Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.`	はい (問題が修正されるまでイベントは継続的に生成されます) `Type: Warning` `Reason: NvidiaPendingRetiredPages` `Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.`	GPU には保留状態のリタイアしたページがあります。保留中のページリタイアメントを適用するには、GPU リセットが必要です。	はい	ノードを再起動する
NvidiaRemappingRowsFailed	はい `Type: NvidiaRemappingRowsFailed` `Reason: GPUMemoryRemappingRowsFailed` `Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row mapping.`	はい (問題が修正されるまでイベントは継続的に生成されます) `Type: Warning` `Reason: NvidiaRemappingRowsFailed` `Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row mapping.`	GPU でロウリマッピングの失敗が発生しました。	はい	ハードウェアの修理
NvidiaRemappingRowsRequireReset	はい `Type: NvidiaRemappingRowsRequireReset` `Reason: UncontainedEccError` `Message: GpuIds=xxx;MSG=Remapping rows requires GPU reset.`	はい (問題が修正されるまでイベントは継続的に生成されます) `Type: Warning` `Reason: NvidiaRemappingRowsRequireReset` `Message: GpuIds=xxx;MSG=Remapping rows requires GPU reset.`	GPU で、回復に GPU リセットが必要な、修正不可能で封じ込められていないエラーが発生しました。操作を復元するには、速やかに GPU をリセットしてください。	はい (ACK NPD <= 1.2.28) いいえ (ACK NPD >= 1.2.30)	ノードを再起動する
NvidiaDeviceLost	はい `Type: NvidiaDeviceLost` `Reason: NodeHasNvidiaDeviceLost` `Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible`	はい (問題が修正されるまでイベントは継続的に生成されます) `Type: Warning` `Reason: NvidiaDeviceLost` `Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible.`	`GPU がバスから脱落したか、またはその他の理由でアクセス不可になりました。`	はい	ハードウェアの修理
NvidiaInfoRomCorrupted	はい `Type: NvidiaInfoRomCorrupted` `Reason: NodeHasNvidiaInfoRomCorrupted` `Message: GpuIds=xxx;MSG=GPU infoROM is corrupted`	はい (問題が修正されるまでイベントは継続的に生成されます) `Type: Warning` `Reason: NvidiaInfoRomCorrupted` `Message: GpuIds=xxx;MSG=GPU infoROM is corrupted.`	`infoROM が破損している。`	はい	ハードウェアの修理
NvidiaPowerCableErr	はい `Type: NvidiaPowerCableErr` `Reason: NodeHasNvidiaPowerCableErr` `Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached`	はい (問題が修正されるまでイベントは継続的に生成されます) `Type: Warning` `Reason: NvidiaPowerCableErr` `Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached.`	`デバイスの外部電源ケーブルが正しく接続されていません。`	はい	ハードウェアの修理
NvidiaPersistencedOffline	はい `Type: NvidiaPersistencedOffline` `Reason: NodeHasNvidiaPersistencedOffline` `Message: TS=xxx;GpuIds=xxx;Nvidia Persistenced service is not running.`	はい `Type: Warning` `Reason: NvidiaPersistencedOffline` `Message: TS=xxx;GpuIds=xxx;Nvidia Persistenced service is not running.`	NVIDIA Persistenced サービスが実行されていません。	いいえ	nvidia-persistenced サービスの再起動
NvidiaFabricManagerOffline	はい `Type: NvidiaFabricManagerOffline` `Reason: NodeHasNvidiaFabricManagerOffline` `Message: TS=xxx;GpuIds=xxx;Nvidia Fabric Manager service is not running.`	はい `Type: Warning` `Reason: NvidiaFabricManagerOffline` `Message: TS=xxx;GpuIds=xxx;Nvidia Fabric Manager service is not running.`	NVIDIA Fabric Manager サービスが実行されていません。	いいえ	Fabric Manager サービスの再起動
NvidiaTemperatureHigh	はい `Type: NvidiaTemperatureHigh` `Reason: NodeHasNvidiaTemperatureHigh` `Message: TS=xxx;GpuIds=xxx;Nvidia gpu temperature exceeds threshold`	はい `Type: Warning` `Reason: NvidiaTemperatureHigh` `Message: TS=xxx;GpuIds=xxx;Nvidia gpu temperature exceeds threshold`	GPU 温度が 100 °C を超えました。	いいえ	なし
NvidiaNVLinkStateErr	はい `Type: NvidiaNVLinkStateErr` `Reason: NodeHasNvlinkStateErr` `Message: TS=xxx;GpuIds=xxx;Nvidia nvlink state is down`	はい `Type: Warning` `Reason: NvidiaNvlinkStateErr` `Message: TS=xxx;GpuIds=xxx;Nvidia nvlink state is down`	NVIDIA NVLink の状態がダウンしています。	いいえ	ノードを再起動する

その他の関連イベント

専用 GPU シナリオでは、レガシーメカニズムは障害のある GPU を自動的に隔離しますが、新しいメカニズムではコンポーネント管理でトリガーを設定する必要があります。隔離後、新しい GPU アプリケーション Pod は GPU カードにスケジュールされません。隔離を検証するには、Kubernetes ノードが報告する nvidia.com/gpu リソースの数を確認します。GPU カードが回復すると、ACK は自動的に隔離を解除します。

トリガー理由

イベント内容

説明

GPU 隔離

はい

タイプ：警告
理由： NvidiaDeviceIsolated
メッセージ： GpuIds=xxx;MSG=nvidia device has been isolated due to detected issues.

システムは問題を検出した後、GPU カードを隔離します。

GPU の隔離解除

はい

タイプ： Normal
理由： NvidiaDeviceRecovered
メッセージ： GpuIds=xxx;MSG=nvidia device has recovered from the fault.

GPU カードが回復すると、ACK はその隔離を解除します。