GPU の異常への対処における柔軟性と構成可能性を高めるため、Container Service for Kubernetes (ACK) は GPU 自動隔離のメカニズムを更新します。この変更により、GPU の問題に対するクラスターの応答をカスタマイズできるようになり、さまざまなビジネスシナリオにおける多様な耐障害性要件に、より適合します。
適用開始日
カナリアリリースは 2026 年 5 月 14 日に開始されます。
変更内容
ACK は GPU の異常検出と GPU 自動隔離機能を提供しています。GPU の異常が検出されると、障害のある GPU を cordon して、新しいワークロードがその GPU にスケジュールされないようにし、ビジネスへの影響を最小化します。なお、隔離は自動修復ではないため、障害のある GPU の修復または交換には引き続き手動による対応が必要です。
ACK Node Problem Detector (ACK NPD) バージョン 1.2.35 および ACK NVIDIA Device Plugin バージョン 0.7.0 以降、GPU 自動隔離のトリガーメカニズムは、「デフォルトで有効」から「構成によるオプトイン」に変更されます。詳細は次のとおりです。
ACK NPD は、異常検出とレポート生成のみを担当します。
ACK NVIDIA Device Plugin は、ACK NPD の検出レポートと、構成した特定のトリガー条件の両方に基づいて、障害のある GPU を隔離するかどうかを判断します。
この新しいメカニズムでは、GPU 自動隔離はデフォルトで無効です。この機能を有効にするには、隔離をトリガーする異常タイプを構成する必要があります。
動作の比較
既存の動作
ACK NPD が GPU の異常を検出すると、隔離ファイルを生成しました。ACK NVIDIA Device Plugin はこのファイルを読み取り、一覧に含まれるすべての GPU を自動的に隔離しました。このファイルの生成を制御することで、機能全体の有効化または無効化のみを行えました。
新しい動作
ACK NPD が GPU の異常を検出すると、異常レポートを生成します。次に ACK NVIDIA Device Plugin が、このレポートをユーザー定義のトリガー条件リストと照合します。デフォルトではこのリストは空であるため、GPU 自動隔離はデフォルトで無効です。よりきめ細かな制御が可能になり、どの異常をトリガーとして自動隔離を行うか定義できます。
互換性を維持するため、新しいバージョンの ACK NPD は従来形式の GPU 隔離ファイルも引き続き生成します。ただし、新しいバージョンの ACK NVIDIA Device Plugin はこのファイルを読み取りません。隔離の動作は、同プラグイン自身の構成によって完全に決定されます。
影響を受けるバージョンと動作
この新しいメカニズムは、Kubernetes バージョン 1.32 以降を実行している ACK クラスターにのみ適用されます。
Kubernetes バージョン 1.32 未満のクラスターでは、引き続き既存の隔離メカニズムが使用されます。
GPU 自動隔離機能の動作は、アドオンのバージョンの組み合わせによって異なります。
ACK NPD のバージョン | ACK NVIDIA Device Plugin のバージョン | GPU 自動隔離の動作 |
< 1.2.24 | N/A | GPU の異常検出は利用できません。 |
≥ 1.2.24 | < 0.7.0 | 既存の隔離動作に従います。 |
1.2.24 ~ 1.2.34 | ≥ 0.7.0 | GPU 自動隔離機能は動作しません。その他の機能は通常どおり動作します。 以前の ACK NPD バージョンでは、新しい NVIDIA Device Plugin が障害のある GPU の識別に用いる異常レポートが生成されないためです。このレポートがない場合、隔離は実行できません。 |
≥ 1.2.35 | ≥ 0.7.0 | 新しい隔離動作に従います。隔離はユーザーが構成した条件に基づいてトリガーされ、デフォルトで無効です。 |
推奨されるアクション
新しい構成可能な GPU 自動隔離機能を使用するには、次の手順を実行してください:
アドオンのアップグレード
クラスターが ACK NPD バージョン 1.2.35 以降および ACK NVIDIA Device Plugin バージョン 0.7.0 以降を実行していることを確認してください。カナリアリリース期間中に新しいバージョンが [Components and Add-ons] ページでまだ利用できない場合は、許可リストに追加を申請するためにチケットを送信してください。アップグレードはオフピーク時間に実施することを推奨します。
ACK NPD をアップグレードするには、「ack-node-problem-detector アドオンをアップグレードする」をご参照ください。
ACK NVIDIA Device Plugin をアップグレードするには、「NVIDIA device plugin をアップグレードする」をご参照ください。
自動隔離トリガーの構成
ビジネス要件に基づいて、自動隔離をトリガーする異常タイプを構成してください。詳細な手順については、更新された「GPU 障害検出と自動フェンシング」のドキュメントをご参照ください。
(推奨) GPU 異常アラートの構成
GPU の異常アラートも構成することを推奨します。これにより、異常が報告された際に迅速に通知を受け取れ、ビジネスに影響が及ぶ前に問題に対処できます。詳細については、「Observability best practices for GPU or AI training scenarios」をご参照ください。
この変更が運用に与える影響を確認し、アップグレード前に必要な調整を行ってください。新しい隔離メカニズムにより想定外の動作が発生しないようにしてください。