GPU インスタンスは、GPU の誤動作やドライバーの異常などの障害やセキュリティの脆弱性に遭遇する可能性があります。Elastic Compute Service (ECS) コンソールには、GPU デバイスのヘルスチェックを実行できるトラブルシューティング機能が組み込まれています。これにより、GPU インスタンスの GPU とドライバーが異常であるかどうかを診断し、潜在的な問題を早期に特定して解決することができます。
手順
操作を実行する前に、GPU インスタンスが [実行中] 状態であることを確認してください。
ECS コンソールのセルフサービス トラブルシューティングページに移動します。ページの上部で、GPU インスタンスが配置されているリージョンを選択します。
[トラブルシューティング] ページで、問題タイプ、診断項目、インスタンス ID、およびトラブルシューティングサイクルを設定します。次に、[開始] をクリックします。
説明[開始] をクリックすると、システムは自動的に診断タスクを作成します。システムは、特定の期間内にインスタンス上で 1 つの診断タスクのみを実行します。診断タスクが完了した後、インスタンスで別の診断タスクを開始する前に、少なくとも 5 分間待つ必要があります。

次の表に設定項目を示します。
番号
設定項目
説明
①
問題タイプ
[インスタンスデバイスチェック] を選択して、GPU などのインスタンスデバイスが期待どおりに実行されるかどうかを確認します。
②
診断項目
[GPU ヘルスチェック] を選択して、GPU とドライバーのステータスなど、インスタンスデバイスのステータスを確認します。
③
インスタンス ID
チェックする GPU インスタンスの ID を選択します。
トラブルシューティングサイクル
必要に応じて期間を指定します。デフォルトでは、システムは直近 12 時間以内の問題をトラブルシューティングします。
インスタンスが診断された後、診断レポートを表示します。

診断レポートには、次の項目が含まれます。
項目
説明
診断結果
すべての診断項目が正常な場合、システムは [インスタンスで例外は検出されませんでした。] を表示します。
異常な診断項目が存在する場合、システムは [インスタンスで *** 個の例外が検出されました。] を表示します。*** は実際の例外数に置き換えられます。システムは、例外を解決するために参照できるソリューションも提供します。
診断項目の詳細
この Topic では、システムは [GPU デバイスとドライバーのステータスチェック] パラメーターに関する情報のみを表示します。重大度レベルは、重大、警告、合格に分類されます。
基本的な診断情報
システムは、リソース ID、レポート ID、開始時刻などの基本的な診断情報を表示します。
(オプション) [トラブルシューティング] ページで、[履歴の表示] をクリックして、チェック履歴ページでインスタンスの過去の診断詳細を表示します。
説明「チェック履歴」ページの「インスタンス正常性診断」タブで、[ステータス] 列の右側にある
アイコンをクリックすると、目的のレポートを状態別に絞り込むことができます。