GPU 使用時の機能または操作上の問題 - Elastic GPU Service

このトピックでは、GPU の使用時に発生する一般的な問題をまとめ、Elastic GPU Service の問題のトラブルシューティングと解決に役立つ情報を提供します。

カテゴリ	関連する質問
GPU コンピューティングインスタンス	GPU コンピューティングインスタンスは Android エミュレーターをサポートしていますか？ GPU コンピューティングインスタンスの設定は変更できますか？標準 Elastic Compute Service (ECS) インスタンスファミリーを GPU コンピューティングインスタンスファミリーにアップグレードまたは変更できますか？ GPU コンピューティングインスタンスと標準 ECS インスタンスの間でデータを転送するにはどうすればよいですか？ GPU と CPU の違いは何ですか？
GPU カード	GPU コンピューティングインスタンスを購入した後、nvidia-smi コマンドで GPU カードが見つからないのはなぜですか？ GPU カードの詳細を表示するにはどうすればよいですか？ Linux で GPU の初期化に失敗する場合 (「RmInitAdapter failed!」など)
GPU メモリ	48 GB の GPU メモリを搭載したインスタンスで、nvidia-smi の表示が約 3 GB 少なくなるのはなぜですか？ ECC 機能を無効にして GPU メモリを解放するにはどうすればよいですか？ ECC を無効にする際に、別のクライアントによって GPU が使用中であることを示すエラーが発生した場合はどうすればよいですか？
GPU ドライバー	vGPU インスタンスにはどのドライバーをインストールする必要がありますか？ vGPU インスタンスで CUDA を 12.4 に、または NVIDIA ドライバーを 550 以降にアップグレードできますか？ GPU コンピューティング最適化インスタンスで OpenGL や Direct3D などのツールを使用してグラフィックスアクセラレーションを行うには、どのドライバーをインストールする必要がありますか？インストール後に表示される CUDA バージョンが、GPU コンピューティングインスタンスの作成時に選択したバージョンと異なるのはなぜですか？ Windows の GPU コンピューティングインスタンスに GRID ドライバーをインストールした後、コンソールから VNC 接続を使用すると黒い画面が表示される場合はどうすればよいですか？ GRID ライセンスを取得するにはどうすればよいですか？ GPU ドライバー (Tesla または GRID) をアップグレードするにはどうすればよいですか？ NVIDIA ドライバーバージョン 570.124.xx (Linux) または 572.61 (Windows) のインストール後にシステムがクラッシュし、「カーネル NULL ポインターデリファレンス」エラーが発生する場合ドライバーのインストール中にカーネルモジュールタイプとして NVIDIA Proprietary を選択すると、「No devices were found」エラーが返される場合
GPU のモニタリング	GPU コンピューティングインスタンスのリソース使用量 (vCPU、ネットワークトラフィック、帯域幅、ディスク) を表示するにはどうすればよいですか？
その他	cGPU サービスをインストールするにはどうすればよいですか？ cGPU サービスをインストールした後、nvidia-smi -r コマンドがハングする場合

GPU コンピューティングインスタンス

GPU コンピューティングインスタンスは Android エミュレーターをサポートしていますか？

Android エミュレーターは、一部の GPU コンピューティングインスタンスにのみインストールできます。

Android エミュレーターは、次の GPU コンピューティング最適化 ECS ベアメタルインスタンスファミリーでのみサポートされています：ebmgn7e、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i。

GPU コンピューティングインスタンスの設定は変更できますか？

一部の GPU コンピューティングインスタンスは設定変更をサポートしています。

サポートされているインスタンスタイプは、「インスタンスタイプの変更に関する制限とチェック」に記載されています。

標準 ECS インスタンスファミリーを GPU コンピューティングインスタンスファミリーにアップグレードまたは変更できますか？

いいえ、できません。標準 ECS インスタンスファミリーを GPU コンピューティングインスタンスファミリーに変更することはできません。

サポートされているインスタンスタイプは、「インスタンスタイプの変更に関する制限とチェック」に記載されています。

GPU コンピューティングインスタンスと標準 ECS インスタンスの間でデータを転送するにはどうすればよいですか？

データ転送に特別な設定は必要ありません。

GPU コンピューティングインスタンスは、標準 ECS インスタンスと同様に動作します。同じセキュリティグループ内のインスタンスは、デフォルトで内部ネットワークを介して通信します。特別な設定は必要ありません。

GPU と CPU の違いは何ですか？

次の表は、GPU と CPU を比較したものです。

比較項目	GPU	CPU
演算論理ユニット (ALU)	大規模な並列計算に最適化された多数の ALU を搭載しています。	少数ですが強力な ALU を搭載しています。
制御ユニット	比較的シンプルな制御ユニットを搭載しています。	複雑な制御ユニットを搭載しています。
キャッシュ	アクセスされたデータを保存するのではなく、スレッドへのサービス提供を目的とした小さなキャッシュを搭載しています。	データを保存してアクセス速度を向上させ、レイテンシーを削減できる大きなキャッシュ構造を搭載しています。
応答方式	バッチ処理の前にすべてのタスクを統合します。	個々のタスクにリアルタイムで応答します。
シナリオ	計算集約型で、類似性が高く、マルチスレッドの並列高スループットコンピューティングシナリオに適しています。	高速な応答時間を必要とする、論理的に複雑なシリアルコンピューティングシナリオに適しています。

GPU カード

GPU コンピューティングインスタンスを購入した後、`nvidia-smi` コマンドで GPU カードが見つからないのはなぜですか？

原因：Tesla または GRID ドライバーがインストールされていないか、インストールに失敗したため、nvidia-smi コマンドで GPU カードが見つかりません。

解決策：GPU コンピューティングインスタンスの高性能機能を使用するには、インスタンスタイプに適したドライバーをインストールする必要があります：

vGPU インスタンスには GRID ドライバーが必要です：
- vGPU インスタンスへの GRID ドライバーのインストール (Linux)
- GPU コンピューティング最適化インスタンスまたは vGPU インスタンスへの GRID ドライバーのインストール (Windows)
GPU コンピューティング最適化インスタンスは Tesla または GRID ドライバーをサポートしています：

GPU カードの詳細を表示するにはどうすればよいですか？

方法はオペレーティングシステムによって異なります：

Linux では、nvidia-smi コマンドを実行して GPU カードの詳細を表示できます。
Windows では、[デバイスマネージャー] > [ディスプレイアダプター] で GPU カードの詳細を表示できます。

説明

GPU のアイドル率、使用率、温度、電力などの情報を表示するには、CloudMonitor コンソールに移動します。詳細については、「GPU のモニタリング」をご参照ください。

Linux で GPU の初期化に失敗する場合 (「RmInitAdapter failed!」など)

症状：GPU デバイスがオフラインになり、システムが GPU カードを認識できなくなります。たとえば、Linux システムでは、GPU の初期化に失敗します。sh nvidia-bug-report.sh コマンドを実行した後、生成されたログに RmInitAdapter failed エラーメッセージが表示されます。次の例をご参照ください。

NVRM: _kgspBootGspRm: unexpected WPR2 already up, cannot proceed with booting GSP
NVRM: _kgspBootGspRm: (the GPU is likely in a bad state and may need to be reset)
NVRM: crashcatWayfinderGetReportQueue_V1: insufficiently-sized L1 wayfinder scratch location 0
NVRM: RmInitAdapter: Cannot initialize GSP firmware RM
NVRM: GPU 0000:00:09.0: RmInitAdapter failed! (0x62:0x40:2015)
NVRM: GPU 0000:00:09.0: rm_init_adapter failed, device minor number 0

原因：GPU System Processor (GSP) コンポーネントが異常な状態にある可能性があります。これにより、デバイスがオフラインになり、システムが GPU カードを検出できなくなります。
解決策：コンソールからインスタンスを再起動します。この操作により、完全な GPU リセットが実行され、通常は問題が解決します。問題が解決しない場合は、「GPU 使用時の XID 119/XID 120 エラーによる GPU デバイスの損失」を参照して、さらにトラブルシューティングを行ってください。GSP 機能を無効にすることを推奨します。

GPU メモリ

48 GB の GPU メモリを搭載したインスタンスで、nvidia-smi の表示が約 3 GB 少なくなるのはなぜですか？

ECC (Error-Correcting Code) が有効になっており、48 GB のインスタンスでは約 2〜3 GB の GPU メモリを使用するためです。nvidia-smi を実行して ECC のステータス (OFF = 無効、ON = 有効) を確認してください。

ECC 機能を無効にして GPU メモリを解放するにはどうすればよいですか？

コマンドライン：GPU を使用するすべてのプロセスを停止します。nvidia-smi -e 0 を実行して ECC を無効にします。次に、nvidia-smi -r を実行して GPU をリセットします。
起動スクリプト：nvidia-smi -e 0 と nvidia-smi -r を /etc/rc.local 起動スクリプトの最初の行に追加します。一部のシステムでは、パスは /etc/rc.d/rc.local です。その後、インスタンスを再起動します。

ECC を無効にする際に、別のクライアントによって GPU が使用中であることを示すエラーが発生した場合はどうすればよいですか？

このエラーは、コンポーネントまたはプロセスがまだ GPU を使用していることを示します。インスタンス上で GPU プロセスが実行されていないことを確認してください。手動で停止できない場合は、スナップショットバックアップを作成します。次に、nvidia-smi -e 0 と nvidia-smi -r コマンドを /etc/rc.local 起動スクリプトに追加します。一部のシステムでは、パスは /etc/rc.d/rc.local です。変更を有効にするには、インスタンスを再起動します。

GPU ドライバー

vGPU インスタンスにはどのドライバーをインストールする必要がありますか？

vGPU インスタンスには GRID ドライバーが必要です。

汎用コンピューティングまたはグラフィックスアクセラレーションのシナリオでは、インスタンス作成時に GRID ドライバーをロードするか、作成後に Cloud Assistant を使用してインストールできます：

インスタンス作成時に GRID ドライバーをロードします。「ドライバーがプリインストールされたイメージから GRID ドライバーをロード」をご参照ください。
作成後に Cloud Assistant を使用して GRID ドライバーをインストールします：
- vGPU インスタンスへの GRID ドライバーのインストール (Linux)
- GPU コンピューティング最適化インスタンスまたは vGPU インスタンスへの GRID ドライバーのインストール (Windows)

vGPU インスタンスで CUDA を 12.4 に、または NVIDIA ドライバーを 550 以降にアップグレードできますか？

いいえ、できません。

vGPU インスタンスは、プラットフォームが提供する固定バージョンの GRID ドライバーを使用します。NVIDIA の Web サイトからドライバーをインストールすることはできません。CUDA またはドライバーをアップグレードするには、代わりに gn または ebm シリーズのインスタンスを使用してください。

GPU コンピューティング最適化インスタンスで OpenGL や Direct3D などのツールを使用してグラフィックスアクセラレーションを行うには、どのドライバーをインストールする必要がありますか？

オペレーティングシステムに基づいてドライバーをインストールしてください：

Linux の GPU コンピューティング最適化インスタンスには Tesla ドライバーが必要です：
- GPU コンピューティングインスタンス作成時の Tesla ドライバーの自動インストールまたはロード
- GPU コンピューティング最適化インスタンスへの Tesla ドライバーの手動インストール (Linux)
Windows の GPU コンピューティング最適化インスタンスには GRID ドライバーが必要です：
- ドライバーがプリインストールされたイメージから GRID ドライバーをロード
- GPU コンピューティング最適化インスタンスまたは vGPU インスタンスへの GRID ドライバーのインストール (Windows)

インストール後に表示される CUDA バージョンが、GPU コンピューティングインスタンスの作成時に選択したバージョンと異なるのはなぜですか？

nvidia-smi コマンドは、インスタンス作成時に選択したバージョンではなく、GPU コンピューティングインスタンスがサポート可能な最大の CUDA バージョンを表示します。

Windows の GPU コンピューティングインスタンスに GRID ドライバーをインストールした後、コンソールから VNC 接続を使用すると黒い画面が表示される場合はどうすればよいですか？

原因：GRID ドライバーがディスプレイ出力を引き継ぎます。VNC はもはや内蔵グラフィックスからレンダリングできなくなり、黒い画面が表示されます。これは仕様通りの動作です。
解決策：Workbench を使用して GPU コンピューティングインスタンスに接続します。詳細については、「Workbench を使用して Windows インスタンスに接続する」をご参照ください。

GRID ライセンスを取得するにはどうすればよいですか？

方法はお使いのオペレーティングシステムによって異なります：

Windows では、プリインストールされたドライバーイメージを使用するか、ドライバーを手動でインストールします。
- ドライバーがプリインストールされたイメージから GRID ドライバーをロード
- GPU コンピューティング最適化インスタンスまたは vGPU インスタンスへの GRID ドライバーのインストール (Windows)
Linux では、プリインストールされたドライバーイメージまたは Cloud Assistant を使用します。
- ドライバーがプリインストールされたイメージから GRID ドライバーをロード
- vGPU インスタンスへの GRID ドライバーのインストール (Linux)

GPU ドライバー (Tesla または GRID) をアップグレードするにはどうすればよいですか？

GPU ドライバーを直接アップグレードすることはできません。古いバージョンをアンインストールし、再起動してから、新しいバージョンをインストールしてください。「Tesla または GRID ドライバーのアップグレード」をご参照ください。

重要

アップグレードはオフピーク時に実行してください。事前にスナップショットを作成してディスクデータをバックアップしてください。「スナップショットの作成」をご参照ください。

NVIDIA ドライバーバージョン 570.124.xx (Linux) または 572.61 (Windows) のインストール後にシステムがクラッシュし、`カーネル NULL ポインターデリファレンス` エラーが発生する場合

症状：一部のインスタンスタイプでは、NVIDIA ドライバーバージョン 570.124.xx (Linux) または 572.61 (Windows) のインストール中、またはインストール後に nvidia-smi コマンドを実行すると、システムで カーネル NULL ポインターデリファレンス エラーが発生します。次のログはエラーを示しています：

エラーログ

[  305.164082] BUG: kernel NULL pointer dereference, address: 00000000000000c4
[  305.164303] #PF: supervisor read access in kernel mode
[  305.164447] #PF: error_code(0x0000) - not-present page
[  305.164626] PGD 0 P4D 0
[  305.164724] Oops: 0000 [#1] SMP NOPTI
[  305.164852] CPU: 29 PID: 23659 Comm: nv_open_q Kdump: loaded Tainted: G           OE     5.10.134-19.1.al8.x86_64 #1
[  305.165241] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 2.0.0 04/23/2024
[  305.165450] RIP: 0010:pci_read_config_dword+0x5/0x40
[  305.165630] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
[  305.166323] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
[  305.166469] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
[  305.166724] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
[  305.166977] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
[  305.167243] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
[  305.167506] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
[  305.167766] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
[  305.168060] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  305.168270] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
[  305.168531] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[  305.168793] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
[  305.169052] PKRU: 55555554
[  305.169157] Call Trace:
[  305.169252]  ? __die+0x20/0x70
[  305.169372]  ? no_context+0x5f/0x260
[  305.169504]  ? exc_page_fault+0x68/0x130
[  305.169651]  ? asm_exc_page_fault+0x1e/0x30
[  305.169815]  ? pci_read_config_dword+0x5/0x40
[  305.170080]  os_pci_read_dword+0x12/0x30 [nvidia]
[  305.170357]  ? osPciReadDword+0x15/0x20 [nvidia]
[  305.170637]  gpuReadPcieConfigCycle_GB202+0x66/0xd0 [nvidia]
[  305.170962]  kbifSavePcieConfigRegistersFn1_GB202+0x65/0xc0 [nvidia]
[  305.171297]  kbifSavePcieConfigRegisters_GH100+0xd2/0x1e0 [nvidia]
[  305.171619]  kbifStateLoad_IMPL+0xa1/0xe0 [nvidia]
[  305.171893]  gpuStateLoad_IMPL+0x267/0xd60 [nvidia]
[  305.172129]  ? _rmGpuLocksAcquire.constprop.0+0x352/0xbf0 [nvidia]
[  305.172375]  ? portSyncSpinlockAcquire+0x1d/0x50 [nvidia]
[  305.172585]  ? _tlsThreadEntryGet+0x82/0x90 [nvidia]
[  305.172780]  ? tlsEntryGet+0x31/0x80 [nvidia]
[  305.172979]  gpumgrStateLoadGpu+0x5b/0x70 [nvidia]
[  305.173209]  RmInitAdapter+0xf08/0x1c00 [nvidia]
[  305.173433]  ? os_get_current_tick+0x28/0x70 [nvidia]
[  305.173671]  rm_init_adapter+0xad/0xc0 [nvidia]
[  305.173845]  nv_start_device+0x2a9/0x6f0 [nvidia]
[  305.174328]  ? nv_open_device+0x9b/0x220 [nvidia]
[  305.174791]  ? nvidia_open_deferred+0x3c/0x100 [nvidia]
[  305.175248]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
[  305.175705]  ? _main_loop+0x9e/0x160 [nvidia]
[  305.176128]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
[  305.176527]  ? kthread+0x118/0x140
[  305.176869]  ? __kthread_bind_mask+0x60/0x60
[  305.177230]  ? ret_from_fork+0x1f/0x30
[  305.177575] Modules linked in: nvidia_drm(OE) nvidia_modeset(OE) nvidia(OE) ecc rfkill intel_rapl_msr intel_rapl_common intel_uncore_frequency_common isst_if_common skx_edac_common nfit intel_powerclamp crct10dif_pclmul crc32_pclmul ghash_clmulni_intel rapl snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm erdma snd_timer ib_uverbs snd soundcore ib_core virtio_balloon pcspkr i2c_piix4 sunrpc vfat fat cirrus drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops drm nvme libcrc32c virtio_net crc32c_intel net_failover nvme_core serio_raw i2c_core failover virtio_console t10_pi floppy [last unloaded: ecc]
[  305.180787] CR2: 00000000000000c4
[  305.181132] ---[ end trace 85d65b7e0a10dcf8 ]---
[  305.181512] RIP: 0010:pci_read_config_dword+0x5/0x40
[  305.181903] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
[  305.183045] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
[  305.183463] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
[  305.183955] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
[  305.184443] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
[  305.184931] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
[  305.185415] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
[  305.185913] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
[  305.186426] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  305.186870] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
[  305.187363] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[  305.187866] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
[  305.188361] PKRU: 55555554
[  305.188719] Kernel panic - not syncing: Fatal exception
[  305.190378] Kernel Offset: 0x29000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)

解決策：ドライバーバージョン 570.124.xx (Linux) または 572.61 (Windows) の使用を避けてください。バージョン 570.133.20 (Linux) または 572.83 (Windows) 以降の使用を推奨します。

ドライバーのインストール中にカーネルモジュールタイプとして NVIDIA Proprietary を選択すると、「No devices were found」エラーが返される場合

症状：一部のインスタンスタイプでは、ドライバーのインストール中にカーネルモジュールタイプとして NVIDIA Proprietary を選択すると、インストール後に nvidia-smi コマンドが No devices were found エラーを返します。

この画面で利用可能な他のカーネルモジュールタイプは MIT/GPL です。
原因：すべての GPU モデルが NVIDIA Proprietary ドライバーと互換性があるわけではありません。
推奨されるカーネルモジュールタイプの設定：
- Blackwell アーキテクチャの GPU の場合：オープンソースドライバーを使用する必要があります (MIT/GPL を選択)。
- Turing、Ampere、Ada Lovelace、および Hopper アーキテクチャの GPU の場合：オープンソースドライバーの使用を推奨します (MIT/GPL を選択)。
- Maxwell、Pascal、および Volta アーキテクチャの GPU の場合：NVIDIA Proprietary のみを選択できます。

GPU のモニタリング

GPU コンピューティングインスタンスのリソース使用量 (vCPU、ネットワークトラフィック、帯域幅、ディスク) を表示するにはどうすればよいですか？

次のいずれかの方法を使用して、vCPU 使用率、メモリ、平均システム負荷、内部帯域幅、パブリック帯域幅、ネットワーク接続、ディスク使用量と読み取り、GPU 使用率、GPU メモリ使用率、GPU 電力などのモニタリングデータを表示できます。

製品コンソール
- ECS コンソール：vCPU 使用率、ネットワークトラフィック、ディスク I/O、GPU メトリックを提供します。「ECS コンソールでモニタリング情報を表示する」をご参照ください。
- CloudMonitor コンソール：インフラストラクチャ、OS、GPU、ネットワーク、プロセス、ディスクのきめ細かいモニタリングを提供します。詳細については、「ホストモニタリング」をご参照ください。
料金とコストセンター

[利用詳細の表示] ページで、[期間]、[商品名]、[課金項目]、[課金項目]、および [時間単位] でフィルターします。[CSV のエクスポート] をクリックして利用データをエクスポートします。請求詳細。

たとえば、ECS インスタンスのトラフィック使用量を表示するには、[Product name] に [ECS - Pay-As-You-Go] を選択し、[Billable item] に [Outbound traffic] を選択し、[Metering specification] に [Public traffic] (仕様名は ECS_FLOW) を選択し、[Metering granularity] に [Hour] を選択します。

説明
使用量の詳細に表示されるのは未加工のリソース消費量であり、請求明細に記載の請求対象の使用量とは異なります。これらの結果はあくまで参考情報であり、照合には使用できません。

Others

How do I install the cGPU service?

Install the cGPU service through the Docker runtime in ACK. This is the recommended method for both enterprise users and individual users who have completed identity verification. Manage the shared GPU scheduling component.

The nvidia-smi -r command hangs after you install the cGPU service

Symptoms: When the cGPU service is loaded (verify with lsmod | grep cgpu), the nvidia-smi -r command hangs when resetting the GPU. An error also appears in the dmesg log.
```
[527717.881425] NVRM: Attempting to remove device 0000:08:00.0 with non-zero usage count!
```
Cause: The cGPU component is still using the GPU device. This blocks the hardware reset operation.
Solution:
1. Uninstall cGPU: Uninstall the cGPU component. After the uninstallation, the nvidia-smi -r command resumes and returns a result.
2. Restart the instance: If the issue persists after the uninstallation, restart the instance from the console. Running the reboot command inside the instance is not effective.
重要
Do not reset the GPU by running commands such as nvidia-smi -r, detaching the device, or reinstalling the driver when the cGPU service is loaded. Always uninstall the cGPU service first to prevent failures.