すべてのプロダクト
Search
ドキュメントセンター

Elastic GPU Service:Elastic GPU Service に関するよくある質問

最終更新日:Mar 01, 2026

このトピックでは、GPU の使用時に発生する一般的な問題をまとめ、Elastic GPU Service に関する問題のトラブルシューティングと解決に役立つ情報を提供します。

カテゴリ

関連する質問

GPU インスタンス

GPU カード

GPU メモリ

GPU ドライバー

GPU の監視

GPU インスタンスのリソース使用量 (vCPU、ネットワークトラフィック、帯域幅、ディスク) を表示するにはどうすればよいですか?

その他

cGPU サービスをインストールするにはどうすればよいですか?

cGPU サービスをインストールした後、nvidia-smi -r コマンドがハングします

GPU インスタンス

GPU インスタンスは Android エミュレーターをサポートしていますか?

Android エミュレーターは、一部の GPU インスタンスにのみインストールできます。

Android エミュレーターは、次の GPU コンピューティング最適化 ECS ベアメタルインスタンスファミリーでのみサポートされています: ebmgn7e、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i。

GPU インスタンスの構成は変更できますか?

一部の GPU インスタンスの構成のみ変更できます。

構成変更をサポートするインスタンスタイプの詳細については、「インスタンスタイプの変更の制限とチェック」をご参照ください。

標準の ECS インスタンスファミリーを GPU インスタンスファミリーにアップグレードまたは変更できますか?

いいえ、標準 ECS インスタンスファミリーを GPU インスタンスファミリーに直接スペックアップまたは変更することはできません。

構成変更をサポートするインスタンスタイプの詳細については、「インスタンスタイプの変更の制限とチェック」をご参照ください。

GPU インスタンスと標準の ECS インスタンス間でデータを転送するにはどうすればよいですか?

データを転送するために特別な設定は必要ありません。

GPU インスタンスは、GPU アクセラレーションが追加されている点を除き、標準 ECS インスタンスと同じユーザーエクスペリエンスを提供します。デフォルトでは、同じセキュリティグループ内の GPU インスタンスと ECS インスタンスは、内部ネットワークを介して通信できます。特別な構成は必要ありません。

GPU と CPU の違いは何ですか?

次の表は、GPU と CPU を比較したものです。

比較

GPU

CPU

演算論理装置 (ALU)

大規模な同時計算の処理に優れた多数の ALU を備えています。

少数の強力な演算論理装置 (ALU) を持っています。

制御ユニット

比較的単純な制御ユニットを備えています。

複雑な制御ユニットを備えています。

キャッシュ

アクセスされたデータを保存する代わりにスレッドにサービスを提供する小さなキャッシュを備えています。

データを保存してアクセス速度を向上させ、レイテンシを短縮できる大きなキャッシュ構造を備えています。

応答メソッド

バッチ処理の前にすべてのタスクを統合します。

個々のタスクにリアルタイムで応答します。

シナリオ

計算集約型で、類似性が高く、マルチスレッドの並列高スループットコンピューティングシナリオに適しています。

高速な応答時間を必要とする、論理的に複雑なシリアルコンピューティングシナリオに適しています。

GPU カード

GPU インスタンスを購入した後、nvidia-smi コマンドで GPU カードが見つからないのはなぜですか?

原因: nvidia-smi コマンドで GPU カードが見つからない場合、GPU インスタンスに Tesla または GRID ドライバーがインストールされていないか、インストールに失敗したことが原因です。

解決策: GPU インスタンスのパフォーマンス専有型の特徴を使用するには、インスタンスタイプに適したドライバーをインストールする必要があります。ドライバーのインストール方法は次のとおりです。

GPU カードの詳細を表示するにはどうすればよいですか?

GPU カードの詳細を表示する手順は、オペレーティングシステムによって異なります。詳細を表示する方法は次のとおりです。

  • Linux では、nvidia-smi コマンドを実行して GPU カードの詳細を表示できます。

  • Windows では、[デバイス マネージャー] > [ディスプレイ アダプター] で GPU カードの詳細を表示できます。

説明

GPU のアイドル率、使用率、温度、仕事率などの情報を表示するには、CloudMonitor コンソールに移動します。詳細については、「GPU モニタリング」をご参照ください。

Linux で GPU を使用すると、GPU の初期化に失敗します (例:RmInitAdapter failed!)

  • 症状: GPU デバイスがオフラインになり、システムが GPU カードを検出できなくなります。たとえば、Linux で GPU を使用しているときに、GPU の初期化失敗エラーが報告されます。sh nvidia-bug-report.sh コマンドを実行すると、生成されたログに次の図に示すように RmInitAdapter failed エラーメッセージが表示されます。

    image

  • 原因: GPU システムプロセッサ (GSP) コンポーネントが異常な状態にある可能性があります。これにより、デバイスがオフラインになり、システムが GPU カードを検出できなくなります。

  • 解決策:コンソールからインスタンスを再起動します。この操作により、完全な GPU リセットが実行され、通常は問題が解決します。問題が解決しない場合は、「GPU 使用時の XID 119/XID 120 エラーによる GPU デバイスの損失」を参照して、さらなるトラブルシューティングを行ってください。GSP 機能を無効にすることを推奨します。

GPU メモリ

48 GB の GPU メモリを搭載したインスタンスで、nvidia-smi の表示が約 3 GB 少なくなるのはなぜですか?

これは、エラー訂正コード (ECC) 機能が有効になっているために発生します。ECC は GPU メモリの一部を占有します。48 GB のメモリを搭載したインスタンスの場合、ECC は約 2 GB から 3 GB を使用します。nvidia-smi コマンドを実行して ECC のステータスを確認できます。`OFF` は ECC が無効であることを示し、`ON` は ECC が有効であることを示します。

ECC 機能を無効にして GPU メモリを解放するにはどうすればよいですか?

  1. コマンドライン:GPU を使用しているすべてのプロセスを停止します。nvidia-smi -e 0 を実行して ECC を無効にします。次に、nvidia-smi -r を実行して GPU をリセットします。

  2. 起動スクリプト:nvidia-smi -e 0nvidia-smi -r/etc/rc.local 起動スクリプトの最初の行に追加します。一部のシステムでは、パスは /etc/rc.d/rc.local です。その後、インスタンスを再起動します。

ECC を無効にするときに、GPU が別のクライアントによって使用されていることを示すエラーが発生した場合はどうすればよいですか?

このエラーは、コンポーネントまたはプロセスがまだ GPU を使用していることを示します。マシン上で GPU プロセスが実行されていないことを確認してください。手動で停止できない場合は、スナップショットバックアップを作成します。次に、nvidia-smi -e 0nvidia-smi -r コマンドを /etc/rc.local 起動スクリプトに追加します。一部のシステムでは、パスは /etc/rc.d/rc.local です。インスタンスを再起動して変更を有効にします。

GPU ドライバー

GPU 仮想化インスタンスにはどのドライバーをインストールする必要がありますか?

GPU 仮想化インスタンスには GRID ドライバーが必要です。

汎用コンピューティングまたはグラフィックスアクセラレーションのシナリオでは、GPU インスタンスの作成時に GRID ドライバーをロードするか、作成後にクラウドアシスタントを使用してインストールできます。ドライバーのインストール方法は次のとおりです。

GPU 仮想化インスタンスで CUDA を 12.4 に、または NVIDIA ドライバーを 550 以降にアップグレードできますか?

これはサポートされていません。

GPU 仮想化インスタンスは、プラットフォームが提供する GRID ドライバーに依存します。ドライバーのバージョンは制限されており、NVIDIA の公式ウェブサイトからドライバーをインストールすることはできません。アップグレードするには、gn または ebm シリーズの GPU インスタンスを使用する必要があります。

GPU コンピューティング最適化インスタンスで OpenGL や Direct3D などのツールを使用してグラフィックスアクセラレーションを行うには、どのドライバーをインストールする必要がありますか?

GPU インスタンスのオペレーティングシステムに基づいてドライバーをインストールします。ドライバーのインストール方法は次のとおりです。

インストール後に表示される CUDA バージョンが、GPU インスタンスの作成時に選択したバージョンと異なるのはなぜですか?

nvidia-smi コマンドによって返される CUDA バージョンは、GPU インスタンスがサポートする最高の CUDA バージョンを示します。インスタンスの作成時に選択した CUDA バージョンを表すものではありません。

Windows GPU インスタンスに GRID ドライバーをインストールした後、コンソールから VNC 接続を使用すると黒い画面が表示される場合はどうすればよいですか?

  • 原因: Windows GPU インスタンスに GRID ドライバーをインストールすると、GRID ドライバーが仮想マシン (VM) のディスプレイ出力をコントロールします。VNC は統合グラフィックスからイメージを取得できなくなります。これによりブラックスクリーンが発生しますが、これは想定される動作です。

  • 解決策: Workbench を使用して GPU インスタンスに接続します。詳細については、「Workbench を使用して Windows インスタンスにログオンする」をご参照ください。

GRID ライセンスを取得するにはどうすればよいですか?

ライセンスを取得する方法は、オペレーティングシステムによって異なります。ライセンスを取得する方法は次のとおりです。

GPU ドライバー (Tesla または GRID) をアップグレードするにはどうすればよいですか?

GPU ドライバー (Tesla または GRID) を直接アップグレードすることはできません。まず古いバージョンをアンインストールし、システムを再起動してから、新しいバージョンをインストールする必要があります。詳細については、「Tesla または GRID ドライバーをアップグレードする」をご参照ください。

重要

オフピーク時にドライバーをアップグレードしてください。アップグレードする前に、スナップショットを作成してディスクデータをバックアップし、データの損失を防ぎます。詳細については、「スナップショットの作成」をご参照ください。

NVIDIA ドライバーバージョン 570.124.xx (Linux) または 572.61 (Windows) をインストールすると、システムクラッシュと kernel NULL pointer dereference エラーが発生します

  • 症状: 一部のインスタンスタイプでは、NVIDIA ドライバーバージョン 570.124.xx (Linux) または 572.61 (Windows) をインストールしたとき、またはインストール後に nvidia-smi コマンドを実行したときに、システムが kernel NULL pointer dereference エラーを報告します。次のログはエラーを示しています。

    エラーログ

    [  305.164082] BUG: kernel NULL pointer dereference, address: 00000000000000c4
    [  305.164303] #PF: supervisor read access in kernel mode
    [  305.164447] #PF: error_code(0x0000) - not-present page
    [  305.164626] PGD 0 P4D 0
    [  305.164724] Oops: 0000 [#1] SMP NOPTI
    [  305.164852] CPU: 29 PID: 23659 Comm: nv_open_q Kdump: loaded Tainted: G           OE     5.10.134-19.1.al8.x86_64 #1
    [  305.165241] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 2.0.0 04/23/2024
    [  305.165450] RIP: 0010:pci_read_config_dword+0x5/0x40
    [  305.165630] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
    [  305.166323] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
    [  305.166469] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
    [  305.166724] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
    [  305.166977] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
    [  305.167243] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
    [  305.167506] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
    [  305.167766] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
    [  305.168060] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
    [  305.168270] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
    [  305.168531] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
    [  305.168793] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
    [  305.169052] PKRU: 55555554
    [  305.169157] Call Trace:
    [  305.169252]  ? __die+0x20/0x70
    [  305.169372]  ? no_context+0x5f/0x260
    [  305.169504]  ? exc_page_fault+0x68/0x130
    [  305.169651]  ? asm_exc_page_fault+0x1e/0x30
    [  305.169815]  ? pci_read_config_dword+0x5/0x40
    [  305.170080]  os_pci_read_dword+0x12/0x30 [nvidia]
    [  305.170357]  ? osPciReadDword+0x15/0x20 [nvidia]
    [  305.170637]  gpuReadPcieConfigCycle_GB202+0x66/0xd0 [nvidia]
    [  305.170962]  kbifSavePcieConfigRegistersFn1_GB202+0x65/0xc0 [nvidia]
    [  305.171297]  kbifSavePcieConfigRegisters_GH100+0xd2/0x1e0 [nvidia]
    [  305.171619]  kbifStateLoad_IMPL+0xa1/0xe0 [nvidia]
    [  305.171893]  gpuStateLoad_IMPL+0x267/0xd60 [nvidia]
    [  305.172129]  ? _rmGpuLocksAcquire.constprop.0+0x352/0xbf0 [nvidia]
    [  305.172375]  ? portSyncSpinlockAcquire+0x1d/0x50 [nvidia]
    [  305.172585]  ? _tlsThreadEntryGet+0x82/0x90 [nvidia]
    [  305.172780]  ? tlsEntryGet+0x31/0x80 [nvidia]
    [  305.172979]  gpumgrStateLoadGpu+0x5b/0x70 [nvidia]
    [  305.173209]  RmInitAdapter+0xf08/0x1c00 [nvidia]
    [  305.173433]  ? os_get_current_tick+0x28/0x70 [nvidia]
    [  305.173671]  rm_init_adapter+0xad/0xc0 [nvidia]
    [  305.173845]  nv_start_device+0x2a9/0x6f0 [nvidia]
    [  305.174328]  ? nv_open_device+0x9b/0x220 [nvidia]
    [  305.174791]  ? nvidia_open_deferred+0x3c/0x100 [nvidia]
    [  305.175248]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
    [  305.175705]  ? _main_loop+0x9e/0x160 [nvidia]
    [  305.176128]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
    [  305.176527]  ? kthread+0x118/0x140
    [  305.176869]  ? __kthread_bind_mask+0x60/0x60
    [  305.177230]  ? ret_from_fork+0x1f/0x30
    [  305.177575] Modules linked in: nvidia_drm(OE) nvidia_modeset(OE) nvidia(OE) ecc rfkill intel_rapl_msr intel_rapl_common intel_uncore_frequency_common isst_if_common skx_edac_common nfit intel_powerclamp crct10dif_pclmul crc32_pclmul ghash_clmulni_intel rapl snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm erdma snd_timer ib_uverbs snd soundcore ib_core virtio_balloon pcspkr i2c_piix4 sunrpc vfat fat cirrus drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops drm nvme libcrc32c virtio_net crc32c_intel net_failover nvme_core serio_raw i2c_core failover virtio_console t10_pi floppy [last unloaded: ecc]
    [  305.180787] CR2: 00000000000000c4
    [  305.181132] ---[ end trace 85d65b7e0a10dcf8 ]---
    [  305.181512] RIP: 0010:pci_read_config_dword+0x5/0x40
    [  305.181903] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
    [  305.183045] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
    [  305.183463] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
    [  305.183955] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
    [  305.184443] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
    [  305.184931] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
    [  305.185415] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
    [  305.185913] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
    [  305.186426] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
    [  305.186870] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
    [  305.187363] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
    [  305.187866] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
    [  305.188361] PKRU: 55555554
    [  305.188719] Kernel panic - not syncing: Fatal exception
    [  305.190378] Kernel Offset: 0x29000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)
  • 解決策: ドライバーバージョン 570.124.xx (Linux) または 572.61 (Windows) の使用は避けてください。バージョン 570.133.20 (Linux) または 572.83 (Windows) 以降を使用することをお勧めします。

ドライバーのインストール中にカーネルモジュールタイプとして NVIDIA Proprietary を選択すると、nvidia-smi コマンドが「No devices were found」エラーを返します

  • 症状:一部のインスタンスタイプでは、ドライバーのインストール中にカーネルモジュールタイプとして NVIDIA Proprietary を選択すると、インストール後に nvidia-smi コマンドが No devices were found エラーを返します。

    image

    image

  • 原因:すべての GPU モデルが NVIDIA Proprietary ドライバーと互換性があるわけではありません。

  • 推奨されるカーネルモジュールタイプの構成

    • Blackwell アーキテクチャの GPU の場合: オープンソースドライバー (MIT/GPL を選択) を使用する必要があります。

    • TuringAmpereAda Lovelace、および Hopper アーキテクチャの GPU の場合: オープンソースドライバー (MIT/GPL を選択) を使用することを推奨します。

    • MaxwellPascal、および Volta アーキテクチャの GPU の場合: NVIDIA Proprietary のみを選択できます。

GPU モニタリング

GPU インスタンスのリソース使用量 (vCPU、ネットワークトラフィック、帯域幅、ディスク) を表示するにはどうすればよいですか?

次のいずれかのメソッドを使用して、vCPU 使用率、メモリ、平均システム負荷、内部帯域幅、パブリック帯域幅、ネットワーク接続、ディスク使用率と読み取り、GPU 使用率、GPU メモリ使用量、GPU 仕事率などのモニタリングデータを表示できます。

  • 製品コンソール

    • ECS コンソール: このコンソールは、vCPU 使用率、ネットワークトラフィック、ディスク I/O、GPU モニタリングなどのメトリックを提供します。詳細については、「ECS コンソールでモニタリング情報を表示する」をご参照ください。

    • CloudMonitor コンソール: このコンソールは、インフラ監視、オペレーティングシステムモニタリング、GPU モニタリング、ネットワークモニタリング、プロセスモニタリング、ディスクモニタリングなど、より高精度な監視を提供します。詳細については、「ホストモニタリング」をご参照ください。

  • 費用とコストセンター

    [使用状況の詳細] ページで、次のフィールドでフィルターをかけて ECS インスタンスのトラフィック使用量を表示できます: [期間][製品名][課金項目名][測定仕様]、および [測定粒度][CSV のエクスポート] をクリックして、インスタンスのリソース使用量情報をエクスポートします。詳細については、「請求詳細」をご参照ください。

    用量明细-zh

    説明

    使用状況の詳細のデータは、生のリソース使用量です。請求詳細の課金対象の使用量データとは異なります。クエリ結果は参照用であり、照合には使用できません。

その他

cGPU サービスをインストールするにはどうすればよいですか?

ACK の Docker ランタイム環境を通じて cGPU サービスをインストールして使用できます。これは、ID 検証を完了したエンタープライズユーザーと個人ユーザーの両方に推奨されるメソッドです。詳細については、「共有 GPU スケジューリングコンポーネントの管理」をご参照ください。

cGPU サービスをインストールした後、nvidia-smi -r コマンドがハングします

  • 症状:cGPU サービスがロードされている環境 (lsmod | grep cgpu コマンドを実行して確認できます) で、GPU をリセットしようとすると nvidia-smi -r コマンドがハングし、終了できなくなります。dmesg システムログにもエラーメッセージが表示されます。

    image

  • 原因:cGPU コンポーネントがまだ GPU デバイスを使用しているため、ハードウェアリセット操作がブロックされています。

  • 解決策

    1. cGPU のアンインストール:cGPU コンポーネントをアンインストールします。アンインストール後、nvidia-smi -r コマンドが再開され、結果が返されます。

    2. インスタンスの再起動:アンインストール後も問題が解決しない場合は、コンソールからインスタンスを再起動します。インスタンス内で reboot コマンドを実行しても効果はありません。

    重要

    cGPU サービスがロードされているときに、nvidia-smi -r などのコマンドを実行したり、デバイスをデタッチしたり、ドライバーを再インストールしたりして GPU をリセットしないでください。障害を防ぐために、必ず最初に cGPU サービスをアンインストールしてください。