Masalah fungsional atau operasional saat menggunakan GPU - Elastic GPU Service

Topik ini membantu Anda melakukan troubleshooting dan menyelesaikan masalah terkait Elastic GPU Service dengan merangkum isu umum yang dihadapi saat menggunakan GPU.

Kategori	Pertanyaan terkait
Instans GPU-accelerated	Apakah instans GPU-accelerated mendukung emulator Android? Apakah konfigurasi instans GPU-accelerated dapat diubah? Apakah keluarga instans ECS standar dapat ditingkatkan atau diubah menjadi keluarga instans GPU-accelerated? Bagaimana cara mentransfer data antara instans GPU-accelerated dan instans ECS standar? Apa perbedaan antara GPU dan CPU?
Kartu GPU	Setelah saya membeli instans GPU-accelerated, mengapa perintah nvidia-smi tidak dapat menemukan kartu GPU? Bagaimana cara melihat detail kartu GPU? Terjadi kegagalan inisialisasi GPU (misalnya RmInitAdapter failed!) saat saya menggunakan GPU pada Linux
Memori GPU	Mengapa instans dengan memori GPU 48 GB menunjukkan sekitar 3 GB lebih sedikit di nvidia-smi? Bagaimana cara menonaktifkan fitur ECC untuk membebaskan memori GPU? Apa yang harus saya lakukan jika muncul error yang menunjukkan GPU sedang digunakan oleh klien lain saat saya menonaktifkan ECC?
Driver GPU	Driver apa yang perlu saya instal untuk instans vGPU-accelerated? Dapatkah saya meningkatkan CUDA ke versi 12.4 atau driver NVIDIA ke versi 550 atau lebih baru pada instans vGPU-accelerated? Driver apa yang perlu saya instal untuk menggunakan alat seperti OpenGL dan Direct3D guna akselerasi grafis pada instans komputasi yang dioptimalkan dengan percepatan GPU? Mengapa versi CUDA yang saya lihat setelah instalasi berbeda dari versi yang saya pilih saat membuat instans GPU-accelerated? Setelah saya menginstal driver GRID pada instans Windows GPU-accelerated, apa yang harus saya lakukan jika muncul layar hitam saat saya menggunakan koneksi VNC dari konsol? Bagaimana cara mendapatkan Lisensi GRID? Bagaimana cara meningkatkan driver GPU (Tesla atau GRID)? Terjadi crash sistem dan error 'kernel NULL pointer dereference' setelah Anda menginstal driver NVIDIA versi 570.124.xx (Linux) atau 572.61 (Windows) Perintah nvidia-smi mengembalikan error "No devices were found" jika Anda memilih NVIDIA Proprietary sebagai tipe modul kernel selama instalasi driver
Pemantauan GPU	Bagaimana cara melihat penggunaan resource (vCPU, network traffic, bandwidth, dan disk) pada instans GPU-accelerated?
Lainnya	Bagaimana cara menginstal layanan cGPU? Perintah nvidia-smi -r hang setelah Anda menginstal layanan cGPU

Instans GPU-accelerated

Apakah instans GPU-accelerated mendukung emulator Android?

Emulator Android hanya dapat diinstal pada beberapa instans GPU-accelerated tertentu.

Emulator Android didukung hanya pada keluarga Instans ECS Bare Metal berikut yang dioptimalkan untuk komputasi dengan akselerasi GPU: ebmgn7e, ebmgn7i, ebmgn7, ebmgn6ia, ebmgn6e, ebmgn6v, ebmgn6i.

Apakah konfigurasi instans GPU-accelerated dapat diubah?

Beberapa instans GPU-accelerated mendukung perubahan konfigurasi.

Tipe instans yang didukung tercantum dalam Batasan dan pemeriksaan perubahan tipe instans.

Apakah keluarga instans ECS standar dapat ditingkatkan atau diubah menjadi keluarga instans GPU-accelerated?

Tidak. Keluarga instans ECS standar tidak dapat diubah menjadi keluarga instans GPU-accelerated.

Tipe instans yang didukung tercantum dalam Batasan dan pemeriksaan perubahan tipe instans.

Bagaimana cara mentransfer data antara instans GPU-accelerated dan instans ECS standar?

Tidak diperlukan pengaturan khusus untuk mentransfer data.

Instans GPU-accelerated berperilaku seperti instans ECS standar. Instans dalam security group yang sama berkomunikasi melalui jaringan internal secara default tanpa memerlukan konfigurasi tambahan.

Apa perbedaan antara GPU dan CPU?

Tabel berikut membandingkan GPU dan CPU.

Perbandingan	GPU	CPU
Arithmetic Logic Unit (ALU)	Banyak ALU yang dioptimalkan untuk komputasi paralel skala besar.	ALU yang sedikit namun kuat.
Unit kontrol	Memiliki unit kontrol yang relatif sederhana.	Memiliki unit kontrol yang kompleks.
Cache	Memiliki cache kecil yang melayani thread daripada menyimpan data yang diakses.	Memiliki struktur cache besar yang dapat menyimpan data untuk meningkatkan kecepatan akses dan mengurangi latensi.
Metode respons	Mengintegrasikan semua tugas sebelum pemrosesan batch.	Merespons tugas individual secara real-time.
Skenario	Cocok untuk skenario komputasi throughput tinggi paralel multi-threaded yang komputasi-intensif, sangat mirip, dan bersifat paralel.	Cocok untuk skenario komputasi serial yang logikanya kompleks dan memerlukan waktu respons cepat.

Kartu GPU

Setelah saya membeli instans GPU-accelerated, mengapa perintah `nvidia-smi` tidak dapat menemukan kartu GPU?

Penyebab: Perintah nvidia-smi tidak dapat menemukan kartu GPU karena driver Tesla atau GRID belum diinstal atau proses instalasi gagal.

Solusi: Untuk menggunakan fitur berkinerja tinggi dari instans GPU-accelerated Anda, Anda harus menginstal driver yang sesuai dengan tipe instans Anda:

Instans vGPU-accelerated memerlukan driver GRID:
- Instal driver GRID pada instans vGPU-accelerated (Linux)
- Instal driver GRID pada instans Windows yang dioptimalkan untuk komputasi dengan akselerasi GPU atau vGPU-accelerated
Instans komputasi yang dioptimalkan dengan percepatan GPU mendukung driver Tesla atau GRID:

Bagaimana cara melihat detail kartu GPU?

Metodenya bervariasi tergantung sistem operasi:

Pada Linux, Anda dapat menjalankan perintah nvidia-smi untuk melihat detail kartu GPU.
Pada Windows, Anda dapat melihat detail kartu GPU di Device Manager > Display Adapters.

Catatan

Untuk melihat informasi seperti laju idle GPU, penggunaan, suhu, dan daya, buka Konsol CloudMonitor. Untuk informasi selengkapnya, lihat Pemantauan GPU.

Terjadi kegagalan inisialisasi GPU (misalnya RmInitAdapter failed!) saat saya menggunakan GPU pada Linux

Gejala: Perangkat GPU offline dan sistem tidak dapat mengenali kartu GPU. Misalnya, pada sistem Linux, muncul error kegagalan inisialisasi GPU. Setelah Anda menjalankan perintah sh nvidia-bug-report.sh, pesan error RmInitAdapter failed muncul dalam log yang dihasilkan, seperti pada contoh berikut:

NVRM: _kgspBootGspRm: unexpected WPR2 already up, cannot proceed with booting GSP
NVRM: _kgspBootGspRm: (the GPU is likely in a bad state and may need to be reset)
NVRM: crashcatWayfinderGetReportQueue_V1: insufficiently-sized L1 wayfinder scratch location 0
NVRM: RmInitAdapter: Cannot initialize GSP firmware RM
NVRM: GPU 0000:00:09.0: RmInitAdapter failed! (0x62:0x40:2015)
NVRM: GPU 0000:00:09.0: rm_init_adapter failed, device minor number 0

Penyebab: Komponen GPU System Processor (GSP) mungkin berada dalam kondisi abnormal. Hal ini menyebabkan perangkat offline dan sistem tidak dapat mendeteksi kartu GPU.
Solusi: Restart instans dari konsol. Tindakan ini melakukan reset GPU lengkap dan biasanya menyelesaikan masalah. Jika masalah tetap ada, lihat Kehilangan perangkat GPU akibat error XID 119/XID 120 saat menggunakan GPU untuk troubleshooting lebih lanjut. Kami menyarankan agar Anda menonaktifkan fitur GSP.

Memori GPU

Mengapa instans dengan memori GPU 48 GB menunjukkan sekitar 3 GB lebih sedikit di nvidia-smi?

ECC (Error-Correcting Code) diaktifkan dan menggunakan sekitar 2–3 GB memori GPU pada instans 48 GB. Jalankan nvidia-smi untuk memeriksa status ECC (OFF = dinonaktifkan, ON = diaktifkan).

Bagaimana cara menonaktifkan fitur ECC untuk membebaskan memori GPU?

Command line: Hentikan semua proses yang menggunakan GPU. Jalankan nvidia-smi -e 0 untuk menonaktifkan ECC. Kemudian, jalankan nvidia-smi -r untuk mereset GPU.
Skrip startup: Tambahkan nvidia-smi -e 0 dan nvidia-smi -r ke baris pertama skrip startup /etc/rc.local. Untuk beberapa sistem, jalurnya adalah /etc/rc.d/rc.local. Kemudian, restart instans.

Apa yang harus saya lakukan jika muncul error yang menunjukkan GPU sedang digunakan oleh klien lain saat saya menonaktifkan ECC?

Error ini menunjukkan bahwa komponen atau proses masih menggunakan GPU. Pastikan tidak ada proses GPU yang berjalan di mesin tersebut. Jika Anda tidak dapat menghentikannya secara manual, buat cadangan snapshot. Kemudian, tambahkan perintah nvidia-smi -e 0 dan nvidia-smi -r ke skrip startup /etc/rc.local. Untuk beberapa sistem, jalurnya adalah /etc/rc.d/rc.local. Restart instans agar perubahan diterapkan.

Driver GPU

Driver apa yang perlu saya instal untuk instans vGPU-accelerated?

Instans vGPU-accelerated memerlukan driver GRID.

Untuk skenario komputasi tujuan umum atau akselerasi grafis, Anda dapat memuat driver GRID saat pembuatan instans atau menginstalnya dengan Asisten Cloud setelahnya:

Muat driver GRID saat pembuatan instans. Muat driver GRID dari image dengan driver pra-instal.
Instal driver GRID dengan Asisten Cloud setelah pembuatan:
- Instal driver GRID pada instans vGPU-accelerated (Linux)
- Instal driver GRID pada instans Windows yang dioptimalkan untuk komputasi dengan akselerasi GPU atau vGPU-accelerated

Dapatkah saya meningkatkan CUDA ke versi 12.4 atau driver NVIDIA ke versi 550 atau lebih baru pada instans vGPU-accelerated?

Tidak.

Instans vGPU-accelerated menggunakan driver GRID yang disediakan platform dengan versi tetap. Anda tidak dapat menginstal driver dari situs web NVIDIA. Untuk meningkatkan CUDA atau driver, gunakan instans seri gn atau ebm sebagai gantinya.

Driver apa yang perlu saya instal untuk menggunakan alat seperti OpenGL dan Direct3D guna akselerasi grafis pada instans komputasi yang dioptimalkan dengan percepatan GPU?

Instal driver berdasarkan sistem operasi Anda:

Instans komputasi yang dioptimalkan dengan percepatan GPU pada Linux memerlukan driver Tesla:
- Instal atau muat driver Tesla secara otomatis saat Anda membuat instans GPU-accelerated
- Instal driver Tesla secara manual pada instans komputasi yang dioptimalkan dengan percepatan GPU (Linux)
Instans komputasi yang dioptimalkan dengan percepatan GPU pada Windows memerlukan driver GRID:
- Muat driver GRID dari image dengan driver pra-instal
- Instal driver GRID pada instans Windows yang dioptimalkan untuk komputasi dengan akselerasi GPU atau vGPU-accelerated

Mengapa versi CUDA yang saya lihat setelah instalasi berbeda dari versi yang saya pilih saat membuat instans GPU-accelerated?

Perintah nvidia-smi menampilkan versi CUDA tertinggi yang didukung oleh instans GPU-accelerated Anda, bukan versi yang Anda pilih saat pembuatan instans.

Setelah saya menginstal driver GRID pada instans Windows GPU-accelerated, apa yang harus saya lakukan jika muncul layar hitam saat saya menggunakan koneksi VNC dari konsol?

Penyebab: Driver GRID mengambil alih output tampilan. VNC tidak lagi dapat merender dari grafis terintegrasi, sehingga menyebabkan layar hitam. Ini merupakan perilaku yang diharapkan.
Solusi: Hubungkan ke instans GPU-accelerated menggunakan Workbench. Untuk informasi selengkapnya, lihat Hubungkan ke instans Windows menggunakan Workbench.

Bagaimana cara mendapatkan Lisensi GRID?

Metodenya tergantung pada sistem operasi Anda:

Pada Windows, gunakan image dengan driver pra-instal atau instal driver secara manual.
- Muat driver GRID dari image dengan driver pra-instal
- Instal driver GRID pada instans Windows yang dioptimalkan untuk komputasi dengan akselerasi GPU atau vGPU-accelerated
Pada Linux, gunakan image dengan driver pra-instal atau Asisten Cloud.
- Muat driver GRID dari image dengan driver pra-instal
- Instal driver GRID pada instans vGPU-accelerated (Linux)

Bagaimana cara meningkatkan driver GPU (Tesla atau GRID)?

Anda tidak dapat langsung meningkatkan driver GPU. Uninstal versi lama, restart, lalu instal versi baru. Tingkatkan driver Tesla atau GRID.

Penting

Lakukan peningkatan selama jam sepi. Backup data disk dengan membuat snapshot terlebih dahulu. Buat snapshot.

Terjadi crash sistem dan error `kernel NULL pointer dereference` setelah Anda menginstal driver NVIDIA versi 570.124.xx (Linux) atau 572.61 (Windows)

Gejala: Pada beberapa tipe instans, sistem melaporkan error kernel NULL pointer dereference baik selama instalasi driver NVIDIA versi 570.124.xx (Linux) atau 572.61 (Windows), maupun saat menjalankan perintah nvidia-smi setelah instalasi. Log berikut menunjukkan error tersebut:

Log error

[  305.164082] BUG: kernel NULL pointer dereference, address: 00000000000000c4
[  305.164303] #PF: supervisor read access in kernel mode
[  305.164447] #PF: error_code(0x0000) - not-present page
[  305.164626] PGD 0 P4D 0
[  305.164724] Oops: 0000 [#1] SMP NOPTI
[  305.164852] CPU: 29 PID: 23659 Comm: nv_open_q Kdump: loaded Tainted: G           OE     5.10.134-19.1.al8.x86_64 #1
[  305.165241] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 2.0.0 04/23/2024
[  305.165450] RIP: 0010:pci_read_config_dword+0x5/0x40
[  305.165630] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
[  305.166323] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
[  305.166469] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
[  305.166724] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
[  305.166977] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
[  305.167243] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
[  305.167506] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
[  305.167766] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
[  305.168060] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  305.168270] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
[  305.168531] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[  305.168793] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
[  305.169052] PKRU: 55555554
[  305.169157] Call Trace:
[  305.169252]  ? __die+0x20/0x70
[  305.169372]  ? no_context+0x5f/0x260
[  305.169504]  ? exc_page_fault+0x68/0x130
[  305.169651]  ? asm_exc_page_fault+0x1e/0x30
[  305.169815]  ? pci_read_config_dword+0x5/0x40
[  305.170080]  os_pci_read_dword+0x12/0x30 [nvidia]
[  305.170357]  ? osPciReadDword+0x15/0x20 [nvidia]
[  305.170637]  gpuReadPcieConfigCycle_GB202+0x66/0xd0 [nvidia]
[  305.170962]  kbifSavePcieConfigRegistersFn1_GB202+0x65/0xc0 [nvidia]
[  305.171297]  kbifSavePcieConfigRegisters_GH100+0xd2/0x1e0 [nvidia]
[  305.171619]  kbifStateLoad_IMPL+0xa1/0xe0 [nvidia]
[  305.171893]  gpuStateLoad_IMPL+0x267/0xd60 [nvidia]
[  305.172129]  ? _rmGpuLocksAcquire.constprop.0+0x352/0xbf0 [nvidia]
[  305.172375]  ? portSyncSpinlockAcquire+0x1d/0x50 [nvidia]
[  305.172585]  ? _tlsThreadEntryGet+0x82/0x90 [nvidia]
[  305.172780]  ? tlsEntryGet+0x31/0x80 [nvidia]
[  305.172979]  gpumgrStateLoadGpu+0x5b/0x70 [nvidia]
[  305.173209]  RmInitAdapter+0xf08/0x1c00 [nvidia]
[  305.173433]  ? os_get_current_tick+0x28/0x70 [nvidia]
[  305.173671]  rm_init_adapter+0xad/0xc0 [nvidia]
[  305.173845]  nv_start_device+0x2a9/0x6f0 [nvidia]
[  305.174328]  ? nv_open_device+0x9b/0x220 [nvidia]
[  305.174791]  ? nvidia_open_deferred+0x3c/0x100 [nvidia]
[  305.175248]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
[  305.175705]  ? _main_loop+0x9e/0x160 [nvidia]
[  305.176128]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
[  305.176527]  ? kthread+0x118/0x140
[  305.176869]  ? __kthread_bind_mask+0x60/0x60
[  305.177230]  ? ret_from_fork+0x1f/0x30
[  305.177575] Modules linked in: nvidia_drm(OE) nvidia_modeset(OE) nvidia(OE) ecc rfkill intel_rapl_msr intel_rapl_common intel_uncore_frequency_common isst_if_common skx_edac_common nfit intel_powerclamp crct10dif_pclmul crc32_pclmul ghash_clmulni_intel rapl snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm erdma snd_timer ib_uverbs snd soundcore ib_core virtio_balloon pcspkr i2c_piix4 sunrpc vfat fat cirrus drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops drm nvme libcrc32c virtio_net crc32c_intel net_failover nvme_core serio_raw i2c_core failover virtio_console t10_pi floppy [last unloaded: ecc]
[  305.180787] CR2: 00000000000000c4
[  305.181132] ---[ end trace 85d65b7e0a10dcf8 ]---
[  305.181512] RIP: 0010:pci_read_config_dword+0x5/0x40
[  305.181903] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
[  305.183045] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
[  305.183463] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
[  305.183955] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
[  305.184443] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
[  305.184931] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
[  305.185415] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
[  305.185913] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
[  305.186426] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  305.186870] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
[  305.187363] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[  305.187866] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
[  305.188361] PKRU: 55555554
[  305.188719] Kernel panic - not syncing: Fatal exception
[  305.190378] Kernel Offset: 0x29000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)

Solusi: Hindari menggunakan driver versi 570.124.xx (Linux) atau 572.61 (Windows). Kami menyarankan Anda menggunakan versi 570.133.20 (Linux) atau 572.83 (Windows) atau yang lebih baru.

Perintah nvidia-smi mengembalikan error "No devices were found" jika Anda memilih NVIDIA Proprietary sebagai tipe modul kernel selama instalasi driver

Gejala: Pada beberapa tipe instans, jika Anda memilih NVIDIA Proprietary sebagai tipe modul kernel selama instalasi driver, perintah nvidia-smi mengembalikan error No devices were found setelah instalasi.

Tipe modul kernel lain yang tersedia pada layar ini adalah MIT/GPL.
Penyebab: Tidak semua model GPU kompatibel dengan driver NVIDIA Proprietary.
Konfigurasi tipe modul kernel yang direkomendasikan:
- Untuk GPU arsitektur Blackwell: Anda harus menggunakan driver open-source (pilih MIT/GPL).
- Untuk GPU arsitektur Turing, Ampere, Ada Lovelace, dan Hopper: Kami menyarankan Anda menggunakan driver open-source (pilih MIT/GPL).
- Untuk GPU arsitektur Maxwell, Pascal, dan Volta: Anda hanya dapat memilih NVIDIA Proprietary.

Pemantauan GPU

Bagaimana cara melihat penggunaan resource (vCPU, network traffic, bandwidth, dan disk) pada instans GPU-accelerated?

Anda dapat menggunakan salah satu metode berikut untuk melihat data pemantauan seperti penggunaan vCPU, memori, beban sistem rata-rata, bandwidth internal, bandwidth publik, koneksi jaringan, penggunaan disk dan pembacaan, penggunaan GPU, penggunaan memori GPU, serta daya GPU.

Konsol produk
- Konsol ECS: Menyediakan metrik vCPU usage, network traffic, disk I/O, dan GPU. Lihat informasi pemantauan di Konsol ECS.
- Konsol CloudMonitor: Menyediakan pemantauan infrastruktur, OS, GPU, jaringan, proses, dan disk yang detail halus. Untuk informasi selengkapnya, lihat Pemantauan host.
Pusat Biaya dan Pengeluaran

Pada halaman View Usage Details, filter berdasarkan Time Period, Commodity Name, Billable Item, Billable Item, dan Time Unit. Klik Export CSV untuk mengekspor data penggunaan. Detail penagihan.

Sebagai contoh, untuk melihat penggunaan traffic instans ECS, pilih ECS - Pay-As-You-Go untuk Product name, Outbound traffic untuk Billable item, Public traffic untuk Metering specification (nama spesifikasi adalah ECS_FLOW), dan Hour untuk Metering granularity.

Catatan
Detail penggunaan menunjukkan konsumsi resource mentah, yang berbeda dari penggunaan yang ditagih dalam detail penagihan. Hasil ini hanya untuk referensi dan tidak dapat digunakan untuk rekonsiliasi.

Lainnya

Bagaimana cara menginstal layanan cGPU?

Instal layanan cGPU melalui runtime Docker di ACK. Ini merupakan metode yang direkomendasikan baik untuk pengguna perusahaan maupun pengguna individu yang telah menyelesaikan verifikasi identitas. Kelola komponen penjadwalan GPU bersama.

Perintah nvidia-smi -r hang setelah Anda menginstal layanan cGPU

Gejala: Saat layanan cGPU dimuat (verifikasi dengan lsmod | grep cgpu), perintah nvidia-smi -r hang saat mereset GPU. Error juga muncul dalam log dmesg.
```
[527717.881425] NVRM: Attempting to remove device 0000:08:00.0 with non-zero usage count!
```
Penyebab: Komponen cGPU masih menggunakan perangkat GPU. Hal ini menghalangi operasi reset perangkat keras.
Solusi:
1. Uninstal cGPU: Uninstal komponen cGPU. Setelah uninstal, perintah nvidia-smi -r kembali normal dan mengembalikan hasil.
2. Restart instans: Jika masalah tetap ada setelah uninstal, restart instans dari konsol. Menjalankan perintah reboot di dalam instans tidak efektif.
Penting
Jangan mereset GPU dengan menjalankan perintah seperti nvidia-smi -r, melepas perangkat, atau menginstal ulang driver saat layanan cGPU dimuat. Selalu uninstal layanan cGPU terlebih dahulu untuk mencegah kegagalan.