全部产品
Search
文档中心

Elastic GPU Service:FAQ tentang Elastic GPU Service

更新时间:Jan 07, 2026

Topik ini membantu Anda melakukan troubleshooting dan menyelesaikan masalah terkait Elastic GPU Service dengan merangkum isu-isu umum yang dihadapi saat menggunakan GPU.

Kategori

Pertanyaan terkait

Instans GPU-accelerated

Kartu GPU

Memori GPU

Driver GPU

Pemantauan GPU

Bagaimana cara melihat penggunaan sumber daya (vCPU, lalu lintas jaringan, bandwidth, dan disk) dari instans GPU-accelerated?

Lainnya

Bagaimana cara menginstal layanan cGPU?

Perintah nvidia-smi -r hang setelah Anda menginstal layanan cGPU

Instans GPU-accelerated

Apakah instans GPU-accelerated mendukung emulator Android?

Emulator Android hanya dapat diinstal pada beberapa instans GPU-accelerated tertentu.

Emulator Android hanya didukung pada keluarga Instans ECS Bare Metal berikut yang dioptimalkan untuk komputasi dengan akselerasi GPU: ebmgn7e, ebmgn7i, ebmgn7, ebmgn6ia, ebmgn6e, ebmgn6v, ebmgn6i.

Dapatkah konfigurasi instans GPU-accelerated diubah?

Anda hanya dapat mengubah konfigurasi beberapa instans yang dipercepat GPU.

Untuk informasi lebih lanjut mengenai tipe instans yang mendukung perubahan konfigurasi, lihat Batasan dan pemeriksaan perubahan tipe instans.

Dapatkah keluarga instans ECS standar ditingkatkan atau diubah menjadi keluarga instans GPU-accelerated?

Tidak, Anda tidak dapat langsung meningkatkan atau mengubah keluarga instans ECS standar menjadi keluarga instans GPU-accelerated.

Untuk informasi lebih lanjut mengenai tipe instans yang mendukung perubahan konfigurasi, lihat Batasan dan pemeriksaan perubahan tipe instans.

Bagaimana cara mentransfer data antara instans GPU-accelerated dan instans ECS standar?

Tidak diperlukan pengaturan khusus untuk mentransfer data.

Instans GPU-accelerated memberikan pengalaman pengguna yang sama seperti instans ECS standar, tetapi dengan tambahan akselerasi GPU. Secara default, instans GPU-accelerated dan instans ECS dalam grup keamanan yang sama dapat berkomunikasi melalui jaringan internal tanpa memerlukan konfigurasi khusus.

Apa perbedaan antara GPU dan CPU?

Tabel berikut membandingkan GPU dan CPU.

Perbandingan

GPU

CPU

Arithmetic Logic Unit (ALU)

Memiliki banyak ALU yang unggul dalam menangani komputasi konkuren berskala besar.

Memiliki jumlah ALU (Arithmetic Logic Unit) yang sedikit namun kuat.

Unit kontrol

Memiliki unit kontrol yang relatif sederhana.

Memiliki unit kontrol yang kompleks.

Cache

Memiliki cache kecil yang melayani thread alih-alih menyimpan data yang diakses.

Memiliki struktur cache besar yang dapat menyimpan data untuk meningkatkan kecepatan akses dan mengurangi latensi.

Metode respons

Mengintegrasikan semua tugas sebelum pemrosesan batch.

Merespons tugas individual secara real-time.

Skenario

Cocok untuk skenario komputasi throughput tinggi paralel multi-threaded yang komputasi-intensif, sangat mirip, dan berulang.

Cocok untuk skenario komputasi serial yang logikanya kompleks dan memerlukan waktu respons cepat.

Kartu GPU

Setelah saya membeli instans GPU-accelerated, mengapa perintah nvidia-smi tidak dapat menemukan kartu GPU?

Penyebab: Jika perintah nvidia-smi tidak dapat menemukan kartu GPU, hal ini karena driver Tesla atau GRID belum diinstal atau instalasinya gagal pada instans GPU-accelerated Anda.

Solusi: Untuk menggunakan fitur berkinerja tinggi dari instans GPU-accelerated Anda, Anda harus menginstal driver yang sesuai dengan tipe instans Anda. Petunjuk berikut menjelaskan cara menginstal driver:

Bagaimana cara melihat detail kartu GPU?

Langkah-langkah untuk melihat detail kartu GPU bervariasi tergantung sistem operasinya. Petunjuk berikut menjelaskan cara melihat detail tersebut:

  • Pada Linux, Anda dapat menjalankan perintah nvidia-smi untuk melihat detail kartu GPU.

  • Pada Windows, Anda dapat melihat detail kartu GPU di Device Manager > Display Adapters.

Catatan

Untuk melihat informasi seperti laju idle GPU, penggunaan, suhu, dan daya, buka Konsol CloudMonitor. Untuk informasi selengkapnya, lihat Pemantauan GPU.

Terjadi kegagalan inisialisasi GPU (misalnya RmInitAdapter failed!) saat saya menggunakan GPU pada Linux

  • Gejala: Perangkat GPU offline, dan sistem tidak dapat mendeteksi kartu GPU. Misalnya, saat Anda menggunakan GPU di Linux, muncul error kegagalan inisialisasi GPU. Setelah menjalankan perintah sh nvidia-bug-report.sh, Anda dapat melihat pesan error RmInitAdapter failed dalam log yang dihasilkan, seperti yang ditunjukkan pada gambar berikut:

    image

  • Penyebab: Komponen GPU System Processor (GSP) mungkin berada dalam kondisi abnormal. Hal ini menyebabkan perangkat offline dan sistem tidak dapat mendeteksi kartu GPU.

  • Solusi: Restart instans dari konsol. Tindakan ini melakukan reset GPU secara lengkap dan biasanya menyelesaikan masalah. Jika masalah tetap berlanjut, lihat Kehilangan perangkat GPU akibat error XID 119/XID 120 saat menggunakan GPU untuk troubleshooting lebih lanjut. Kami menyarankan agar Anda menonaktifkan fitur GSP.

Memori GPU

Mengapa instans dengan memori GPU 48 GB menunjukkan sekitar 3 GB lebih sedikit di nvidia-smi?

Hal ini terjadi karena fitur Error-Correcting Code (ECC) diaktifkan. ECC menggunakan sebagian memori GPU. Pada instans dengan memori 48 GB, ECC menggunakan sekitar 2 GB hingga 3 GB. Anda dapat menjalankan perintah nvidia-smi untuk memeriksa status ECC. `OFF` menunjukkan bahwa ECC dinonaktifkan, dan `ON` menunjukkan bahwa ECC diaktifkan.

Bagaimana cara menonaktifkan fitur ECC untuk membebaskan memori GPU?

  1. Command line: Hentikan semua proses yang menggunakan GPU. Jalankan nvidia-smi -e 0 untuk menonaktifkan ECC. Kemudian, jalankan nvidia-smi -r untuk mereset GPU.

  2. Skrip startup: Tambahkan nvidia-smi -e 0 dan nvidia-smi -r ke baris pertama skrip startup /etc/rc.local. Untuk beberapa sistem, jalurnya adalah /etc/rc.d/rc.local. Kemudian, restart instans.

Apa yang harus saya lakukan jika muncul error yang menunjukkan GPU sedang digunakan oleh client lain saat saya menonaktifkan ECC?

Error ini menunjukkan bahwa suatu komponen atau proses masih menggunakan GPU. Pastikan tidak ada proses GPU yang berjalan pada mesin tersebut. Jika Anda tidak dapat menghentikannya secara manual, buat cadangan snapshot. Kemudian, tambahkan perintah nvidia-smi -e 0 dan nvidia-smi -r ke skrip startup /etc/rc.local. Untuk beberapa sistem, jalurnya adalah /etc/rc.d/rc.local. Restart instans agar perubahan diterapkan.

Driver GPU

Driver apa yang perlu saya instal untuk instans vGPU-accelerated?

Instans vGPU-accelerated memerlukan driver GRID.

Untuk skenario komputasi umum atau akselerasi grafis, Anda dapat memuat driver GRID saat membuat instans GPU-accelerated, atau menginstalnya menggunakan Asisten Cloud setelah pembuatan. Petunjuk berikut menjelaskan cara menginstal driver:

Dapatkah saya meningkatkan CUDA ke versi 12.4 atau driver NVIDIA ke versi 550 atau lebih baru pada instans vGPU-accelerated?

Hal ini tidak didukung.

Instans vGPU-accelerated bergantung pada driver GRID yang disediakan platform. Versi drivernya dibatasi, dan Anda tidak dapat menginstal driver dari situs web resmi NVIDIA. Untuk melakukan peningkatan, Anda harus menggunakan instans GPU-accelerated seri gn atau ebm.

Driver apa yang perlu saya instal untuk menggunakan alat seperti OpenGL dan Direct3D guna akselerasi grafis pada instans GPU-accelerated compute-optimized?

Instal driver berdasarkan sistem operasi instans GPU-accelerated Anda. Petunjuk berikut menjelaskan cara menginstal driver:

Mengapa versi CUDA yang saya lihat setelah instalasi berbeda dari versi yang saya pilih saat membuat instans GPU-accelerated?

Versi CUDA yang dikembalikan oleh perintah nvidia-smi menunjukkan versi CUDA tertinggi yang didukung oleh instans GPU-accelerated Anda. Ini tidak merepresentasikan versi CUDA yang Anda pilih saat membuat instans.

Setelah saya menginstal driver GRID pada instans GPU-accelerated Windows, apa yang harus saya lakukan jika muncul layar hitam saat menggunakan koneksi VNC dari konsol?

  • Penyebab: Setelah Anda menginstal driver GRID pada instans GPU-accelerated Windows, driver GRID mengambil alih output tampilan mesin virtual (VM). VNC tidak lagi dapat memperoleh gambar dari grafis terintegrasi. Hal ini menyebabkan layar hitam, yang merupakan perilaku yang diharapkan.

  • Solusi: Sambungkan ke instans GPU-accelerated menggunakan Workbench. Untuk informasi lebih lanjut, lihat Masuk ke instans Windows menggunakan Workbench.

Bagaimana cara mendapatkan lisensi GRID?

Metode untuk mendapatkan lisensi tergantung pada sistem operasi Anda. Petunjuk berikut menjelaskan cara mendapatkan lisensi:

Bagaimana cara meningkatkan driver GPU (Tesla atau GRID)?

Anda tidak dapat langsung meningkatkan driver GPU (Tesla atau GRID). Anda harus terlebih dahulu menguninstall versi lama, me-restart sistem, lalu menginstal versi baru. Untuk informasi lebih lanjut, lihat Tingkatkan driver Tesla atau GRID.

Penting

Lakukan peningkatan driver di luar jam sibuk. Sebelum meningkatkan, buat snapshot untuk mencadangkan data disk guna mencegah kehilangan data. Untuk informasi lebih lanjut, lihat Buat snapshot.

Terjadi crash sistem dan error kernel NULL pointer dereference setelah Anda menginstal driver NVIDIA versi 570.124.xx (Linux) atau 572.61 (Windows)

  • Gejala: Pada beberapa tipe instans, sistem melaporkan error kernel NULL pointer dereference saat Anda menginstal driver NVIDIA versi 570.124.xx (Linux) atau 572.61 (Windows), atau saat menjalankan perintah nvidia-smi setelah instalasi. Log berikut menunjukkan error tersebut:

    Log kesalahan

    [  305.164082] BUG: kernel NULL pointer dereference, address: 00000000000000c4
    [  305.164303] #PF: supervisor read access in kernel mode
    [  305.164447] #PF: error_code(0x0000) - not-present page
    [  305.164626] PGD 0 P4D 0
    [  305.164724] Oops: 0000 [#1] SMP NOPTI
    [  305.164852] CPU: 29 PID: 23659 Comm: nv_open_q Kdump: loaded Tainted: G           OE     5.10.134-19.1.al8.x86_64 #1
    [  305.165241] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 2.0.0 04/23/2024
    [  305.165450] RIP: 0010:pci_read_config_dword+0x5/0x40
    [  305.165630] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
    [  305.166323] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
    [  305.166469] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
    [  305.166724] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
    [  305.166977] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
    [  305.167243] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
    [  305.167506] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
    [  305.167766] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
    [  305.168060] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
    [  305.168270] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
    [  305.168531] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
    [  305.168793] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
    [  305.169052] PKRU: 55555554
    [  305.169157] Call Trace:
    [  305.169252]  ? __die+0x20/0x70
    [  305.169372]  ? no_context+0x5f/0x260
    [  305.169504]  ? exc_page_fault+0x68/0x130
    [  305.169651]  ? asm_exc_page_fault+0x1e/0x30
    [  305.169815]  ? pci_read_config_dword+0x5/0x40
    [  305.170080]  os_pci_read_dword+0x12/0x30 [nvidia]
    [  305.170357]  ? osPciReadDword+0x15/0x20 [nvidia]
    [  305.170637]  gpuReadPcieConfigCycle_GB202+0x66/0xd0 [nvidia]
    [  305.170962]  kbifSavePcieConfigRegistersFn1_GB202+0x65/0xc0 [nvidia]
    [  305.171297]  kbifSavePcieConfigRegisters_GH100+0xd2/0x1e0 [nvidia]
    [  305.171619]  kbifStateLoad_IMPL+0xa1/0xe0 [nvidia]
    [  305.171893]  gpuStateLoad_IMPL+0x267/0xd60 [nvidia]
    [  305.172129]  ? _rmGpuLocksAcquire.constprop.0+0x352/0xbf0 [nvidia]
    [  305.172375]  ? portSyncSpinlockAcquire+0x1d/0x50 [nvidia]
    [  305.172585]  ? _tlsThreadEntryGet+0x82/0x90 [nvidia]
    [  305.172780]  ? tlsEntryGet+0x31/0x80 [nvidia]
    [  305.172979]  gpumgrStateLoadGpu+0x5b/0x70 [nvidia]
    [  305.173209]  RmInitAdapter+0xf08/0x1c00 [nvidia]
    [  305.173433]  ? os_get_current_tick+0x28/0x70 [nvidia]
    [  305.173671]  rm_init_adapter+0xad/0xc0 [nvidia]
    [  305.173845]  nv_start_device+0x2a9/0x6f0 [nvidia]
    [  305.174328]  ? nv_open_device+0x9b/0x220 [nvidia]
    [  305.174791]  ? nvidia_open_deferred+0x3c/0x100 [nvidia]
    [  305.175248]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
    [  305.175705]  ? _main_loop+0x9e/0x160 [nvidia]
    [  305.176128]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
    [  305.176527]  ? kthread+0x118/0x140
    [  305.176869]  ? __kthread_bind_mask+0x60/0x60
    [  305.177230]  ? ret_from_fork+0x1f/0x30
    [  305.177575] Modules linked in: nvidia_drm(OE) nvidia_modeset(OE) nvidia(OE) ecc rfkill intel_rapl_msr intel_rapl_common intel_uncore_frequency_common isst_if_common skx_edac_common nfit intel_powerclamp crct10dif_pclmul crc32_pclmul ghash_clmulni_intel rapl snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm erdma snd_timer ib_uverbs snd soundcore ib_core virtio_balloon pcspkr i2c_piix4 sunrpc vfat fat cirrus drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops drm nvme libcrc32c virtio_net crc32c_intel net_failover nvme_core serio_raw i2c_core failover virtio_console t10_pi floppy [last unloaded: ecc]
    [  305.180787] CR2: 00000000000000c4
    [  305.181132] ---[ end trace 85d65b7e0a10dcf8 ]---
    [  305.181512] RIP: 0010:pci_read_config_dword+0x5/0x40
    [  305.181903] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
    [  305.183045] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
    [  305.183463] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
    [  305.183955] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
    [  305.184443] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
    [  305.184931] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
    [  305.185415] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
    [  305.185913] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
    [  305.186426] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
    [  305.186870] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
    [  305.187363] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
    [  305.187866] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
    [  305.188361] PKRU: 55555554
    [  305.188719] Kernel panic - not syncing: Fatal exception
    [  305.190378] Kernel Offset: 0x29000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)
  • Solusi: Hindari menggunakan driver versi 570.124.xx (Linux) atau 572.61 (Windows). Kami menyarankan Anda menggunakan versi 570.133.20 (Linux) atau 572.83 (Windows) atau yang lebih baru.

Perintah nvidia-smi mengembalikan error "No devices were found" jika Anda memilih NVIDIA Proprietary sebagai tipe modul kernel saat instalasi driver

  • Gejala: Pada beberapa tipe instans, jika Anda memilih NVIDIA Proprietary sebagai tipe modul kernel saat instalasi driver, perintah nvidia-smi mengembalikan error No devices were found setelah instalasi.

    image

    image

  • Penyebab: Tidak semua model GPU kompatibel dengan driver NVIDIA Proprietary.

  • Konfigurasi tipe modul kernel yang direkomendasikan:

    • Untuk GPU arsitektur Blackwell: Anda harus menggunakan driver open-source (pilih MIT/GPL).

    • Untuk GPU arsitektur Turing, Ampere, Ada Lovelace, dan Hopper: Kami merekomendasikan Anda menggunakan driver open-source (pilih MIT/GPL).

    • Untuk GPU arsitektur Maxwell, Pascal, dan Volta: Anda hanya dapat memilih NVIDIA Proprietary.

Pemantauan GPU

Bagaimana cara melihat penggunaan resource (vCPU, network traffic, bandwidth, dan disk) instans GPU-accelerated?

Anda dapat menggunakan salah satu metode berikut untuk melihat data pemantauan seperti penggunaan vCPU, memori, beban sistem rata-rata, bandwidth internal, bandwidth publik, koneksi jaringan, penggunaan disk dan pembacaan, penggunaan GPU, penggunaan memori GPU, serta daya GPU.

  • Konsol produk

    • Konsol ECS: Konsol ini menyediakan metrik seperti penggunaan vCPU, lalu lintas jaringan, I/O disk, dan pemantauan GPU. Untuk informasi lebih lanjut, lihat Lihat informasi pemantauan di Konsol ECS.

    • Konsol CloudMonitor: Konsol ini menyediakan pemantauan yang lebih rinci, seperti pemantauan infrastruktur, pemantauan sistem operasi, pemantauan GPU, pemantauan jaringan, pemantauan proses, dan pemantauan disk. Untuk informasi lebih lanjut, lihat Pemantauan host.

  • Pusat Biaya dan Pengeluaran

    Pada halaman View Usage Details, Anda dapat memfilter berdasarkan bidang berikut untuk melihat penggunaan lalu lintas instans ECS: Time Period, Commodity Name, Billable Item, Billable Item, dan Time Unit. Klik Export CSV untuk mengekspor informasi penggunaan sumber daya untuk instans tersebut. Untuk informasi lebih lanjut, lihat Detail penagihan.

    用量明细-zh

    Catatan

    Data dalam detail penggunaan adalah penggunaan sumber daya mentah. Data ini berbeda dari data penggunaan yang dapat ditagih dalam detail penagihan. Hasil kueri hanya untuk referensi dan tidak dapat digunakan untuk rekonsiliasi.

Lainnya

Bagaimana cara menginstal layanan cGPU?

Anda dapat menginstal dan menggunakan layanan cGPU melalui lingkungan runtime Docker ACK. Ini adalah metode yang direkomendasikan baik untuk pengguna perusahaan maupun pengguna individu yang telah menyelesaikan verifikasi identitas. Untuk informasi lebih lanjut, lihat Kelola komponen penjadwalan GPU bersama.

Perintah nvidia-smi -r hang setelah Anda menginstal layanan cGPU

  • Gejala: Dalam lingkungan tempat layanan cGPU dimuat (yang dapat Anda konfirmasi dengan menjalankan perintah lsmod | grep cgpu), perintah nvidia-smi -r hang dan tidak dapat dihentikan saat Anda mencoba mereset GPU. Pesan error juga muncul dalam log sistem dmesg.

    image

  • Penyebab: Komponen cGPU masih menggunakan perangkat GPU. Hal ini menghalangi operasi reset hardware.

  • Solusi:

    1. Uninstal cGPU: Uninstal komponen cGPU. Setelah uninstal, perintah nvidia-smi -r kembali normal dan mengembalikan hasil.

    2. Restart instans: Jika masalah tetap berlanjut setelah uninstal, restart instans dari konsol. Menjalankan perintah reboot di dalam instans tidak efektif.

    Penting

    Jangan mereset GPU dengan menjalankan perintah seperti nvidia-smi -r, melepas perangkat, atau menginstal ulang driver saat layanan cGPU dimuat. Selalu uninstal layanan cGPU terlebih dahulu untuk mencegah kegagalan.