全部产品
Search
文档中心

Elastic GPU Service:FAQ Layanan GPU Elastis

更新时间:Nov 18, 2025

Topik ini menjawab pertanyaan umum mengenai Elastic GPU Service dan dapat digunakan untuk memecahkan serta menyelesaikan masalah pada instans yang dipercepat GPU Anda.

Kategori

Pertanyaan terkait

Instans GPU-accelerated

Kartu GPU

Driver GPU

Pemantauan GPU

Bagaimana cara melihat penggunaan sumber daya (vCPU, lalu lintas jaringan, bandwidth, dan disk) dari instans GPU-accelerated?

Lainnya

Bagaimana cara menginstal layanan cGPU?

Apakah instans yang dipercepat GPU mendukung emulator Android?

Tidak, hanya beberapa instans GPU-accelerated yang mendukung emulator Android.

Emulator Android hanya didukung pada keluarga Instans ECS Bare Metal berikut yang dioptimalkan untuk komputasi dengan akselerasi GPU: ebmgn7e, ebmgn7i, ebmgn7, ebmgn6ia, ebmgn6e, ebmgn6v, ebmgn6i.

Dapatkah konfigurasi instans GPU-accelerated diubah?

Anda hanya dapat mengubah konfigurasi beberapa instans yang dipercepat GPU.

Untuk informasi lebih lanjut mengenai tipe instans yang mendukung perubahan konfigurasi, lihat Batasan dan pemeriksaan perubahan tipe instans.

Dapatkah keluarga instans ECS standar ditingkatkan atau diubah menjadi keluarga instans GPU-accelerated?

Tidak, Anda tidak dapat langsung meningkatkan atau mengubah keluarga instans ECS standar menjadi keluarga instans GPU-accelerated.

Untuk informasi lebih lanjut mengenai tipe instans yang mendukung perubahan konfigurasi, lihat Batasan dan pemeriksaan perubahan tipe instans.

Bagaimana cara mentransfer data antara instans GPU-accelerated dan instans ECS standar?

Tidak diperlukan pengaturan khusus untuk mentransfer data.

Instans GPU-accelerated memberikan pengalaman pengguna yang sama seperti instans ECS standar, tetapi dengan tambahan akselerasi GPU. Secara default, instans GPU-accelerated dan instans ECS dalam grup keamanan yang sama dapat berkomunikasi melalui jaringan internal tanpa memerlukan konfigurasi khusus.

Apa perbedaan antara GPU dan CPU?

Tabel berikut membandingkan GPU dan CPU.

Perbandingan

GPU

CPU

Arithmetic Logic Unit (ALU)

Memiliki banyak ALU yang unggul dalam menangani komputasi konkuren berskala besar.

Memiliki beberapa ALU yang kuat.

Unit kontrol

Memiliki unit kontrol yang relatif sederhana.

Memiliki unit kontrol yang kompleks.

Cache

Memiliki cache kecil yang melayani thread alih-alih menyimpan data yang diakses.

Memiliki struktur cache besar yang dapat menyimpan data untuk meningkatkan kecepatan akses dan mengurangi latensi.

Metode respons

Mengintegrasikan semua tugas sebelum pemrosesan batch.

Merespons tugas individual secara real-time.

Skenario

Cocok untuk skenario komputasi throughput tinggi paralel multi-threaded yang komputasi-intensif, sangat mirip, dan berulang.

Cocok untuk skenario komputasi serial yang logikanya kompleks dan memerlukan waktu respons cepat.

Setelah saya membeli instans GPU-accelerated, mengapa perintah nvidia-smi tidak dapat menemukan kartu GPU?

Penyebab: Jika perintah nvidia-smi tidak dapat menemukan kartu GPU, hal ini karena driver Tesla atau GRID belum diinstal atau instalasinya gagal pada instans GPU-accelerated Anda.

Solusi: Untuk menggunakan fitur berkinerja tinggi dari instans GPU-accelerated Anda, Anda harus menginstal driver yang sesuai dengan tipe instans Anda. Petunjuk berikut menjelaskan cara menginstal driver:

Bagaimana cara melihat detail kartu GPU?

Langkah-langkah untuk melihat detail kartu GPU bervariasi tergantung sistem operasinya. Petunjuk berikut menjelaskan cara melihat detail tersebut:

  • Pada Linux, Anda dapat menjalankan perintah nvidia-smi untuk melihat detail kartu GPU.

  • Pada Windows, Anda dapat melihat detail kartu GPU di Device Manager > Display Adapters.

Catatan

Untuk melihat informasi seperti laju idle GPU, penggunaan, suhu, dan daya, buka Konsol CloudMonitor. Untuk informasi selengkapnya, lihat Pemantauan GPU.

Driver apa yang perlu saya instal untuk instans vGPU-accelerated?

Instans vGPU-accelerated memerlukan driver GRID.

Untuk skenario komputasi umum atau akselerasi grafis, Anda dapat memuat driver GRID saat membuat instans GPU-accelerated, atau menginstalnya menggunakan Asisten Cloud setelah pembuatan. Petunjuk berikut menjelaskan cara menginstal driver:

Dapatkah saya meningkatkan CUDA ke versi 12.4 atau driver NVIDIA ke versi 550 atau lebih baru pada instans vGPU-accelerated?

Hal ini tidak didukung.

Instans vGPU-accelerated bergantung pada driver GRID yang disediakan platform. Versi drivernya dibatasi, dan Anda tidak dapat menginstal driver dari situs web resmi NVIDIA. Untuk melakukan peningkatan, Anda harus menggunakan instans GPU-accelerated seri gn atau ebm.

Driver apa yang perlu saya instal untuk menggunakan alat seperti OpenGL dan Direct3D guna akselerasi grafis pada instans komputasi yang dioptimalkan dengan percepatan GPU?

Instal driver berdasarkan sistem operasi instans GPU-accelerated Anda. Petunjuk berikut menjelaskan cara menginstal driver:

Mengapa versi CUDA yang saya lihat setelah instalasi berbeda dari versi yang saya pilih saat membuat instans GPU-accelerated?

Versi CUDA yang dikembalikan oleh perintah nvidia-smi menunjukkan versi CUDA tertinggi yang didukung oleh instans GPU-accelerated Anda. Ini tidak merepresentasikan versi CUDA yang Anda pilih saat membuat instans.

Setelah saya menginstal driver GRID pada instans GPU-accelerated Windows, apa yang harus saya lakukan jika muncul layar hitam saat menggunakan koneksi VNC dari konsol?

  • Penyebab: Setelah Anda menginstal driver GRID pada instans GPU-accelerated Windows, driver GRID mengambil alih output tampilan mesin virtual (VM). VNC tidak lagi dapat memperoleh gambar dari grafis terintegrasi. Hal ini menyebabkan layar hitam, yang merupakan perilaku yang diharapkan.

  • Solusi: Sambungkan ke instans GPU-accelerated menggunakan Workbench. Untuk informasi lebih lanjut, lihat Masuk ke instans Windows menggunakan Workbench.

Bagaimana cara mendapatkan Lisensi GRID?

Metode untuk mendapatkan lisensi tergantung pada sistem operasi Anda. Petunjuk berikut menjelaskan cara mendapatkan lisensi:

Bagaimana cara meningkatkan driver GPU (Tesla atau GRID)?

Anda tidak dapat langsung meningkatkan driver GPU (Tesla atau GRID). Anda harus terlebih dahulu menguninstall versi lama, me-restart sistem, lalu menginstal versi baru. Untuk informasi lebih lanjut, lihat Tingkatkan driver Tesla atau GRID.

Penting

Lakukan peningkatan driver di luar jam sibuk. Sebelum meningkatkan, buat snapshot untuk mencadangkan data disk guna mencegah kehilangan data. Untuk informasi lebih lanjut, lihat Buat snapshot.

Apa yang harus saya lakukan jika sistem crash dengan error kernel NULL pointer dereference setelah saya menginstal driver NVIDIA versi 570.124.xx (Linux) atau 572.61 (Windows)?

  • Gejala: Pada beberapa tipe instans, sistem melaporkan error kernel NULL pointer dereference saat Anda menginstal driver NVIDIA versi 570.124.xx (Linux) atau 572.61 (Windows), atau saat menjalankan perintah nvidia-smi setelah instalasi. Log berikut menunjukkan error tersebut:

    Log kesalahan

    [  305.164082] BUG: kernel NULL pointer dereference, address: 00000000000000c4
    [  305.164303] #PF: supervisor read access in kernel mode
    [  305.164447] #PF: error_code(0x0000) - not-present page
    [  305.164626] PGD 0 P4D 0
    [  305.164724] Oops: 0000 [#1] SMP NOPTI
    [  305.164852] CPU: 29 PID: 23659 Comm: nv_open_q Kdump: loaded Tainted: G           OE     5.10.134-19.1.al8.x86_64 #1
    [  305.165241] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 2.0.0 04/23/2024
    [  305.165450] RIP: 0010:pci_read_config_dword+0x5/0x40
    [  305.165630] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
    [  305.166323] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
    [  305.166469] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
    [  305.166724] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
    [  305.166977] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
    [  305.167243] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
    [  305.167506] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
    [  305.167766] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
    [  305.168060] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
    [  305.168270] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
    [  305.168531] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
    [  305.168793] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
    [  305.169052] PKRU: 55555554
    [  305.169157] Call Trace:
    [  305.169252]  ? __die+0x20/0x70
    [  305.169372]  ? no_context+0x5f/0x260
    [  305.169504]  ? exc_page_fault+0x68/0x130
    [  305.169651]  ? asm_exc_page_fault+0x1e/0x30
    [  305.169815]  ? pci_read_config_dword+0x5/0x40
    [  305.170080]  os_pci_read_dword+0x12/0x30 [nvidia]
    [  305.170357]  ? osPciReadDword+0x15/0x20 [nvidia]
    [  305.170637]  gpuReadPcieConfigCycle_GB202+0x66/0xd0 [nvidia]
    [  305.170962]  kbifSavePcieConfigRegistersFn1_GB202+0x65/0xc0 [nvidia]
    [  305.171297]  kbifSavePcieConfigRegisters_GH100+0xd2/0x1e0 [nvidia]
    [  305.171619]  kbifStateLoad_IMPL+0xa1/0xe0 [nvidia]
    [  305.171893]  gpuStateLoad_IMPL+0x267/0xd60 [nvidia]
    [  305.172129]  ? _rmGpuLocksAcquire.constprop.0+0x352/0xbf0 [nvidia]
    [  305.172375]  ? portSyncSpinlockAcquire+0x1d/0x50 [nvidia]
    [  305.172585]  ? _tlsThreadEntryGet+0x82/0x90 [nvidia]
    [  305.172780]  ? tlsEntryGet+0x31/0x80 [nvidia]
    [  305.172979]  gpumgrStateLoadGpu+0x5b/0x70 [nvidia]
    [  305.173209]  RmInitAdapter+0xf08/0x1c00 [nvidia]
    [  305.173433]  ? os_get_current_tick+0x28/0x70 [nvidia]
    [  305.173671]  rm_init_adapter+0xad/0xc0 [nvidia]
    [  305.173845]  nv_start_device+0x2a9/0x6f0 [nvidia]
    [  305.174328]  ? nv_open_device+0x9b/0x220 [nvidia]
    [  305.174791]  ? nvidia_open_deferred+0x3c/0x100 [nvidia]
    [  305.175248]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
    [  305.175705]  ? _main_loop+0x9e/0x160 [nvidia]
    [  305.176128]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
    [  305.176527]  ? kthread+0x118/0x140
    [  305.176869]  ? __kthread_bind_mask+0x60/0x60
    [  305.177230]  ? ret_from_fork+0x1f/0x30
    [  305.177575] Modules linked in: nvidia_drm(OE) nvidia_modeset(OE) nvidia(OE) ecc rfkill intel_rapl_msr intel_rapl_common intel_uncore_frequency_common isst_if_common skx_edac_common nfit intel_powerclamp crct10dif_pclmul crc32_pclmul ghash_clmulni_intel rapl snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm erdma snd_timer ib_uverbs snd soundcore ib_core virtio_balloon pcspkr i2c_piix4 sunrpc vfat fat cirrus drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops drm nvme libcrc32c virtio_net crc32c_intel net_failover nvme_core serio_raw i2c_core failover virtio_console t10_pi floppy [last unloaded: ecc]
    [  305.180787] CR2: 00000000000000c4
    [  305.181132] ---[ end trace 85d65b7e0a10dcf8 ]---
    [  305.181512] RIP: 0010:pci_read_config_dword+0x5/0x40
    [  305.181903] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
    [  305.183045] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
    [  305.183463] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
    [  305.183955] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
    [  305.184443] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
    [  305.184931] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
    [  305.185415] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
    [  305.185913] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
    [  305.186426] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
    [  305.186870] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
    [  305.187363] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
    [  305.187866] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
    [  305.188361] PKRU: 55555554
    [  305.188719] Kernel panic - not syncing: Fatal exception
    [  305.190378] Kernel Offset: 0x29000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)
  • Solusi: Hindari menggunakan driver versi 570.124.xx (Linux) atau 572.61 (Windows). Kami menyarankan Anda menggunakan versi 570.133.20 (Linux) atau 572.83 (Windows) atau yang lebih baru.

Bagaimana cara melihat penggunaan sumber daya (vCPU, lalu lintas jaringan, bandwidth, dan disk) dari instans GPU-accelerated?

Anda dapat menggunakan salah satu metode berikut untuk melihat data pemantauan seperti penggunaan vCPU, memori, beban sistem rata-rata, bandwidth internal, bandwidth publik, koneksi jaringan, penggunaan disk dan pembacaan, penggunaan GPU, penggunaan memori GPU, serta daya GPU.

  • Konsol produk

    • Konsol ECS: Konsol ini menyediakan metrik seperti penggunaan vCPU, lalu lintas jaringan, I/O disk, dan pemantauan GPU. Untuk informasi lebih lanjut, lihat Lihat informasi pemantauan di Konsol ECS.

    • Konsol CloudMonitor: Konsol ini menyediakan pemantauan yang lebih rinci, seperti pemantauan infrastruktur, pemantauan sistem operasi, pemantauan GPU, pemantauan jaringan, pemantauan proses, dan pemantauan disk. Untuk informasi lebih lanjut, lihat Pemantauan host.

  • Pusat Biaya dan Pengeluaran

    Pada halaman View Usage Details, Anda dapat memfilter berdasarkan bidang berikut untuk melihat penggunaan lalu lintas instans ECS: Period, Product Name, Billing Item Name, Metering Specification, dan Metering Granularity. Klik Export CSV untuk mengekspor informasi penggunaan sumber daya untuk instans tersebut. Untuk informasi lebih lanjut, lihat Detail penagihan.

    用量明细-zh

    Catatan

    Data dalam detail penggunaan adalah penggunaan sumber daya mentah. Data ini berbeda dari data penggunaan yang dapat ditagih dalam detail penagihan. Hasil kueri hanya untuk referensi dan tidak dapat digunakan untuk rekonsiliasi.

Bagaimana cara menginstal layanan cGPU?

Anda dapat menginstal dan menggunakan layanan cGPU melalui lingkungan runtime Docker ACK. Ini adalah metode yang direkomendasikan baik untuk pengguna perusahaan maupun pengguna individu yang telah menyelesaikan verifikasi identitas. Untuk informasi lebih lanjut, lihat Kelola komponen penjadwalan GPU bersama.

Saat saya memilih NVIDIA Proprietary untuk tipe modul kernel selama instalasi driver, perintah nvidia-smi mengembalikan error "No devices were found"

  • Gejala: Pada beberapa tipe instans, jika Anda memilih NVIDIA Proprietary untuk tipe modul kernel selama instalasi driver, perintah nvidia-smi mengembalikan error No devices were found setelah instalasi.

    image

    image

  • Penyebab: Tidak semua model GPU kompatibel dengan driver NVIDIA Proprietary.

  • Konfigurasi tipe modul kernel yang direkomendasikan:

    • Untuk GPU arsitektur Blackwell: Anda harus menggunakan driver open-source (pilih MIT/GPL).

    • Untuk GPU arsitektur Turing, Ampere, Ada Lovelace, dan Hopper: Kami merekomendasikan Anda menggunakan driver open-source (pilih MIT/GPL).

    • Untuk GPU arsitektur Maxwell, Pascal, dan Volta: Anda hanya dapat memilih NVIDIA Proprietary.

Apa yang harus saya lakukan jika terjadi kegagalan inisialisasi GPU (seperti RmInitAdapter failed!) saat menggunakan GPU di Linux?

  • Gejala: Perangkat GPU offline, dan sistem tidak dapat mendeteksi kartu GPU. Misalnya, saat Anda menggunakan GPU di Linux, muncul error kegagalan inisialisasi GPU. Setelah menjalankan perintah sh nvidia-bug-report.sh, Anda dapat melihat pesan error RmInitAdapter failed dalam log yang dihasilkan, seperti yang ditunjukkan pada gambar berikut:

    image

  • Penyebab: Komponen GPU System Processor (GSP) mungkin berada dalam kondisi abnormal. Hal ini menyebabkan perangkat offline dan sistem tidak dapat mendeteksi kartu GPU.

  • Solusi: Restart instans dari konsol. Tindakan ini melakukan reset GPU lengkap dan biasanya menyelesaikan masalah tersebut. Jika masalah tetap berlanjut, lihat Kehilangan perangkat GPU akibat error XID 119/XID 120 saat menggunakan GPU untuk pemecahan masalah lebih lanjut. Kami menyarankan Anda menonaktifkan fitur GSP.