cGPU adalah modul Alibaba Cloud yang menyediakan pemagaran memori GPU dan daya komputasi. Fitur ini memungkinkan beberapa kontainer berbagi satu GPU tanpa saling mengganggu sumber daya masing-masing. Topik ini menjelaskan masalah yang diketahui dan informasi penting terkait penggunaan cGPU.
Sebelum Anda mulai
Jika sebuah node GPU di kluster Anda memiliki label
ack.node.gpu.schedule=cgpu,ack.node.gpu.schedule=core_mem, ataucgpu=true, pemagaran cGPU diaktifkan pada node tersebut.Untuk informasi tentang pemetaan versi antara ack-ai-installer dan komponen cGPU, lihat catatan rilis komponen ack-ai-installer.
Untuk informasi selengkapnya tentang cGPU, lihat dokumentasi resmi NVIDIA.
Kompatibilitas versi cGPU
Kompatibilitas driver NVIDIA
Versi cGPU | Driver NVIDIA yang kompatibel |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | Didukung:
|
1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 | Didukung:
Tidak didukung:
|
1.0.3 0.8.17 0.8.13 | Didukung:
Tidak didukung:
|
Kompatibilitas family instans
Versi cGPU | Family instans yang kompatibel |
1.5.20 1.5.19 | Didukung:
|
1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | Didukung:
Tidak didukung:
|
1.5.8 1.5.7 | Didukung:
Tidak didukung:
|
1.5.6 1.5.5 | Didukung:
Tidak didukung:
|
1.5.3 1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | Didukung:
Tidak didukung:
|
0.8.17 0.8.13 | Didukung:
Tidak didukung:
|
Kompatibilitas nvidia-container-toolkit
Versi cGPU | nvidia-container-toolkit yang kompatibel |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 1.5.2 1.0.10 | Didukung:
|
1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 0.8.17 0.8.13 | Didukung:
Tidak didukung:
|
Kompatibilitas versi kernel
Versi cGPU | Versi kernel yang kompatibel |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | Didukung:
|
1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | Didukung:
|
1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | Didukung:
|
0.8.17 | Didukung:
|
0.8.13 0.8.12 0.8.10 | Didukung:
Tidak didukung:
|
FAQ
Terjadi Linux Kernel Panic saat menggunakan cGPU.
Latar belakang: Saat menggunakan komponen cGPU, terjadi deadlock pada driver kernel cGPU. Hal ini berarti proses konkuren saling memblokir satu sama lain, sehingga menyebabkan Linux Kernel Panic.
Penyebab: Versi komponen sudah usang karena Anda menginstal versi
cGPU1.5.7 atau lebih lama.Solusi: Kami menyarankan Anda menginstal atau meningkatkan ke
cGPU≥1.5.10untuk mencegah kesalahan kernel pada layanan baru. Untuk petunjuk cara meningkatkan, lihat Tingkatkan versi cGPU suatu node.
Pod cGPU gagal dimulai dalam beberapa skenario.
Latar belakang: Saat menggunakan citra OS container-optimized Alibaba Cloud, pod cGPU pada node cGPU mungkin gagal dimulai. Pesan kesalahan sebagai berikut:
"Error: failed to create containerd task: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running prestart hook #0: exit status 2, stdout: , stderr: Auto-detected mode as 'legacy': unknown"Penyebab: Masalah ini terjadi pada versi cGPU 1.5.18 dan lebih lama (
cgpu≤1.5.18), yang dapat menyebabkan pod cGPU pertama pada node cGPU gagal dimulai.Solusi: Tingkatkan ke
ack-ai-installer≥1.12.6. Untuk informasi selengkapnya, lihat Tingkatkan komponen penjadwalan GPU bersama.
Terjadi kesalahan modprobe: ERROR saat Anda membuat pod cGPU.
Latar belakang: Kesalahan
modprobe: ERROR: could not insert 'cgpu_procfs': Operation not permittedataumodprobe: ERROR: could not insert 'km': Operation not permittedterjadi saat Anda membuat pod cGPU.Penyebab: Pesan kesalahan berikut ditampilkan:
Error: failed to create containerd task: failed to create shim: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 2, stdout: , stderr: modprobe: ERROR: could not insert 'cgpu_procfs': Operation not permitted modprobe: ERROR: could not insert 'cgpu_procfs': Operation not permitted Auto-detected mode as 'legacy': unknownmodprobe: ERROR: could not insert 'km': Operation not permitted
Solusi: Kesalahan ini biasanya menunjukkan bahwa versi sistem operasi tidak kompatibel dengan cGPU. Untuk mengatasi masalah ini, tingkatkan komponen ke versi terbaru. Untuk informasi selengkapnya, lihat Tingkatkan komponen penjadwalan GPU bersama.
Kontainer untuk pod cGPU gagal dibuat atau keluar karena waktu habis.
Latar belakang: Kontainer untuk pod cGPU tidak dapat dibuat atau keluar karena waktu habis.
Penyebab: Masalah ini disebabkan oleh ketidakcocokan antara versi komponen cGPU 1.0.10 atau lebih lama (
cGPU≤1.0.10) dan versi NVIDIA Toolkit 1.11 atau lebih baru (NVIDIA Toolkit≥1.11).Solusi: Untuk mengatasi masalah ini, tingkatkan komponen ke versi terbaru. Untuk informasi selengkapnya, lihat Tingkatkan komponen penjadwalan GPU bersama.
Kesalahan Error occurs when creating cGPU instance: unknown terjadi saat Anda membuat pod cGPU.
Latar belakang: Untuk alasan kinerja, Anda dapat membuat maksimal 20 pod pada satu GPU saat menggunakan cGPU.
Penyebab: Jika jumlah pod yang dibuat melebihi batas ini, pod berikutnya yang dijadwalkan ke GPU tidak dapat berjalan. Pesan kesalahan
Error occurs when creating cGPU instance: unknownmuncul.Solusi: Saat menggunakan cGPU, pastikan jumlah pod yang dibuat pada satu GPU tidak melebihi 20.
Kesalahan Failed to initialize NVML terjadi saat Anda menjalankan perintah nvidia-smi di dalam pod cGPU.
Latar belakang: Saat Anda menjalankan perintah
nvidia-smidi dalam pod yang sedang berjalan yang menggunakan sumber daya penjadwalan GPU bersama, Anda menerima keluaran berikut.Failed to initialize NVML: GPU access blocked by operating systemPenyebab: Masalah ini disebabkan oleh ketidakcocokan antara
versi cGPU 1.5.2 atau lebih lamadan versi driver GPU yang dirilis setelah Juli 2023. Untuk informasi selengkapnya tentang tanggal rilis driver GPU, lihat Tanggal Rilis Driver GPU. Untuk daftar versi default driver GPU yang kompatibel dengan berbagai versi kluster ACK, lihat Daftar versi driver NVIDIA yang didukung oleh ACK.Solusi: Untuk mengatasi masalah ini, tingkatkan komponen ke versi terbaru. Untuk informasi selengkapnya, lihat Tingkatkan komponen penjadwalan GPU bersama.