全部产品
Search
文档中心

Container Service for Kubernetes:FAQ cGPU

更新时间:Nov 11, 2025

cGPU adalah modul Alibaba Cloud yang menyediakan pemagaran memori GPU dan daya komputasi. Fitur ini memungkinkan beberapa kontainer berbagi satu GPU tanpa saling mengganggu sumber daya masing-masing. Topik ini menjelaskan masalah yang diketahui dan informasi penting terkait penggunaan cGPU.

Sebelum Anda mulai

  • Jika sebuah node GPU di kluster Anda memiliki label ack.node.gpu.schedule=cgpu, ack.node.gpu.schedule=core_mem, atau cgpu=true, pemagaran cGPU diaktifkan pada node tersebut.

  • Untuk informasi tentang pemetaan versi antara ack-ai-installer dan komponen cGPU, lihat catatan rilis komponen ack-ai-installer.

  • Untuk informasi selengkapnya tentang cGPU, lihat dokumentasi resmi NVIDIA.

Kompatibilitas versi cGPU

Kompatibilitas driver NVIDIA

Versi cGPU

Driver NVIDIA yang kompatibel

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

Didukung:

  • Seri 460

  • Seri 470

  • Seri 510

  • Seri 515

  • Seri 525

  • Seri 535

  • Seri 550

  • Seri 560

  • Seri 565

  • Seri 570

  • Seri 575

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

Didukung:

  • Seri 460

  • Seri 470 <= 470.161.03

  • Seri 510 <= 510.108.03

  • Seri 515 <= 515.86.01

  • Seri 525 <= 525.89.03

Tidak didukung:

  • Seri 535

  • Seri 550

  • Seri 560

  • Seri 565

  • Seri 570

  • Seri 575

1.0.3

0.8.17

0.8.13

Didukung:

  • Seri 460

  • Seri 470 <= 470.161.03

Tidak didukung:

  • Seri 510

  • Seri 515

  • Seri 525

  • Seri 535

  • Seri 550

  • Seri 560

  • Seri 565

  • Seri 570

  • Seri 575

Kompatibilitas family instans

Versi cGPU

Family instans yang kompatibel

1.5.20

1.5.19

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

Tidak didukung:

  • ebmgn9t

1.5.8

1.5.7

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

Tidak didukung:

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.6

1.5.5

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

Tidak didukung:

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.3

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

Tidak didukung:

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

0.8.17

0.8.13

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

Tidak didukung:

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

Kompatibilitas nvidia-container-toolkit

Versi cGPU

nvidia-container-toolkit yang kompatibel

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

1.5.2

1.0.10

Didukung:

  • nvidia-container-toolkit <= 1.10

  • nvidia-container-toolkit: 1.11 ~ 1.17

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

0.8.17

0.8.13

Didukung:

  • nvidia-container-toolkit <= 1.10

Tidak didukung:

  • nvidia-container-toolkit: 1.11 ~ 1.17

Kompatibilitas versi kernel

Versi cGPU

Versi kernel yang kompatibel

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

Didukung:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.15

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

Didukung:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.10

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

Didukung:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.1

0.8.17

Didukung:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.0

0.8.13

0.8.12

0.8.10

Didukung:

  • kernel 3.x

  • kernel 4.x

Tidak didukung:

  • kernel 5.x

FAQ

Terjadi Linux Kernel Panic saat menggunakan cGPU.

  • Latar belakang: Saat menggunakan komponen cGPU, terjadi deadlock pada driver kernel cGPU. Hal ini berarti proses konkuren saling memblokir satu sama lain, sehingga menyebabkan Linux Kernel Panic.

  • Penyebab: Versi komponen sudah usang karena Anda menginstal versi cGPU 1.5.7 atau lebih lama.

  • Solusi: Kami menyarankan Anda menginstal atau meningkatkan ke cGPU≥1.5.10 untuk mencegah kesalahan kernel pada layanan baru. Untuk petunjuk cara meningkatkan, lihat Tingkatkan versi cGPU suatu node.

Pod cGPU gagal dimulai dalam beberapa skenario.

  • Latar belakang: Saat menggunakan citra OS container-optimized Alibaba Cloud, pod cGPU pada node cGPU mungkin gagal dimulai. Pesan kesalahan sebagai berikut:

    "Error: failed to create containerd task: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running prestart hook #0: exit status 2, stdout: , stderr: Auto-detected mode as 'legacy': unknown"
  • Penyebab: Masalah ini terjadi pada versi cGPU 1.5.18 dan lebih lama (cgpu≤1.5.18), yang dapat menyebabkan pod cGPU pertama pada node cGPU gagal dimulai.

  • Solusi: Tingkatkan ke ack-ai-installer≥1.12.6. Untuk informasi selengkapnya, lihat Tingkatkan komponen penjadwalan GPU bersama.

Terjadi kesalahan modprobe: ERROR saat Anda membuat pod cGPU.

  • Latar belakang: Kesalahan modprobe: ERROR: could not insert 'cgpu_procfs': Operation not permitted atau modprobe: ERROR: could not insert 'km': Operation not permitted terjadi saat Anda membuat pod cGPU.

  • Penyebab: Pesan kesalahan berikut ditampilkan:

    • Error: failed to create containerd task: failed to create shim: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 2, stdout: , stderr: modprobe: ERROR: could not insert 'cgpu_procfs': Operation not permitted modprobe: ERROR: could not insert 'cgpu_procfs': Operation not permitted Auto-detected mode as 'legacy': unknown
    • modprobe: ERROR: could not insert 'km': Operation not permitted
  • Solusi: Kesalahan ini biasanya menunjukkan bahwa versi sistem operasi tidak kompatibel dengan cGPU. Untuk mengatasi masalah ini, tingkatkan komponen ke versi terbaru. Untuk informasi selengkapnya, lihat Tingkatkan komponen penjadwalan GPU bersama.

Kontainer untuk pod cGPU gagal dibuat atau keluar karena waktu habis.

  • Latar belakang: Kontainer untuk pod cGPU tidak dapat dibuat atau keluar karena waktu habis.

  • Penyebab: Masalah ini disebabkan oleh ketidakcocokan antara versi komponen cGPU 1.0.10 atau lebih lama (cGPU≤1.0.10) dan versi NVIDIA Toolkit 1.11 atau lebih baru (NVIDIA Toolkit≥1.11).

  • Solusi: Untuk mengatasi masalah ini, tingkatkan komponen ke versi terbaru. Untuk informasi selengkapnya, lihat Tingkatkan komponen penjadwalan GPU bersama.

Kesalahan Error occurs when creating cGPU instance: unknown terjadi saat Anda membuat pod cGPU.

  • Latar belakang: Untuk alasan kinerja, Anda dapat membuat maksimal 20 pod pada satu GPU saat menggunakan cGPU.

  • Penyebab: Jika jumlah pod yang dibuat melebihi batas ini, pod berikutnya yang dijadwalkan ke GPU tidak dapat berjalan. Pesan kesalahan Error occurs when creating cGPU instance: unknown muncul.

  • Solusi: Saat menggunakan cGPU, pastikan jumlah pod yang dibuat pada satu GPU tidak melebihi 20.

Kesalahan Failed to initialize NVML terjadi saat Anda menjalankan perintah nvidia-smi di dalam pod cGPU.

  • Latar belakang: Saat Anda menjalankan perintah nvidia-smi di dalam pod yang sedang berjalan yang menggunakan sumber daya penjadwalan GPU bersama, Anda menerima keluaran berikut.

    Failed to initialize NVML: GPU access blocked by operating system
  • Penyebab: Masalah ini disebabkan oleh ketidakcocokan antara versi cGPU 1.5.2 atau lebih lama dan versi driver GPU yang dirilis setelah Juli 2023. Untuk informasi selengkapnya tentang tanggal rilis driver GPU, lihat Tanggal Rilis Driver GPU. Untuk daftar versi default driver GPU yang kompatibel dengan berbagai versi kluster ACK, lihat Daftar versi driver NVIDIA yang didukung oleh ACK.

  • Solusi: Untuk mengatasi masalah ini, tingkatkan komponen ke versi terbaru. Untuk informasi selengkapnya, lihat Tingkatkan komponen penjadwalan GPU bersama.