全部产品
Search
文档中心

Container Service for Kubernetes:Deteksi anomali GPU dan pemagaran otomatis

更新时间:Feb 12, 2026

ACK menggunakan komponen ack-node-problem-detector (NPD) untuk memantau kesehatan resource GPU. Ketika node GPU mengalami anomali—seperti error XID atau SXID—NPD secara otomatis mendeteksi dan memagari kartu GPU yang terdampak. Hal ini memastikan GPU yang sehat tetap melayani beban kerja, meminimalkan dampak bisnis, serta meningkatkan keandalan kluster dan efisiensi operasional.

Prasyarat

  • Komponen ack-node-problem-detector (NPD) telah diinstal dengan versi 1.2.24 atau lebih baru.

  • Jika Anda menggunakan ack-nvidia-device-plugin versi 0.17.0 atau lebih baru bersama NPD versi 1.2.24 atau lebih baru, NPD secara otomatis memagari kartu GPU yang abnormal saat mendeteksi anomali dan mencabut pagar tersebut secara otomatis ketika GPU pulih.

    Untuk melihat atau meningkatkan versi ack-nvidia-device-plugin, lihat Lihat versi NVIDIA Device Plugin.

ack-node-problem-detector (NPD) adalah komponen pemantauan anomali node kluster yang dikembangkan oleh ACK berdasarkan proyek open source node-problem-detector. Komponen ini mencakup serangkaian item pemeriksaan khusus GPU untuk meningkatkan deteksi anomali di lingkungan yang dipercepat GPU. Saat anomali terdeteksi, NPD menghasilkan Kubernetes Event atau Kubernetes Node Condition sesuai jenis anomali tersebut.

Catatan

  • Saat anomali GPU terdeteksi, komponen ack-node-problem-detector membuat file quarantined NVIDIA GPU sesuai kebijakan pemagaran default. Komponen ack-nvidia-device-plugin kemudian memagari kartu GPU yang terdampak berdasarkan file tersebut. Hal ini mencegah penjadwalan beban kerja baru ke GPU yang rusak, sehingga menghindari kegagalan tugas. GPU yang sehat tetap tersedia untuk penjadwalan. Namun, jika pemagaran menyisakan jumlah GPU yang tidak mencukupi pada node—misalnya hanya tersisa tujuh kartu untuk tugas yang memerlukan delapan GPU—tugas tersebut tidak dapat dijadwalkan, berpotensi menyebabkan sumber daya GPU menganggur. Pemagaran otomatis bukanlah perbaikan otomatis. Instans node tetap dikenai biaya meskipun GPU-nya telah dipagari. Anda tetap harus memperbaiki node secara manual. Konfigurasikan alert anomali GPU agar respons dapat dilakukan secara cepat.

    Anda dapat menonaktifkan fitur pemagaran kartu GPU otomatis sesuai kebutuhan. Untuk petunjuknya, lihat Bagaimana cara menonaktifkan fitur pemagaran kartu GPU otomatis NPD?. Versi tertentu dari NVIDIA Device Plugin mendukung pemagaran GPU otomatis, tetapi metode untuk menonaktifkannya bervariasi. Untuk detailnya, lihat Bagaimana cara menonaktifkan fitur pemagaran GPU native NVIDIA Device Plugin?.
  • Driver GPU NVIDIA menulis error XID dan SXID ke /var/log/messages atau /var/log/syslog menggunakan mekanisme event NVRM. NPD melacak apakah setiap XID dan SXID telah diproses. Jika Anda me-restart node setelah terjadi XID atau SXID, NPD tidak akan menghasilkan Event atau Node Condition untuk error tersebut—meskipun masalah mendasarnya masih ada, seperti XID 79 yang mengindikasikan perangkat GPU harus diganti. NPD menganggap XID tersebut telah terselesaikan setelah restart.

  • NPD mendeteksi error NVIDIA XID dan SXID dengan memindai file /var/log/messages atau /var/log/syslog pada node. Jika log dmesg dialihkan ke file lain, NPD tidak dapat mendeteksi error tersebut.

  • Mulai versi NPD 1.2.29, plugin deteksi anomali GPU dideploy secara terpisah sebagai DaemonSet bernama ack-accel-health-monitor.

  • Dalam beberapa kasus, anomali GPU pada sebuah node dapat mencegah kontainer GPU berjalan. Hal ini juga dapat menghalangi peluncuran kontainer deteksi anomali GPU, sehingga menghentikan proses deteksi.

  • Pod plugin deteksi GPU NPD memerlukan hak istimewa tinggi—seperti privileged=true—untuk memeriksa perangkat dan komponen GPU. Untuk informasi lebih lanjut, lihat tabel berikut.

    Izin RBAC kluster

    Izin kontainer

    Node: get

    Node/Status: update

    Events: create

    privileged: true

    Mount read-only host /dev/kmsg

    Mount read-only host /usr/lib

    Mount read-only host /etc

    Mount read-only host /usr/lib64

    Mount read-only host /proc

Item pemeriksaan dan saran perbaikan

Setelah mengidentifikasi anomali GPU, rujuk ke NVIDIA XID Errors untuk panduan perbaikan. Anda juga dapat meninjau event O&M untuk instans node di Konsol produk cloud terkait—seperti ECS atau Lingjun—berdasarkan tipe instans. Atau, gunakan tool diagnosis mandiri untuk mengidentifikasi anomali perangkat keras pada node.

Saran perbaikan None berarti tidak diperlukan intervensi perangkat keras. Tinjau konfigurasi aplikasi Anda sebagai gantinya.

Nama item pemeriksaan

Apakah menghasilkan Node Condition?

Apakah event dihasilkan?

Deskripsi

Apakah kartu GPU dipagari secara default?

Saran perbaikan

NvidiaXID13Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID13Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 13 error has occurred.

  • Graphics Engine Exception.

  • Error ini biasanya disebabkan oleh indeks array di luar batas atau kesalahan instruksi. Kegagalan perangkat keras jarang terjadi.

Tidak

None

NvidiaXID31Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID31Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 31 error has occurred.

  • GPU memory page fault.

  • Error ini biasanya disebabkan oleh akses alamat ilegal dari aplikasi. Masalah driver atau perangkat keras jarang terjadi.

Tidak

None

NvidiaXID43Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID43Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 43 error has occurred.

  • GPU stopped processing.

  • Event ini terjadi ketika aplikasi Anda mengalami anomali yang disebabkan perangkat lunak dan harus dihentikan. GPU tetap dalam kondisi sehat.

  • Dalam kebanyakan kasus, ini tidak menunjukkan masalah driver melainkan kesalahan pada level aplikasi.

Tidak

None

NvidiaXID44Error

Ya

  • Type: NvidiaXID44Error

  • Reason: NodeHasNvidiaXID44Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 44 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID44Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 44 error has occurred.

  • Graphics Engine fault during context switch.

  • Terjadi kesalahan pada graphics engine selama context switch.

Ya (NPD <= 1.2.28)
Tidak (NPD >= 1.2.30)

Restart node.

NvidiaXID45Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID45Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 45 error has occurred.

  • Preemptive cleanup, due to previous errors - Most likely to see when running multiple cuda applications and hitting a DBE.

  • Event ini terjadi ketika aplikasi Anda dihentikan paksa dan kernel driver menghentikan aplikasi GPU yang sedang berjalan di GPU.

  • Aksi yang dapat menghentikan aplikasi dan memicu event ini termasuk Control-C, reset GPU, dan sigkill.

  • Dalam banyak kasus, ini tidak menunjukkan kesalahan melainkan hasil dari aksi yang dilakukan oleh Anda atau sistem.

Tidak

None

NvidiaXID48Error

Ya

  • Type: NvidiaXID48Error

  • Reason: NodeHasNvidiaXID48Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 48 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID48Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 48 error has occurred.

  • Double Bit ECC Error (DBE).

  • Event ini terjadi ketika GPU mendeteksi kesalahan yang tidak dapat dikoreksi. Kesalahan ini juga dilaporkan ke aplikasi. Reset GPU atau restart node untuk membersihkannya.

Ya

Restart node.

NvidiaXID61Error

Ya

  • Type: NvidiaXID61Error

  • Reason: NodeHasNvidiaXID61Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 61 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID61Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 61 error has occurred.

  • Internal micro-controller breakpoint/warning (newer drivers).

  • Internal micro-controller breakpoint/warning (newer drivers).

Ya (NPD <= 1.2.28)
Tidak (NPD >= 1.2.30)

Mulai ulang node.

NvidiaXID62Error

Ya

  • Type: NvidiaXID62Error

  • Reason: NodeHasNvidiaXID62Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 62 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID62Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 62 error has occurred.

  • Internal micro-controller halt (newer drivers).

  • Internal micro-controller halt (newer drivers).

Ya

Restart node.

NvidiaXID63Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID63Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 63 error has occurred.

  • ECC page retirement or row remapping recording event.

  • Ketika aplikasi mengalami kesalahan perangkat keras memori GPU, mekanisme self-correction NVIDIA melakukan retirement atau remapping wilayah memori yang rusak. Informasi retirement atau remapping harus direkam di infoROM agar perubahan tersebut persisten.

  • Arsitektur Volta: Event ECC page retirement berhasil direkam ke infoROM.

  • Arsitektur Ampere: Event row remapping berhasil direkam ke infoROM.

Tidak

None

NvidiaXID64Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID64Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 64 error has occurred.

  • ECC page retirement or row remapper recording failure.

  • Skema pemicunya mirip dengan XID 63. Namun, XID 63 menunjukkan perekaman ke infoROM berhasil, sedangkan XID 64 menunjukkan kegagalan perekaman.

Tidak

None

NvidiaXID69Error

Ya

  • Type: NvidiaXID69Error

  • Reason: NodeHasNvidiaXID69Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 69 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID69Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 69 error has occurred.

  • Graphics Engine class error.

  • Graphics engine class error.

Ya (NPD <= 1.2.28)
Tidak (NPD >= 1.2.30)

Restart node.

NvidiaXID74Error

Ya

  • Type: NvidiaXID74Error

  • Reason: NodeHasNvidiaXID74Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 74 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID74Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 74 error has occurred.

  • Fatal NVLink Error.

  • XID yang dihasilkan oleh kesalahan perangkat keras NVLink.

Ya

Perbaikan perangkat keras.

NvidiaXID79Error

Ya

  • Type: NvidiaXID79Error

  • Reason: NodeHasNvidiaXID79Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 79 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID79Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 79 error has occurred.

  • GPU has fallen off the bus.

  • Perangkat keras GPU telah jatuh dari bus dan tidak lagi terdeteksi.

Ya

Perbaikan perangkat keras.

NvidiaXID94Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID94Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 94 error has occurred.

  • Contained ECC error.

  • Ketika aplikasi mengalami kesalahan ECC memori GPU yang tidak dapat dikoreksi, mekanisme penekanan kesalahan NVIDIA (contained) berusaha mengisolasi kesalahan tersebut hanya pada aplikasi tersebut. Hal ini mencegah kesalahan memengaruhi semua aplikasi di GPU. Keberhasilan containment memicu event XID 94, yang hanya memengaruhi aplikasi yang mengalami kesalahan tersebut.

Tidak

None

NvidiaXID95Error

Ya

  • Type: NvidiaXID95Error

  • Reason: NodeHasNvidiaXID95Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 95 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID95Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 95 error has occurred.

  • Uncontained ECC error.

  • XID 95 menunjukkan kegagalan containment. Semua aplikasi yang berjalan di GPU terpengaruh. Reset GPU sebelum menjalankan ulang aplikasi.

Ya

Restart node.

NvidiaXID109Error

Ya

  • Type: NvidiaXID109Error

  • Reason: NodeHasNvidiaXID109Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 109 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID109Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 109 error has occurred.

  • Context Switch Timeout Error.

  • Context switch timeout error.

Ya (NPD <= 1.2.28)
Tidak (NPD >= 1.2.30)

None

NvidiaXID119Error

Ya

  • Type: NvidiaXID119Error

  • Reason: NodeHasNvidiaXID119Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 119 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID119Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 119 error has occurred.

  • GSP RPC Timeout.

  • Terjadi timeout saat menunggu respons inti GSP terhadap pesan RPC.

Ya

Mulai ulang node.

NvidiaXID120Error

Ya

  • Type: NvidiaXID120Error

  • Reason: NodeHasNvidiaXID120Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 120 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID120Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 120 error has occurred.

  • GSP Error.

  • Terjadi kesalahan pada kode yang berjalan di inti GSP GPU.

Ya

Restart node.

NvidiaXID140Error

Ya

  • Type: NvidiaXID140Error

  • Reason: NodeHasNvidiaXID140Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 140 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID140Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 140 error has occurred.

  • Unrecovered ECC Error.

  • Event ini terjadi ketika driver GPU mendeteksi kesalahan yang tidak dapat dikoreksi pada memori GPU yang memengaruhi kemampuannya untuk menandai halaman guna offline dinamis atau remapping baris. Reset GPU.

Ya

Mulai ulang node.

NvidiaXID[code]Error

Tidak

Ya (hanya menghasilkan tiga event)

  • Type: Warning

  • Reason: NvidiaXID[code]Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid [code] error has occurred.

XID lain yang tidak tercantum dalam tabel ini.

Tidak

Kirim tiket.

NvidiaSXID[code]Error

Tidak

Ya (hanya menghasilkan tiga event)

  • Type: Warning

  • Reason: NvidiaSXID[code]Error

  • Message: TS=xxx;NVSwitchIds=xxx;MSG=An nvidia sxid [code] error has occurred.

  • Error SXID terbagi menjadi tiga kategori:

    • Dapat dikoreksi: Kesalahan telah dikoreksi. Perilaku sistem tidak terpengaruh. Tidak diperlukan pemulihan tambahan.

    • Fatal: Kesalahan bersifat fatal bagi perangkat. Perilaku sistem terpengaruh. Pemulihan memerlukan reset perangkat atau restart sistem.

    • Tidak fatal: Kesalahan tidak bersifat fatal bagi perangkat. Perilaku sistem terpengaruh. Reset perangkat atau restart sistem mungkin tidak diperlukan.

Tidak

None

NvidiaEccModeNotEnabled

Ya

  • Type: NvidiaEccModeNotEnabled

  • Reason: EccModeNotEnabled

  • Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.

Ya (menghasilkan event terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaEccModeNotEnabled

  • Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.

ECC Mode tidak diaktifkan pada node.

Tidak

Aktifkan ECC Mode dan restart node.

NvidiaPendingRetiredPages

Ya

  • Type: NvidiaPendingRetiredPages

  • Reason: NodeHasNvidiaPendingRetiredPages

  • Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.

Ya (menghasilkan event terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaPendingRetiredPages

  • Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.

  • GPU memiliki halaman yang telah di-retire dalam status pending.

  • Reset GPU agar halaman yang di-retire tersebut berlaku.

Ya

Restart node.

NvidiaRemappingRowsFailed

Ya

  • Type: NvidiaRemappedRowsFailed

  • Reason: GPUMemoryRemappingRowsFailed

  • Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row mapping.

Ya (menghasilkan event terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaRemappedRowsFailed

  • Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row mapping.

GPU gagal melakukan remapping baris.

Ya

Perbaikan perangkat keras.

NvidiaRemappingRowsRequireReset

Ya

  • Type: NvidiaRemappingRowsRequireReset

  • Reason: UncontainedEccError

  • Message: GpuIds=xxx;MSG=Remapping rows requires GPU reset.

Ya (menghasilkan event terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaRemappingRowsRequireReset

  • Message: GpuIds=xxx;MSG=Remapping rows requires GPU reset.

GPU mengalami kesalahan yang tidak dapat dikoreksi dan tidak terkandung, yang memerlukan reset GPU untuk pemulihan. Reset GPU sesegera mungkin untuk mengembalikan operasi.

Ya (NPD <= 1.2.28)
Tidak (NPD >= 1.2.30)

Restart node.

NvidiaDeviceLost

Ya

  • Type: NvidiaDeviceLost

  • Reason: NodeHasNvidiaDeviceLost

  • Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible

Ya (menghasilkan event terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaDeviceLost

  • Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible.

  • The GPU has fallen off the bus or has otherwise become inaccessible.

  • GPU telah jatuh dari bus atau menjadi tidak dapat diakses.

Ya

Perbaikan perangkat keras.

NvidiaInfoRomCorrupted

Ya

  • Type: NvidiaInfoRomCorrupted

  • Reason: NodeHasNvidiaInfoRomCorrupted

  • Message: GpuIds=xxx;MSG=GPU infoROM is corrupted

Ya (menghasilkan event terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaInfoRomCorrupted

  • Message: GpuIds=xxx;MSG=GPU infoROM is corrupted.

  • infoROM is corrupted.

  • infoROM rusak.

Ya

Perbaikan perangkat keras.

NvidiaPowerCableErr

Ya

  • Type: NvidiaPowerCableErr

  • Reason: NodeHasNvidiaPowerCableErr

  • Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached

Ya (menghasilkan event terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaPowerCableErr

  • Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached.

  • A device's external power cables are not properly attached.

  • Kabel daya eksternal perangkat tidak terpasang dengan benar.

Ya

Perbaikan perangkat keras.

NvidiaPersistencedOffline

Ya

  • Type: NvidiaPersistencedOffline

  • Reason: NodeHasNvidiaPersistencedOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Persistenced service is not running.

Ya

  • Type: Warning

  • Reason: NvidiaPersistencedOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Persistenced service is not running.

Layanan Nvidia Persistenced tidak berjalan.

Tidak

Restart layanan nvidia-persistenced.

NvidiaFabricManagerOffline

Ya

  • Type: NvidiaFabricManagerOffline

  • Reason: NodeHasNvidiaFabricManagerOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Fabric Manager service is not running.

Ya

  • Type: Warning

  • Reason: NvidiaFabricManagerOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Fabric Manager service is not running.

Layanan Nvidia Fabric Manager tidak berjalan.

Tidak

Restart layanan Fabric Manager.

NvidiaTemperatureHigh

Ya

  • Type: NvidiaTemperatureHigh

  • Reason: NodeHasNvidiaTemperatureHigh

  • Message: TS=xxx;GpuIds=xxx;Nvidia gpu temperature exceeds threshold

Ya

  • Type: Warning

  • Reason: NvidiaTemperatureHigh

  • Message: TS=xxx;GpuIds=xxx;Nvidia gpu temperature exceeds threshold

Suhu GPU melebihi 100 derajat Celsius.

Tidak

None

Event terkait lainnya

Dalam skenario GPU eksklusif, NPD secara otomatis memagari kartu GPU berdasarkan item pemeriksaan anomali. Setelah pemagaran, pod aplikasi GPU baru tidak ditugaskan ke kartu yang terdampak. Untuk memverifikasi efek pemagaran, periksa jumlah resource nvidia.com/gpu yang dilaporkan pada Node Kubernetes. Setelah kartu GPU pulih, ACK secara otomatis mencabut pagar tersebut.

Penyebab

Konten event

Deskripsi

Pemagaran GPU

Ya

  • Type: Warning

  • Reason: NvidiaDeviceIsolated

  • Message: GpuIds=xxx;MSG=nvidia device has been isolated due to detected issues.

Kartu GPU dipagari karena anomali yang terdeteksi.

Menonaktifkan pemagaran kartu GPU

Ya

  • Type: Normal

  • Reason: NvidiaDeviceRecovered

  • Message: GpuIds=xxx;MSG=nvidia device has recovered from the fault.

Kartu GPU telah pulih dari anomali, dan pemagaran dicabut.

FAQ

Bagaimana cara menonaktifkan fitur pemagaran kartu GPU otomatis NPD?

Latar Belakang

Ketika GPU pada sebuah node menjadi abnormal, ACK secara otomatis memagarinya melalui NPD untuk mencegah penjadwalan tugas ke GPU tersebut. Namun, pemagaran otomatis tidak melakukan perbaikan otomatis. Instans node tetap dikenai biaya meskipun GPU-nya telah dipagari. Anda tetap harus me-restart atau memperbaiki node secara manual. Konfigurasikan alert anomali GPU agar penanganan dapat dilakukan secara cepat.

  • Setelah pemagaran, jika GPU yang tersisa pada node tidak mencukupi untuk suatu tugas—misalnya hanya tersisa tujuh kartu untuk tugas yang memerlukan delapan GPU—tugas tersebut tidak dapat dijadwalkan. Hal ini dapat menyebabkan sumber daya GPU menganggur.

  • Setelah status GPU kembali normal, pagar tersebut secara otomatis dicabut.

  • Untuk menonaktifkan pemagaran otomatis agar GPU yang abnormal tetap melaporkan resource-nya dan tetap dapat dijadwalkan, ikuti solusi di bawah ini.

Solusi

Catatan

Mulai versi ack-node-problem-detector 1.2.30, Anda dapat mengontrol pemagaran GPU otomatis menggunakan item konfigurasi generateNvidiaGpuIsolationFile di Manajemen Komponen.

  1. Nonaktifkan fitur pemagaran kartu GPU otomatis NPD.

    • (Direkomendasikan) Metode 1: Ubah konfigurasi komponen di Manajemen Komponen.

      1. Pada tab Logs and Monitoring, temukan komponen ack-node-problem-detector dan lakukan tindakan yang sesuai berdasarkan versinya.

        • Versi 1.2.24 hingga 1.2.29: Periksa ketersediaan peningkatan. Jika versi 1.2.30 atau lebih baru tersedia, klik Upgrade.

          Versi 1.2.30 sedang dalam rilis grayscale. Jika Anda tidak melihat versi 1.2.30 atau lebih baru, kirim tiket untuk meminta akses.
        • Versi 1.2.30 dan lebih baru: Klik Configuration.

      2. Pada halaman upgrade atau konfigurasi komponen, atur generateNvidiaGpuIsolationFile (Generate NVIDIA GPU quarantined file) ke false, lalu klik OK.

        Catatan

        Jika sebelumnya Anda menggunakan Metode 2 untuk menonaktifkan sementara pemagaran GPU otomatis, pengaturan ini akan dipertahankan selama upgrade NPD. Untuk mengaktifkan kembali fitur pemagaran kartu GPU otomatis, atur generateNvidiaGpuIsolationFile ke true.

    • Metode 2: Ubah konfigurasi secara manual menggunakan YAML.

      Catatan

      Metode berikut merupakan solusi sementara. Konfigurasi akan hilang jika Anda meng-upgrade NPD ke versi di bawah 1.2.30. Anda harus mengonfigurasi ulang setelah upgrade. Kami menyarankan untuk meng-upgrade ke versi 1.2.30 atau lebih baru agar konfigurasi ini bersifat persisten.

      1. Edit YAML komponen NPD.

        kubectl edit ds -n kube-system ack-node-problem-detector-daemonset
      2. Atur konfigurasi EnabledIsolateGPU ke false.

        Sebelum:

         --EnabledIsolateGPU=true

        Sesudah:

        --EnabledIsolateGPU=false
  2. Nonaktifkan pemagaran kartu GPU otomatis yang sudah ada.

    Untuk menonaktifkan pemagaran yang sudah ada pada kartu GPU, login ke node tempat terjadinya error XID dan hapus file /etc/nvidia-device-plugin/unhealthyDevices.json. Untuk mencegah kartu tersebut dipagari kembali, nonaktifkan fitur pemagaran otomatis seperti dijelaskan pada langkah sebelumnya.