全部产品
Search
文档中心

Container Service for Kubernetes:Deteksi anomali GPU dan pemagaran otomatis

更新时间:Dec 05, 2025

Topik ini menjelaskan cara menginstal, mengonfigurasi, dan menggunakan komponen Deteksi Anomali GPU ACK. Komponen ini membantu Anda memantau kesehatan sumber daya GPU di lingkungan ACK guna meningkatkan keandalan dan efisiensi kluster.

Prasyarat

  • ack-node-problem-detector (NPD) versi 1.2.24 atau yang lebih baru telah diinstal.

  • Jika Anda menggunakan ack-nvidia-device-plugin 0.17.0 atau yang lebih baru bersama NPD versi 1.2.24 atau yang lebih baru, NPD secara otomatis memagari kartu GPU saat mendeteksi anomali. Pemagaran tersebut akan dinonaktifkan secara otomatis ketika NPD mendeteksi bahwa GPU telah pulih.

    Untuk melihat dan memperbarui versi komponen ack-nvidia-device-plugin, lihat Lihat versi NVIDIA Device Plugin.

ack-node-problem-detector (NPD) adalah komponen yang memantau event anomali pada node kluster. Dikembangkan oleh ACK, NPD merupakan peningkatan dari proyek open source node-problem-detector. Komponen ini mencakup berbagai item pemeriksaan untuk meningkatkan deteksi anomali dalam skenario GPU. Saat anomali terdeteksi, komponen ini menghasilkan Kubernetes Event atau Kubernetes Node Condition sesuai jenis anomali tersebut.

Catatan

  • NVIDIA XIDs dan SXIDs ditulis oleh driver GPU ke /var/log/messages atau /var/log/syslog melalui mekanisme event NVRM. NPD mencatat apakah setiap XID dan SXID telah diproses. Jika Anda melakukan restart node setelah XID atau SXID terdeteksi, NPD tidak akan menghasilkan Event atau Node Condition untuk XID atau SXID tersebut—meskipun masalah mendasar belum terselesaikan (misalnya, XID 79 menunjukkan bahwa perangkat GPU harus diganti). NPD menganggap XID tersebut telah terselesaikan setelah restart.

  • NPD mendeteksi NVIDIA XIDs dan SXIDs dengan memeriksa file /var/log/messages atau /var/log/syslog pada node. Jika log dmesg dialihkan ke file lain, NPD tidak dapat mendeteksi NVIDIA XIDs dan SXIDs.

  • Ketika GPU pada suatu node mengalami anomali, ACK secara otomatis memagari GPU yang bermasalah untuk mencegah pekerjaan baru dijadwalkan ke perangkat rusak tersebut. Pemagaran otomatis tidak mengembalikan GPU ke kondisi normal. Anda tetap perlu melakukan restart node secara manual atau melakukan maintenance perangkat keras sesuai jenis anomali tertentu. Mengaktifkan pemagaran otomatis dapat menyebabkan perilaku tak terduga; misalnya, pekerjaan 8-kartu mungkin gagal dijadwalkan jika salah satu kartu mengalami kerusakan. Anda dapat menonaktifkan pemagaran otomatis GPU dengan cara berikut:

  • Mulai dari NPD 1.2.29, plugin deteksi anomali GPU di NPD dideploy secara terpisah sebagai DaemonSet bernama ack-accel-health-monitor.

  • Dalam beberapa kasus, anomali GPU pada suatu node dapat mencegah pembuatan kontainer GPU pada node tersebut. Kontainer deteksi anomali GPU mungkin terpengaruh dan gagal dimulai, sehingga menghambat proses deteksi.

  • Pod plugin deteksi GPU NPD perlu memeriksa status perangkat dan komponen GPU, yang memerlukan izin tinggi seperti privileged=true. Lihat tabel berikut untuk detailnya.

    Izin RBAC kluster

    Izin kontainer

    Node: get

    Node/Status: update

    Events: create

    privileged: true

    Mount read-only untuk /dev/kmsg host

    Mount read-only untuk /usr/lib host

    Mount read-only untuk /etc host

    Mount read-only untuk /usr/lib64 host

    Mount read-only untuk /proc host

Item pemeriksaan dan rekomendasi perbaikan

Saran perbaikan adalah None, tidak diperlukan operasi perangkat keras. Sebagai gantinya, periksa konfigurasi aplikasi Anda.

Nama item pemeriksaan

Menghasilkan Node Condition

Menghasilkan Event

Deskripsi

Mengisolasi kartu GPU secara default

Saran perbaikan

NvidiaXID13Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID13Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 13 error has occurred.

  • Graphics Engine Exception.

  • Biasanya disebabkan oleh indeks array di luar batas atau kesalahan instruksi, dan jarang disebabkan oleh masalah perangkat keras.

Tidak

Tidak ada

NvidiaXID31Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID31Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 31 error has occurred.

  • GPU memory page fault.

  • Biasanya disebabkan oleh akses alamat ilegal oleh aplikasi, dan jarang disebabkan oleh masalah driver atau perangkat keras.

Tidak

Tidak ada

NvidiaXID43Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID43Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 43 error has occurred.

  • GPU stopped processing.

  • Event ini dicatat ketika aplikasi Anda mengalami pengecualian akibat perangkat lunak dan harus dihentikan. GPU masih dalam kondisi sehat.

  • Dalam kebanyakan kasus, ini bukan menunjukkan masalah pada driver, melainkan kesalahan pada aplikasi Anda.

Tidak

Tidak ada

NvidiaXID45Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID45Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 45 error has occurred.

  • Preemptive cleanup due to previous errors. This is most likely to occur when running multiple CUDA applications and hitting a DBE.

  • Event ini dicatat ketika aplikasi Anda dihentikan dan driver kernel menghentikan aplikasi GPU yang berjalan pada GPU.

  • Control-C, reset GPU, dan sigkill adalah contoh aplikasi yang dihentikan, yang dapat memicu event ini.

  • Dalam banyak kasus, ini tidak menunjukkan kesalahan, melainkan tindakan yang dilakukan oleh Anda atau sistem.

Tidak

Tidak ada

NvidiaXID48Error

Ya

  • Type: NvidiaXID48Error

  • Reason: NodeHasNvidiaXID48Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 48 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID48Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 48 error has occurred.

  • Double-bit ECC error (DBE).

  • Event ini dicatat ketika GPU mendeteksi kesalahan yang tidak dapat dikoreksi. Kesalahan ini juga dilaporkan ke aplikasi. Diperlukan reset GPU atau restart node untuk menghapus kesalahan ini.

Ya

Restart node.

NvidiaXID63Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID63Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 63 error has occurred.

  • ECC page retirement or row remapping recording event.

  • Ketika aplikasi mengalami kesalahan perangkat keras memori GPU, mekanisme self-correction NVIDIA akan mempensiunkan atau memetakan ulang wilayah memori yang rusak. Informasi pensiun dan pemetaan ulang harus direkam di infoROM agar bersifat permanen.

  • Arsitektur Volta: Mencatat event pensiun halaman ECC ke infoROM berhasil.

  • Arsitektur Ampere: Mencatat event pemetaan ulang baris ke infoROM berhasil.

Tidak

Tidak ada

NvidiaXID64Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID64Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 64 error has occurred.

  • ECC page retirement or row remapper recording failure.

  • Skema pemicunya mirip dengan XID 63. XID 63 menunjukkan bahwa informasi pensiun dan pemetaan ulang berhasil direkam ke infoROM. XID 64 menunjukkan bahwa operasi perekaman gagal.

Tidak

Tidak ada

NvidiaXID74Error

Ya

  • Type: NvidiaXID74Error

  • Reason: NodeHasNvidiaXID74Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 74 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID74Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 74 error has occurred.

  • Fatal NVLINK Error.

  • XID yang dihasilkan oleh kesalahan perangkat keras NVLink. Event ini menunjukkan kegagalan perangkat keras kritis pada GPU. GPU harus diambil offline untuk maintenance.

Ya

Hardware maintenance.

NvidiaXID79Error

Ya

  • Type: NvidiaXID79Error

  • Reason: NodeHasNvidiaXID79Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 79 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID79Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 79 error has occurred.

  • GPU has fallen off the bus.

  • Perangkat keras GPU mendeteksi bahwa kartu telah jatuh dari bus dan tidak lagi dapat diakses. Event ini menunjukkan kegagalan perangkat keras kritis pada GPU. GPU harus diambil offline untuk maintenance.

Ya

Hardware maintenance.

NvidiaXID94Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID94Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 94 error has occurred.

  • Contained ECC error.

  • Ketika aplikasi mengalami kesalahan ECC memori GPU yang tidak dapat dikoreksi, mekanisme containment kesalahan NVIDIA mencoba membatasi kesalahan tersebut hanya pada aplikasi yang menyebabkan masalah. Hal ini mencegah kesalahan memengaruhi aplikasi lain pada GPU. Ketika mekanisme containment berhasil membatasi kesalahan, event XID 94 dihasilkan. Ini hanya memengaruhi aplikasi yang mengalami kesalahan ECC yang tidak dapat dikoreksi.

Tidak

Tidak ada

NvidiaXID95Error

Ya

  • Type: NvidiaXID95Error

  • Reason: NodeHasNvidiaXID95Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 95 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID95Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 95 error has occurred.

  • Uncontained ECC error.

  • XID 95 menunjukkan bahwa containment gagal. Artinya, semua aplikasi yang berjalan pada GPU terpengaruh. GPU yang terpengaruh harus di-reset sebelum aplikasi dapat dijalankan ulang.

Ya

Restart node.

NvidiaXID119Error

Ya

  • Type: NvidiaXID119Error

  • Reason: NodeHasNvidiaXID119Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 119 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID119Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 119 error has occurred.

  • GSP RPC Timeout.

  • Terjadi timeout saat menunggu respons inti GSP terhadap pesan RPC.

Ya

Restart node.

NvidiaXID120Error

Ya

  • Type: NvidiaXID120Error

  • Reason: NodeHasNvidiaXID120Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 120 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID120Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 120 error has occurred.

  • GSP Error.

  • Terjadi kesalahan pada kode yang berjalan di inti GSP GPU.

Ya

Restart node.

NvidiaXID140Error

Ya

  • Type: NvidiaXID140Error

  • Reason: NodeHasNvidiaXID140Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 140 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID140Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 140 error has occurred.

  • Unrecovered ECC Error.

  • Event ini dapat terjadi ketika driver GPU mendeteksi kesalahan yang tidak dapat dikoreksi pada memori GPU. Kesalahan ini memengaruhi kemampuan driver untuk menandai halaman guna pensiun halaman dinamis atau pemetaan ulang baris. Diperlukan reset GPU.

Ya

Restart node.

NvidiaEccModeNotEnabled

Ya

  • Type: NvidiaEccModeNotEnabled

  • Reason: EccModeNotEnabled

  • Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.

Yes (generates events continuously until the issue is resolved)

  • Type: Warning

  • Reason: NvidiaEccModeNotEnabled

  • Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.

ECC Mode is not enabled on the node.

Tidak

Enable ECC Mode and restart the node.

NvidiaPendingRetiredPages

Ya

  • Type: NvidiaPendingRetiredPages

  • Reason: NodeHasNvidiaPendingRetiredPages

  • Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.

Yes (generates events continuously until the issue is resolved)

  • Type: Warning

  • Reason: NvidiaPendingRetiredPages

  • Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.

  • GPU memiliki halaman yang telah di-retire namun masih dalam status pending.

  • Diperlukan reset GPU agar halaman yang di-retire tersebut berlaku.

Ya

Restart node.

NvidiaRemappingRowsFailed

Ya

  • Type: NvidiaRemappedRowsFailed

  • Reason: GPUMemoryRemappingRowsFailed

  • Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row remapping.

Yes (generates events continuously until the issue is resolved)

  • Type: Warning

  • Reason: NvidiaRemappedRowsFailed

  • Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row remapping.

The GPU has a row remapping failure.

Ya

Hardware maintenance.

NvidiaRemappingRowsRequireReset

Ya

  • Type: NvidiaRemappingRowsRequireReset

  • Reason: UncontainedEccError

  • Message: GpuIds=xxx;MSG=Row remapping requires a GPU reset.

Yes (generates events continuously until the issue is resolved)

  • Type: Warning

  • Reason: NvidiaRemappingRowsRequireReset

  • Message: GpuIds=xxx;MSG=Row remapping requires a GPU reset.

The GPU has encountered an uncorrectable, uncontained error that requires a GPU reset to recover. The GPU should be reset as soon as possible to restore operation.

Ya

Restart node.

NvidiaDeviceLost

Ya

  • Type: NvidiaDeviceLost

  • Reason: NodeHasNvidiaDeviceLost

  • Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible.

Yes (generates events continuously until the issue is resolved)

  • Type: Warning

  • Reason: NvidiaDeviceLost

  • Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible.

  • The GPU has fallen off the bus or has otherwise become inaccessible.

  • The GPU has fallen off the bus or has otherwise become inaccessible.

Ya

Hardware maintenance.

NvidiaInfoRomCorrupted

Ya

  • Type: NvidiaInfoRomCorrupted

  • Reason: NodeHasNvidiaInfoRomCorrupted

  • Message: GpuIds=xxx;MSG=The GPU infoROM is corrupted.

Yes (generates events continuously until the issue is resolved)

  • Type: Warning

  • Reason: NvidiaInfoRomCorrupted

  • Message: GpuIds=xxx;MSG=The GPU infoROM is corrupted.

  • The infoROM is corrupted.

  • infoROM rusak.

Ya

Hardware maintenance.

NvidiaPowerCableErr

Ya

  • Type: NvidiaPowerCableErr

  • Reason: NodeHasNvidiaPowerCableErr

  • Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached.

Yes (generates events continuously until the issue is resolved)

  • Type: Warning

  • Reason: NvidiaPowerCableErr

  • Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached.

  • A device's external power cables are not properly attached.

  • The external power cables are not correctly attached to the device.

Ya

Hardware maintenance.

NvidiaXID44Error

Ya

  • Type: NvidiaXID44Error

  • Reason: NodeHasNvidiaXID44Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 44 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID44Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 44 error has occurred.

  • Graphics Engine fault during context switch

  • This usually means an uncorrectable error occurred on the GPU, and the error is also reported to the user application. A GPU reset or node restart is required to clear this error.

Ya

Restart node.

NvidiaXID61Error

Ya

  • Type: NvidiaXID61Error

  • Reason: NodeHasNvidiaXID61Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 61 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID61Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 61 error has occurred.

  • Internal micro-controller breakpoint/warning (newer drivers)

  • This usually means an uncorrectable error occurred on the GPU, and the error is also reported to the user application. A GPU reset or node restart is required to clear this error.

Ya

Restart node.

NvidiaXID62Error

Ya

  • Type: NvidiaXID62Error

  • Reason: NodeHasNvidiaXID62Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 62 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID62Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 62 error has occurred.

  • Internal micro-controller halt (newer drivers)

  • These anomalies mean an uncorrectable error occurred on the GPU, and the error is also reported to the user application. A GPU reset or node restart is required to clear this error.

Ya

Restart node.

NvidiaXID69Error

Ya

  • Type: NvidiaXID69Error

  • Reason: NodeHasNvidiaXID69Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 69 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID69Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID 69 error has occurred.

  • Graphics Engine class error

  • These anomalies mean an uncorrectable error occurred on the GPU, and the error is also reported to the user application. A GPU reset or node restart is required to clear this error.

Ya

Restart node.

NvidiaXID[code]Error

Tidak

Yes (generates only three events)

  • Type: Warning

  • Reason: NvidiaXID[code]Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An NVIDIA XID [code] error has occurred.

Other XIDs not listed in this table.

Tidak

Kirim tiket.

NvidiaSXID[code]Error

Tidak

Yes (generates only three events)

  • Type: Warning

  • Reason: NvidiaSXID[code]Error

  • Message: TS=xxx;NVSwitchIds=xxx;MSG=An NVIDIA SXID [code] error has occurred.

  • Error SXID dapat dibagi menjadi tiga kategori:

    • Correctable: The error has been corrected. System behavior is not affected by this type of error. No additional recovery is needed.

    • Fatal: The error is fatal to the device. System behavior is affected. The only way to recover from this error is to reset the device or restart the system.

    • Non-fatal: The error is not fatal to the device. System behavior is affected. Resetting the device or restarting the system may not be required.

Tidak

Tidak ada

Event terkait lainnya

Dalam skenario GPU eksklusif, NPD secara default memagari kartu GPU berdasarkan item pemeriksaan anomali. Setelah GPU dipagari, pod aplikasi GPU baru tidak akan ditugaskan ke GPU tersebut. Anda dapat memeriksa efek pemagaran dengan melihat jumlah sumber daya nvidia.com/gpu yang dilaporkan pada Node Kubernetes. Setelah kartu GPU pulih, ACK secara otomatis menonaktifkan pemagaran.

Pemicu

Konten event

Deskripsi

Pemagaran kartu GPU

Ya

  • Type: Warning

  • Reason: NvidiaDeviceIsolated

  • Message: GpuIds=xxx;MSG=nvidia device has been isolated due to detected issues.

The GPU card is fenced due to a detected anomaly.

Deaktivasi pemagaran kartu GPU

Ya

  • Type: Normal

  • Reason: NvidiaDeviceRecovered

  • Message: GpuIds=xxx;MSG=nvidia device has recovered from the fault.

The GPU card has recovered from the anomaly, and the fencing is deactivated.

FAQ

Bagaimana cara menonaktifkan pemagaran otomatis untuk kartu GPU abnormal di NPD?

Penting

Metode berikut untuk menonaktifkan fitur pemagaran GPU di NPD merupakan solusi sementara. Konfigurasi ini akan hilang saat Anda melakukan upgrade NPD. Anda harus menerapkan kembali konfigurasi ini dengan mengikuti langkah-langkah berikut setelah upgrade.

Latar belakang

Ketika GPU pada suatu node mengalami anomali, ACK secara otomatis memagari GPU yang rusak melalui NPD. Hal ini mencegah pekerjaan dijadwalkan ke GPU yang rusak. Namun, pemagaran otomatis tidak melakukan perbaikan otomatis. Anda tetap perlu melakukan restart atau memperbaiki node secara manual. Kami menyarankan Anda mengonfigurasi alert anomali GPU untuk memastikan penanganan yang cepat.

  • Setelah GPU dipagari, jika GPU yang tersisa pada node tidak mencukupi untuk kebutuhan pekerjaan (misalnya, pekerjaan 8-kartu saat hanya tersedia 7 kartu), pekerjaan tersebut akan gagal dijadwalkan. Hal ini dapat menyebabkan sumber daya GPU menganggur.

  • Setelah status GPU kembali normal, pemagaran pada perangkat GPU secara otomatis dinonaktifkan.

  • Untuk menonaktifkan pemagaran otomatis agar GPU yang rusak tetap melaporkan sumber daya dan tidak dipagari, lihat solusi berikut.

Solusi

  1. Nonaktifkan fitur pemagaran otomatis GPU di NPD.

    Untuk versi komponen 1.2.24 dan yang lebih baru, tetapi sebelum 1.2.28

    1. Edit file YAML komponen NPD.

      kubectl edit ds -n kube-system ack-node-problem-detector-daemonset
    2. Ubah konfigurasi EnabledIsolateGPU menjadi false.

      Sebelum:

       --EnabledIsolateGPU=true

      Setelah:

      --EnabledIsolateGPU=false

    Untuk versi komponen 1.2.28 dan yang lebih baru

    1. Edit file YAML komponen NPD.

      kubectl edit ds ack-accel-health-monitor -n kube-system
    2. Ubah konfigurasi GenerateNvidiaGpuIsolationFile menjadi false.

      Sebelum:

      --GenerateNvidiaGpuIsolationFile=true

      Setelah:

      --GenerateNvidiaGpuIsolationFile=false
  2. Nonaktifkan pemagaran GPU yang sudah ada.

    Untuk menghapus pemagaran yang sudah ada dari GPU, login ke node tempat terjadinya kesalahan XID dan hapus file /etc/nvidia-device-plugin/unhealthyDevices.json. Hal ini akan menonaktifkan pemagaran GPU pada node tersebut. Untuk mencegah GPU dipagari kembali, ikuti langkah-langkah pada bagian sebelumnya untuk menonaktifkan fitur pemagaran otomatis.