All Products
Search
Document Center

Container Service for Kubernetes:Deteksi kesalahan GPU dan pemagaran otomatis

Last Updated:May 16, 2026

ACK menggunakan komponen ack-node-problem-detector (ACK NPD) untuk memantau kesehatan GPU. Ketika node GPU mengalami pengecualian, seperti error XID atau SXID, ACK NPD secara otomatis mendeteksi GPU yang bermasalah dan bekerja sama dengan komponen ACK NVIDIA Device Plugin untuk memagarinya. Proses ini menjaga GPU yang sehat tetap tersedia untuk melayani beban kerja, meminimalkan dampak terhadap bisnis, serta meningkatkan keandalan dan efisiensi kluster.

ack-node-problem-detector (ACK NPD) adalah komponen pemantauan untuk anomali node kluster yang diadaptasi dan ditingkatkan oleh ACK dari proyek open-source node-problem-detector. Komponen ini menyediakan serangkaian pemeriksaan lengkap untuk anomali spesifik GPU guna meningkatkan deteksi kesalahan pada beban kerja GPU. Saat mendeteksi suatu anomali, komponen ini menghasilkan Event Kubernetes dan Kondisi Node berdasarkan jenis anomali tersebut.

Catatan penggunaan

  • Jika kartu GPU yang bermasalah diisolasi, tugas mungkin gagal dijadwalkan jika GPU yang tersisa pada node tidak dapat memenuhi persyaratan tugas. Misalnya, tugas yang memerlukan delapan kartu GPU tidak dapat dijalankan jika hanya tujuh yang tersedia. Hal ini dapat menyebabkan sumber daya GPU menganggur. Isolasi GPU otomatis bukanlah perbaikan otomatis, dan penagihan tetap berlaku untuk instans node tersebut. Anda tetap harus memperbaiki node tersebut. Kami merekomendasikan untuk mengonfigurasi peringatan pengecualian GPU guna memastikan remediasi tepat waktu. Isolasi akan dicabut secara otomatis begitu status GPU kembali normal.

    Anda juga dapat mengaktifkan atau menonaktifkan isolasi GPU otomatis sesuai kebutuhan bisnis Anda. Versi tertentu komponen NVIDIA Device Plugin mendukung isolasi otomatis untuk kartu GPU yang bermasalah, namun prosedur untuk menonaktifkan kemampuan ini bervariasi. Untuk petunjuk lengkap, lihat Cara menonaktifkan kemampuan isolasi GPU native dari NVIDIA Device Plugin.
  • XID dan SXID dari NVIDIA ditulis oleh driver GPU ke /var/log/messages atau /var/log/syslog melalui mekanisme event NVRM. ACK NPD melacak apakah setiap XID dan SXID telah diproses. Jika node direstart setelah XID atau SXID terdeteksi, ACK NPD menganggap masalah tersebut telah terselesaikan dan tidak akan menghasilkan Event atau Kondisi Node untuk itu, meskipun akar permasalahan belum diperbaiki. Misalnya, error XID 79 memerlukan penggantian perangkat GPU untuk diselesaikan, tetapi ACK NPD tetap akan menandai error tersebut sebagai terselesaikan setelah node direstart.

  • ACK NPD mendeteksi NVIDIA XID atau NVIDIA SXID dengan memeriksa file /var/log/messages atau /var/log/syslog pada node. Jika log dmesg dialihkan ke file lain, ACK NPD tidak dapat mendeteksi NVIDIA XID dan SXID.

  • Sejak versi ACK NPD 1.2.29, plug-in deteksi kesalahan GPU ACK NPD diterapkan sebagai DaemonSet terpisah bernama ack-accel-health-monitor.

  • Dalam beberapa kasus, kesalahan GPU pada suatu node dapat mencegah pembuatan kontainer GPU baru. Hal ini dapat menyebabkan kontainer deteksi kesalahan GPU itu sendiri gagal dimulai, sehingga proses deteksi tidak berjalan dengan benar.

  • Pod plug-in deteksi GPU ACK NPD memerlukan hak istimewa tinggi, seperti privileged=true, untuk mendeteksi status perangkat GPU dan komponen GPU. Untuk detailnya, lihat tabel di bawah.

    Izin RBAC kluster

    Izin kontainer

    Node: get

    Node/Status: update

    Events: create

    privileged: true

    Memasang /dev/kmsg host sebagai read-only.

    Memasang /usr/lib host sebagai read-only

    Memasang direktori /etc host sebagai read-only.

    Pemasangan read-only untuk /usr/lib64 host

    Memasang /proc host sebagai read-only

Isolasi GPU otomatis

Mulai dari versi 1.2.35 komponen ACK Node Problem Detector (ACK NPD) dan versi 0.7.0 komponen ACK NVIDIA Device Plugin, mekanisme isolasi GPU otomatis telah berubah dari pemicu default menjadi pemicu berbasis konfigurasi. Untuk informasi lebih lanjut, lihat [Perubahan Produk] Pengumuman Perubahan Fitur Isolasi GPU Otomatis.

  • Mekanisme lama (pemicu default)

    Saat komponen ACK Node Problem Detector mendeteksi kesalahan GPU, ia menghasilkan file isolasi GPU. Komponen ACK NVIDIA Device Plugin kemudian mengisolasi semua perangkat GPU yang tercantum dalam file tersebut. Sistem secara otomatis mengisolasi GPU setelah mendeteksi kesalahan tertentu. Anda dapat mengaktifkan atau menonaktifkan fitur ini dengan mengonfigurasi apakah akan menghasilkan file isolasi GPU.

  • Mekanisme baru (pemicu berbasis konfigurasi)

    Saat komponen ACK Node Problem Detector mendeteksi kesalahan GPU, ia menghasilkan laporan deteksi kesalahan. Komponen ACK NVIDIA Device Plugin menentukan apakah akan mengisolasi GPU berdasarkan laporan tersebut dan item pemeriksaan NPD yang Anda konfigurasikan sebagai pemicu isolasi. Secara default, tidak ada item pemicu yang dikonfigurasi untuk komponen ACK NVIDIA Device Plugin, sehingga isolasi GPU otomatis dinonaktifkan secara default. Anda dapat mengonfigurasi item pemeriksaan ini untuk menentukan kesalahan mana yang memicu isolasi GPU otomatis.

Untuk penerapan masing-masing mekanisme, lihat Perilaku isolasi GPU otomatis.

Catatan

Untuk kompatibilitas mundur, versi baru komponen ACK NPD akan terus menghasilkan file isolasi GPU dalam format lama. Namun, versi baru komponen ACK NVIDIA Device Plugin tidak lagi membaca file ini. Perilaku isolasi kini ditentukan semata-mata oleh konfigurasinya sendiri.

Perilaku isolasi GPU otomatis

  • Mekanisme baru hanya berlaku untuk kluster ACK yang menjalankan Kubernetes 1.32 atau lebih baru.

  • Untuk kluster yang menjalankan versi Kubernetes sebelum 1.32, isolasi GPU otomatis masih menggunakan mekanisme sebelumnya.

Tabel berikut merangkum perilaku isolasi GPU otomatis untuk berbagai versi komponen:

Versi ACK NPD

Versi ACK NVIDIA Device Plugin

Perilaku isolasi GPU otomatis

Aksi

Versi ACK NPD < 1.2.24

N/A

Deteksi anomali GPU tidak didukung.

N/A

Versi ACK NPD ≥ 1.2.24

Versi ACK NVIDIA Device Plugin < 0.7.0

Isolasi mengikuti mekanisme lama.

Ikuti prosedur lama.

1.2.24 ≤ Versi ACK NPD < 1.2.35

Versi ACK NVIDIA Device Plugin ≥ 0.7.0

Isolasi GPU otomatis dimatikan, tetapi fitur lain berfungsi sebagaimana mestinya.

Versi ACK NPD sebelumnya tidak menghasilkan laporan deteksi anomali. Akibatnya, ACK NVIDIA Device Plugin versi baru tidak dapat mengidentifikasi GPU yang bermasalah dan tidak melakukan isolasi otomatis.

N/A

Upgrade ACK NPD ke versi terbaru untuk menggunakan mekanisme baru.

Versi ACK NPD ≥ 1.2.35

Versi ini sedang dalam rilis canary. Kirim tiket untuk akses daftar putih.

Versi ACK NVIDIA Device Plugin ≥ 0.7.0

Versi ini sedang dalam rilis canary. Kirim tiket untuk akses daftar putih.

Isolasi mengikuti mekanisme baru.

Ikuti prosedur baru.

Untuk petunjuk cara memeriksa dan meningkatkan komponen ACK NPD dan ACK NVIDIA Device Plugin, lihat Periksa atau upgrade versi ACK NPD dan Periksa atau upgrade versi NVIDIA Device Plugin.

Mengaktifkan atau menonaktifkan isolasi GPU otomatis

Catatan

Jika Anda menonaktifkan isolasi GPU otomatis atau fitur tersebut tidak berfungsi, hanya isolasi otomatis GPU yang terpengaruh. Saat ACK NPD mendeteksi pengecualian GPU, ia tetap memicu Kondisi Node, Event Kubernetes, dan alarm berdasarkan item pemeriksaan ACK NPD, tetapi tidak secara otomatis mengisolasi GPU yang bermasalah.

Metode baru

Saat diaktifkan, GPU yang bermasalah akan secara otomatis diisolasi jika memicu item pemeriksaan ACK NPD yang dikonfigurasi. Isolasi otomatis bukanlah perbaikan otomatis. Instans node dengan GPU yang diisolasi tetap dikenai biaya. Anda tetap harus memperbaiki node tersebut. Kami merekomendasikan untuk mengonfigurasi alarm pengecualian GPU agar penanganan cepat dilakukan. Jika tidak ada item pemeriksaan yang dipilih, isolasi otomatis tidak akan dipicu.

  1. Masuk ke ACK console. Di panel navigasi kiri, klik Clusters.

  2. Pada halaman Clusters, klik nama kluster Anda. Di panel navigasi kiri, klik Add-ons.

  3. Di halaman manajemen komponen, cari komponen ack-nvidia-device-plugin dan klik Configuration pada kartunya.

  4. Pada kotak dialog yang muncul, aktifkan atau nonaktifkan isolasi GPU otomatis.

    • Aktifkan: Centang kotak centang Enable GPU Automatic Isolation, lalu pilih NPD check items to trigger GPU automatic isolation.

    • Nonaktifkan: Hapus centang pada kotak centang Enable GPU Automatic Isolation, atau jangan pilih item pemeriksaan apa pun.

Metode lama

Saat pengecualian GPU terdeteksi, komponen ack-node-problem-detector menghasilkan file isolasi GPU NVIDIA berdasarkan kebijakan isolasi default. Komponen ack-nvidia-device-plugin kemudian secara otomatis mengisolasi GPU yang bermasalah berdasarkan isi file tersebut. Hal ini mencegah beban kerja baru dijadwalkan ke GPU yang bermasalah, sementara GPU sehat lainnya pada node tetap tersedia untuk melayani beban kerja. Namun, isolasi otomatis tidak melakukan perbaikan otomatis. Instans node dengan GPU yang diisolasi tetap dikenai biaya. Anda tetap harus me-restart atau memperbaiki node secara manual. Kami merekomendasikan agar Anda mengonfigurasi alarm pengecualian GPU agar penanganan cepat dilakukan.

Catatan
  • Untuk ack-node-problem-detector v1.2.30 atau lebih baru, gunakan pengaturan generateNvidiaGpuIsolationFile di manajemen komponen untuk mengontrol isolasi otomatis GPU yang bermasalah.

  • Setelah Anda meningkatkan komponen, lihat Perilaku isolasi GPU otomatis untuk menentukan cara mengaktifkan atau menonaktifkan isolasi GPU otomatis untuk versi komponen baru.

  • Aktifkan: Dalam mekanisme lama, isolasi GPU otomatis diaktifkan secara default. Anda dapat mengaktifkannya kembali dengan mengatur generateNvidiaGpuIsolationFile (untuk v1.2.30 atau lebih baru) atau EnabledIsolateGPU (untuk v1.2.24 hingga v1.2.29) menjadi true.

  • Nonaktifkan:

    1. Pada halaman Clusters, klik nama kluster Anda. Di panel navigasi kiri, klik Components and Add-ons.

    2. Di tab Logs and Monitoring, temukan komponen ack-node-problem-detector dan ikuti langkah-langkah sesuai versi komponen Anda:

      • v1.2.24 hingga v1.2.29: Upgrade ke versi terbaru.

      • v1.2.30 dan lebih baru: Klik Configuration.

    3. Di halaman upgrade atau konfigurasi komponen, atur parameter generateNvidiaGpuIsolationFile menjadi false dan klik OK.

      Catatan

      Jika sebelumnya Anda menonaktifkan isolasi GPU otomatis pada versi 1.2.24 hingga 1.2.29 dengan memodifikasi ack-node-problem-detector-daemonset dan mengatur parameter EnabledIsolateGPU menjadi false, pengaturan ini akan dipertahankan secara otomatis saat Anda meningkatkan komponen ACK NPD. Jika ingin mengaktifkan kembali isolasi GPU otomatis, atur generateNvidiaGpuIsolationFile menjadi true.

    Untuk membatalkan isolasi GPU yang sudah ada, login ke node tempat terjadi error XID dan hapus file /etc/nvidia-device-plugin/unhealthyDevices.json. Untuk mencegah GPU diisolasi kembali, nonaktifkan fitur tersebut seperti yang dijelaskan sebelumnya.

Deteksi dan remediasi

Jika pengecualian GPU terdeteksi, lihat Nvidia Xid Errors untuk solusi. Anda juga dapat memeriksa konsol produk cloud terkait (seperti ECS atau Lingjun) untuk event O&M terkait, atau menggunakan tool diagnosis mandiri untuk memecahkan masalah pengecualian perangkat keras.

Penting

Pada tabel berikut, Auto-isolate Faulty GPU adalah perilaku isolasi default mekanisme lama. Dalam mekanisme baru, GPU diisolasi berdasarkan konfigurasi kustom Anda. Untuk detailnya, lihat mekanisme isolasi GPU otomatis.

Item pemeriksaan dan saran

Jika rekomendasi adalah None, tidak diperlukan tindakan pada perangkat keras; periksa konfigurasi aplikasi Anda sebagai gantinya.

Jenis error

Menghasilkan kondisi node

Menghasilkan event

Deskripsi

Dipagar secara otomatis

Hanya berlaku untuk mekanisme lama

Remediasi

NvidiaXID13Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID13Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 13 error has occurred.

  • Graphics Engine Exception.

  • Error ini biasanya disebabkan oleh akses array di luar batas atau instruksi ilegal. Masalah perangkat keras jarang menjadi penyebabnya.

Tidak

None

NvidiaXID31Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID31Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 31 error has occurred.

  • GPU memory page fault.

  • Error ini biasanya disebabkan oleh akses memori ilegal dari aplikasi. Lebih jarang disebabkan oleh masalah driver atau perangkat keras.

Tidak

None

NvidiaXID43Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID43Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 43 error has occurred.

  • GPU stopped processing.

  • Event ini dicatat ketika aplikasi Anda mengalami pengecualian yang disebabkan perangkat lunak dan harus dihentikan. GPU itu sendiri tetap dalam kondisi sehat.

  • Dalam kebanyakan kasus, ini menunjukkan kesalahan aplikasi, bukan masalah driver.

Tidak

None

NvidiaXID44Error

Ya

  • Type: NvidiaXID44Error

  • Reason: NodeHasNvidiaXID44Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 44 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID44Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 44 error has occurred.

  • Graphics Engine fault during context switch.

  • Kesalahan ini terjadi selama context switch.

Ya (ACK NPD <= 1.2.28)
Tidak (ACK NPD >= 1.2.30)

Restart node.

NvidiaXID45Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID45Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 45 error has occurred.

  • Preemptive cleanup, due to previous errors - Most likely to see when running multiple cuda applications and hitting a DBE.

  • Event ini dicatat ketika aplikasi dihentikan dan kernel driver mengakhiri aplikasi tersebut di GPU.

  • Contoh yang dapat memicu event ini termasuk menekan Control-C, melakukan reset GPU, atau mengirim sinyal sigkill.

  • Dalam banyak kasus, event ini merupakan hasil dari tindakan pengguna atau sistem, bukan kesalahan mendasar.

Tidak

None

NvidiaXID48Error

Ya

  • Type: NvidiaXID48Error

  • Reason: NodeHasNvidiaXID48Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 48 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID48Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 48 error has occurred.

  • Double Bit ECC Error(DBE).

  • Event ini dicatat ketika GPU mendeteksi kesalahan yang tidak dapat dikoreksi. Aplikasi juga diberi tahu tentang kondisi ini. Diperlukan reset GPU atau restart node untuk menghapus error ini.

Ya

Restart node.

NvidiaXID61Error

Ya

  • Type: NvidiaXID61Error

  • Reason: NodeHasNvidiaXID61Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 61 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID61Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 61 error has occurred.

  • Internal micro-controller breakpoint/warning (newer drivers).

Ya (ACK NPD <= 1.2.28)
Tidak (ACK NPD >= 1.2.30)

Mulai ulang node.

NvidiaXID62Error

Ya

  • Type: NvidiaXID62Error

  • Reason: NodeHasNvidiaXID62Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 62 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID62Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 62 error has occurred.

  • Internal micro-controller halt (newer drivers).

Ya

Restart node.

NvidiaXID63Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID63Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 63 error has occurred.

  • ECC page retirement or row remapping recording event.

  • Ketika aplikasi mengalami masalah perangkat keras memori GPU, mekanisme koreksi otomatis NVIDIA menonaktifkan atau memetakan ulang wilayah memori yang bermasalah. Informasi pensiunan dan pemetaan ulang ini harus dicatat ke infoROM agar berlaku secara permanen.

  • Arsitektur Volta: Event pensiunan halaman ECC berhasil dicatat ke infoROM.

  • Arsitektur Ampere: Event pemetaan ulang baris berhasil dicatat ke infoROM.

Tidak

None

NvidiaXID64Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID64Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 64 error has occurred.

  • ECC page retirement or row remapper recording failure.

  • Seperti Xid 63, event ini terkait dengan pemetaan ulang memori. Namun, Xid 64 menunjukkan kegagalan pencatatan, sedangkan Xid 63 menunjukkan keberhasilan.

Tidak

None

NvidiaXID69Error

Ya

  • Type: NvidiaXID69Error

  • Reason: NodeHasNvidiaXID69Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 69 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID69Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 69 error has occurred.

  • Graphics Engine class error.

Ya (ACK NPD <= 1.2.28)
Tidak (ACK NPD >= 1.2.30)

Restart node.

NvidiaXID74Error

Ya

  • Type: NvidiaXID74Error

  • Reason: NodeHasNvidiaXID74Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 74 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID74Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 74 error has occurred.

  • Fatal NVLINK Error.

  • Error perangkat keras NVLink menghasilkan XID ini.

Ya

Perbaikan perangkat keras.

NvidiaXID79Error

Ya

  • Type: NvidiaXID79Error

  • Reason: NodeHasNvidiaXID79Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 79 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID79Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 79 error has occurred.

  • GPU has fallen off the bus.

  • GPU telah lepas dari bus, sehingga tidak terdeteksi.

Ya

Perbaikan perangkat keras.

NvidiaXID94Error

Tidak

Ya

  • Type: Warning

  • Reason: NvidiaXID94Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 94 error has occurred.

  • Contained ECC error.

  • Mekanisme penahanan kesalahan NVIDIA berusaha membatasi kesalahan ECC yang tidak dapat dikoreksi hanya pada aplikasi asalnya. Hal ini mencegah kesalahan memengaruhi aplikasi lain di GPU. Xid 94 dihasilkan ketika penahanan berhasil, artinya hanya aplikasi yang mengalami kesalahan yang terpengaruh.

Tidak

None

NvidiaXID95Error

Ya

  • Type: NvidiaXID95Error

  • Reason: NodeHasNvidiaXID95Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 95 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID95Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 95 error has occurred.

  • Uncontained ECC error.

  • Xid 95 menunjukkan bahwa penahanan kesalahan gagal, sehingga memengaruhi semua aplikasi di GPU. GPU harus di-reset sebelum aplikasi dapat dijalankan kembali.

Ya

Restart node.

NvidiaXID109Error

Ya

  • Type: NvidiaXID109Error

  • Reason: NodeHasNvidiaXID109Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 109 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID109Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 109 error has occurred.

  • Context Switch Timeout Error.

Ya (ACK NPD <= 1.2.28)
Tidak (ACK NPD >= 1.2.30)

None

NvidiaXID119Error

Ya

  • Type: NvidiaXID119Error

  • Reason: NodeHasNvidiaXID119Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 119 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID119Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 119 error has occurred.

  • GSP RPC Timeout.

  • Terjadi timeout saat menunggu respons terhadap pesan RPC dari core GSP.

Ya

Restart node.

NvidiaXID120Error

Ya

  • Type: NvidiaXID120Error

  • Reason: NodeHasNvidiaXID120Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 120 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID120Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 120 error has occurred.

  • GSP Error.

  • Terjadi kesalahan dalam kode yang berjalan di core GSP GPU.

Ya

Restart node.

NvidiaXID140Error

Ya

  • Type: NvidiaXID140Error

  • Reason: NodeHasNvidiaXID140Error

  • Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 140 error has occurred.

Ya

  • Type: Warning

  • Reason: NvidiaXID140Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 140 error has occurred.

  • Unrecovered ECC Error.

  • Event ini dapat terjadi ketika driver GPU mendeteksi kesalahan yang tidak dapat dikoreksi di memori GPU yang memengaruhi kemampuannya untuk menandai halaman guna penonaktifan halaman dinamis atau pemetaan ulang baris. Diperlukan reset GPU.

Ya

Restart node.

NvidiaXID[code]Error

Tidak

Ya (event hanya dihasilkan tiga kali)

  • Type: Warning

  • Reason: NvidiaXID[code]Error

  • Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid [code] error has occurred.

Error XID lain yang tidak tercantum dalam tabel ini.

Tidak

Kirim tiket.

NvidiaSXID[code]Error

Tidak

Ya (event hanya dihasilkan tiga kali)

  • Type: Warning

  • Reason: NvidiaSXID[code]Error

  • Message: TS=xxx;NVSwitchIds=xxx;MSG=An nvidia sxid [code] error has occurred.

  • Error SXID diklasifikasikan ke dalam tiga kategori:

    • Correctable: Kesalahan dikoreksi secara otomatis tanpa memengaruhi perilaku sistem. Tidak diperlukan tindakan.

    • Fatal: Kesalahan bersifat fatal bagi perangkat dan memengaruhi perilaku sistem. Pemulihan memerlukan reset perangkat atau restart sistem.

    • Non-fatal: Kesalahan tidak fatal bagi perangkat tetapi memengaruhi perilaku sistem. Reset perangkat atau restart sistem mungkin tidak diperlukan.

Tidak

None

NvidiaEccModeNotEnabled

Ya

  • Type: NvidiaEccModeNotEnabled

  • Reason: EccModeNotEnabled

  • Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.

Ya (event dihasilkan terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaEccModeNotEnabled

  • Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.

Mode ECC tidak diaktifkan pada node.

Tidak

Aktifkan mode ECC dan restart node.

NvidiaPendingRetiredPages

Ya

  • Type: NvidiaPendingRetiredPages

  • Reason: NodeHasNvidiaPendingRetiredPages

  • Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.

Ya (event dihasilkan terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaPendingRetiredPages

  • Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.

  • GPU memiliki halaman yang dipensiunkan dalam status tertunda.

  • Diperlukan reset GPU untuk menerapkan pensiunan halaman yang tertunda.

Ya

Restart node.

NvidiaRemappingRowsFailed

Ya

  • Type: NvidiaRemappingRowsFailed

  • Reason: GPUMemoryRemappingRowsFailed

  • Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row mapping.

Ya (event dihasilkan terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaRemappingRowsFailed

  • Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row mapping.

GPU mengalami kegagalan pemetaan ulang baris.

Ya

Perbaikan perangkat keras.

NvidiaRemappingRowsRequireReset

Ya

  • Type: NvidiaRemappingRowsRequireReset

  • Reason: UncontainedEccError

  • Message: GpuIds=xxx;MSG=Remapping rows requires GPU reset.

Ya (event dihasilkan terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaRemappingRowsRequireReset

  • Message: GpuIds=xxx;MSG=Remapping rows requires GPU reset.

GPU mengalami kesalahan yang tidak dapat dikoreksi dan tidak tertahan yang memerlukan reset GPU untuk pemulihan. Segera reset GPU untuk mengembalikan operasi.

Ya (ACK NPD <= 1.2.28)
Tidak (ACK NPD >= 1.2.30)

Restart node.

NvidiaDeviceLost

Ya

  • Type: NvidiaDeviceLost

  • Reason: NodeHasNvidiaDeviceLost

  • Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible

Ya (event dihasilkan terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaDeviceLost

  • Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible.

  • The GPU has fallen off the bus or has otherwise become inaccessible.

Ya

Perbaikan perangkat keras.

NvidiaInfoRomCorrupted

Ya

  • Type: NvidiaInfoRomCorrupted

  • Reason: NodeHasNvidiaInfoRomCorrupted

  • Message: GpuIds=xxx;MSG=GPU infoROM is corrupted

Ya (event dihasilkan terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaInfoRomCorrupted

  • Message: GpuIds=xxx;MSG=GPU infoROM is corrupted.

  • infoROM is corrupted.

Ya

Perbaikan perangkat keras.

NvidiaPowerCableErr

Ya

  • Type: NvidiaPowerCableErr

  • Reason: NodeHasNvidiaPowerCableErr

  • Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached

Ya (event dihasilkan terus-menerus hingga masalah diperbaiki)

  • Type: Warning

  • Reason: NvidiaPowerCableErr

  • Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached.

  • A device's external power cables are not properly attached.

Ya

Perbaikan perangkat keras.

NvidiaPersistencedOffline

Ya

  • Type: NvidiaPersistencedOffline

  • Reason: NodeHasNvidiaPersistencedOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Persistenced service is not running.

Ya

  • Type: Warning

  • Reason: NvidiaPersistencedOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Persistenced service is not running.

Layanan NVIDIA Persistenced tidak berjalan.

Tidak

Restart layanan nvidia-persistenced.

NvidiaFabricManagerOffline

Ya

  • Type: NvidiaFabricManagerOffline

  • Reason: NodeHasNvidiaFabricManagerOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Fabric Manager service is not running.

Ya

  • Type: Warning

  • Reason: NvidiaFabricManagerOffline

  • Message: TS=xxx;GpuIds=xxx;Nvidia Fabric Manager service is not running.

Layanan NVIDIA Fabric Manager tidak berjalan.

Tidak

Restart layanan Fabric Manager.

NvidiaTemperatureHigh

Ya

  • Type: NvidiaTemperatureHigh

  • Reason: NodeHasNvidiaTemperatureHigh

  • Message: TS=xxx;GpuIds=xxx;Nvidia gpu temperature exceeds threshold

Ya

  • Type: Warning

  • Reason: NvidiaTemperatureHigh

  • Message: TS=xxx;GpuIds=xxx;Nvidia gpu temperature exceeds threshold

Suhu GPU telah melebihi 100°C.

Tidak

None

Event terkait lainnya

Dalam skenario GPU khusus, mekanisme lama secara otomatis mengisolasi GPU yang bermasalah, sedangkan mekanisme baru mengharuskan Anda mengonfigurasi pemicu di manajemen komponen. Setelah isolasi, Pod aplikasi GPU baru tidak dijadwalkan pada kartu GPU tersebut. Untuk memverifikasi isolasi, periksa jumlah sumber daya nvidia.com/gpu yang dilaporkan oleh Node Kubernetes. Setelah kartu GPU pulih, ACK secara otomatis melepaskannya dari isolasi.

Alasan pemicu

Konten event

Deskripsi

Isolasi GPU

Ya

  • Type: Warning

  • Reason: NvidiaDeviceIsolated

  • Message: GpuIds=xxx;MSG=nvidia device has been isolated due to detected issues.

Sistem mengisolasi kartu GPU setelah mendeteksi masalah.

Pelepasan GPU dari isolasi

Ya

  • Type: Normal

  • Reason: NvidiaDeviceRecovered

  • Message: GpuIds=xxx;MSG=nvidia device has recovered from the fault.

Kartu GPU pulih, dan ACK melepaskannya dari isolasi.