Deteksi kesalahan GPU dan pemagaran otomatis - Container Service for Kubernetes

ACK menggunakan komponen ack-node-problem-detector (ACK NPD) untuk memantau kesehatan GPU. Ketika node GPU mengalami pengecualian, seperti error XID atau SXID, ACK NPD secara otomatis mendeteksi GPU yang bermasalah dan bekerja sama dengan komponen ACK NVIDIA Device Plugin untuk memagarinya. Proses ini menjaga GPU yang sehat tetap tersedia untuk melayani beban kerja, meminimalkan dampak terhadap bisnis, serta meningkatkan keandalan dan efisiensi kluster.

ack-node-problem-detector (ACK NPD) adalah komponen pemantauan untuk anomali node kluster yang diadaptasi dan ditingkatkan oleh ACK dari proyek open-source node-problem-detector. Komponen ini menyediakan serangkaian pemeriksaan lengkap untuk anomali spesifik GPU guna meningkatkan deteksi kesalahan pada beban kerja GPU. Saat mendeteksi suatu anomali, komponen ini menghasilkan Event Kubernetes dan Kondisi Node berdasarkan jenis anomali tersebut.

Catatan penggunaan

Jika kartu GPU yang bermasalah diisolasi, tugas mungkin gagal dijadwalkan jika GPU yang tersisa pada node tidak dapat memenuhi persyaratan tugas. Misalnya, tugas yang memerlukan delapan kartu GPU tidak dapat dijalankan jika hanya tujuh yang tersedia. Hal ini dapat menyebabkan sumber daya GPU menganggur. Isolasi GPU otomatis bukanlah perbaikan otomatis, dan penagihan tetap berlaku untuk instans node tersebut. Anda tetap harus memperbaiki node tersebut. Kami merekomendasikan untuk mengonfigurasi peringatan pengecualian GPU guna memastikan remediasi tepat waktu. Isolasi akan dicabut secara otomatis begitu status GPU kembali normal.
Anda juga dapat mengaktifkan atau menonaktifkan isolasi GPU otomatis sesuai kebutuhan bisnis Anda. Versi tertentu komponen NVIDIA Device Plugin mendukung isolasi otomatis untuk kartu GPU yang bermasalah, namun prosedur untuk menonaktifkan kemampuan ini bervariasi. Untuk petunjuk lengkap, lihat Cara menonaktifkan kemampuan isolasi GPU native dari NVIDIA Device Plugin.
XID dan SXID dari NVIDIA ditulis oleh driver GPU ke /var/log/messages atau /var/log/syslog melalui mekanisme event NVRM. ACK NPD melacak apakah setiap XID dan SXID telah diproses. Jika node direstart setelah XID atau SXID terdeteksi, ACK NPD menganggap masalah tersebut telah terselesaikan dan tidak akan menghasilkan Event atau Kondisi Node untuk itu, meskipun akar permasalahan belum diperbaiki. Misalnya, error XID 79 memerlukan penggantian perangkat GPU untuk diselesaikan, tetapi ACK NPD tetap akan menandai error tersebut sebagai terselesaikan setelah node direstart.
ACK NPD mendeteksi NVIDIA XID atau NVIDIA SXID dengan memeriksa file /var/log/messages atau /var/log/syslog pada node. Jika log dmesg dialihkan ke file lain, ACK NPD tidak dapat mendeteksi NVIDIA XID dan SXID.
Sejak versi ACK NPD 1.2.29, plug-in deteksi kesalahan GPU ACK NPD diterapkan sebagai DaemonSet terpisah bernama ack-accel-health-monitor.
Dalam beberapa kasus, kesalahan GPU pada suatu node dapat mencegah pembuatan kontainer GPU baru. Hal ini dapat menyebabkan kontainer deteksi kesalahan GPU itu sendiri gagal dimulai, sehingga proses deteksi tidak berjalan dengan benar.

Pod plug-in deteksi GPU ACK NPD memerlukan hak istimewa tinggi, seperti privileged=true, untuk mendeteksi status perangkat GPU dan komponen GPU. Untuk detailnya, lihat tabel di bawah.

Izin RBAC kluster

Izin kontainer

Node: get

Node/Status: update

Events: create

privileged: true

Memasang /dev/kmsg host sebagai read-only.

Memasang /usr/lib host sebagai read-only

Memasang direktori /etc host sebagai read-only.

Pemasangan read-only untuk /usr/lib64 host

Memasang /proc host sebagai read-only

Isolasi GPU otomatis

Mulai dari versi 1.2.35 komponen ACK Node Problem Detector (ACK NPD) dan versi 0.7.0 komponen ACK NVIDIA Device Plugin, mekanisme isolasi GPU otomatis telah berubah dari pemicu default menjadi pemicu berbasis konfigurasi. Untuk informasi lebih lanjut, lihat [Perubahan Produk] Pengumuman Perubahan Fitur Isolasi GPU Otomatis.

Mekanisme lama (pemicu default)
Saat komponen ACK Node Problem Detector mendeteksi kesalahan GPU, ia menghasilkan file isolasi GPU. Komponen ACK NVIDIA Device Plugin kemudian mengisolasi semua perangkat GPU yang tercantum dalam file tersebut. Sistem secara otomatis mengisolasi GPU setelah mendeteksi kesalahan tertentu. Anda dapat mengaktifkan atau menonaktifkan fitur ini dengan mengonfigurasi apakah akan menghasilkan file isolasi GPU.
Mekanisme baru (pemicu berbasis konfigurasi)
Saat komponen ACK Node Problem Detector mendeteksi kesalahan GPU, ia menghasilkan laporan deteksi kesalahan. Komponen ACK NVIDIA Device Plugin menentukan apakah akan mengisolasi GPU berdasarkan laporan tersebut dan item pemeriksaan NPD yang Anda konfigurasikan sebagai pemicu isolasi. Secara default, tidak ada item pemicu yang dikonfigurasi untuk komponen ACK NVIDIA Device Plugin, sehingga isolasi GPU otomatis dinonaktifkan secara default. Anda dapat mengonfigurasi item pemeriksaan ini untuk menentukan kesalahan mana yang memicu isolasi GPU otomatis.

Untuk penerapan masing-masing mekanisme, lihat Perilaku isolasi GPU otomatis.

Catatan

Untuk kompatibilitas mundur, versi baru komponen ACK NPD akan terus menghasilkan file isolasi GPU dalam format lama. Namun, versi baru komponen ACK NVIDIA Device Plugin tidak lagi membaca file ini. Perilaku isolasi kini ditentukan semata-mata oleh konfigurasinya sendiri.

Perilaku isolasi GPU otomatis

Mekanisme baru hanya berlaku untuk kluster ACK yang menjalankan Kubernetes 1.32 atau lebih baru.
Untuk kluster yang menjalankan versi Kubernetes sebelum 1.32, isolasi GPU otomatis masih menggunakan mekanisme sebelumnya.

Tabel berikut merangkum perilaku isolasi GPU otomatis untuk berbagai versi komponen:

Versi ACK NPD	Versi ACK NVIDIA Device Plugin	Perilaku isolasi GPU otomatis	Aksi
Versi ACK NPD < 1.2.24	N/A	Deteksi anomali GPU tidak didukung.	N/A
Versi ACK NPD ≥ 1.2.24	Versi ACK NVIDIA Device Plugin < 0.7.0	Isolasi mengikuti mekanisme lama.	Ikuti prosedur lama.
1.2.24 ≤ Versi ACK NPD < 1.2.35	Versi ACK NVIDIA Device Plugin ≥ 0.7.0	Isolasi GPU otomatis dimatikan, tetapi fitur lain berfungsi sebagaimana mestinya. Versi ACK NPD sebelumnya tidak menghasilkan laporan deteksi anomali. Akibatnya, ACK NVIDIA Device Plugin versi baru tidak dapat mengidentifikasi GPU yang bermasalah dan tidak melakukan isolasi otomatis.	N/A Upgrade ACK NPD ke versi terbaru untuk menggunakan mekanisme baru.
Versi ACK NPD ≥ 1.2.35 Versi ini sedang dalam rilis canary. Kirim tiket untuk akses daftar putih.	Versi ACK NVIDIA Device Plugin ≥ 0.7.0 Versi ini sedang dalam rilis canary. Kirim tiket untuk akses daftar putih.	Isolasi mengikuti mekanisme baru.	Ikuti prosedur baru.

Untuk petunjuk cara memeriksa dan meningkatkan komponen ACK NPD dan ACK NVIDIA Device Plugin, lihat Periksa atau upgrade versi ACK NPD dan Periksa atau upgrade versi NVIDIA Device Plugin.

Mengaktifkan atau menonaktifkan isolasi GPU otomatis

Catatan

Jika Anda menonaktifkan isolasi GPU otomatis atau fitur tersebut tidak berfungsi, hanya isolasi otomatis GPU yang terpengaruh. Saat ACK NPD mendeteksi pengecualian GPU, ia tetap memicu Kondisi Node, Event Kubernetes, dan alarm berdasarkan item pemeriksaan ACK NPD, tetapi tidak secara otomatis mengisolasi GPU yang bermasalah.

Metode baru

Saat diaktifkan, GPU yang bermasalah akan secara otomatis diisolasi jika memicu item pemeriksaan ACK NPD yang dikonfigurasi. Isolasi otomatis bukanlah perbaikan otomatis. Instans node dengan GPU yang diisolasi tetap dikenai biaya. Anda tetap harus memperbaiki node tersebut. Kami merekomendasikan untuk mengonfigurasi alarm pengecualian GPU agar penanganan cepat dilakukan. Jika tidak ada item pemeriksaan yang dipilih, isolasi otomatis tidak akan dipicu.

Masuk ke ACK console. Di panel navigasi kiri, klik Clusters.
Pada halaman Clusters, klik nama kluster Anda. Di panel navigasi kiri, klik Add-ons.
Di halaman manajemen komponen, cari komponen ack-nvidia-device-plugin dan klik Configuration pada kartunya.
Pada kotak dialog yang muncul, aktifkan atau nonaktifkan isolasi GPU otomatis.
- Aktifkan: Centang kotak centang Enable GPU Automatic Isolation, lalu pilih NPD check items to trigger GPU automatic isolation.
- Nonaktifkan: Hapus centang pada kotak centang Enable GPU Automatic Isolation, atau jangan pilih item pemeriksaan apa pun.

Metode lama

Saat pengecualian GPU terdeteksi, komponen ack-node-problem-detector menghasilkan file isolasi GPU NVIDIA berdasarkan kebijakan isolasi default. Komponen ack-nvidia-device-plugin kemudian secara otomatis mengisolasi GPU yang bermasalah berdasarkan isi file tersebut. Hal ini mencegah beban kerja baru dijadwalkan ke GPU yang bermasalah, sementara GPU sehat lainnya pada node tetap tersedia untuk melayani beban kerja. Namun, isolasi otomatis tidak melakukan perbaikan otomatis. Instans node dengan GPU yang diisolasi tetap dikenai biaya. Anda tetap harus me-restart atau memperbaiki node secara manual. Kami merekomendasikan agar Anda mengonfigurasi alarm pengecualian GPU agar penanganan cepat dilakukan.

Catatan

Untuk ack-node-problem-detector v1.2.30 atau lebih baru, gunakan pengaturan generateNvidiaGpuIsolationFile di manajemen komponen untuk mengontrol isolasi otomatis GPU yang bermasalah.
Setelah Anda meningkatkan komponen, lihat Perilaku isolasi GPU otomatis untuk menentukan cara mengaktifkan atau menonaktifkan isolasi GPU otomatis untuk versi komponen baru.

Aktifkan: Dalam mekanisme lama, isolasi GPU otomatis diaktifkan secara default. Anda dapat mengaktifkannya kembali dengan mengatur generateNvidiaGpuIsolationFile (untuk v1.2.30 atau lebih baru) atau EnabledIsolateGPU (untuk v1.2.24 hingga v1.2.29) menjadi true.
Nonaktifkan:
1. Pada halaman Clusters, klik nama kluster Anda. Di panel navigasi kiri, klik Components and Add-ons.
2. Di tab Logs and Monitoring, temukan komponen ack-node-problem-detector dan ikuti langkah-langkah sesuai versi komponen Anda:
  - v1.2.24 hingga v1.2.29: Upgrade ke versi terbaru.
  - v1.2.30 dan lebih baru: Klik Configuration.
3. Di halaman upgrade atau konfigurasi komponen, atur parameter generateNvidiaGpuIsolationFile menjadi false dan klik OK.
  Catatan
  Jika sebelumnya Anda menonaktifkan isolasi GPU otomatis pada versi 1.2.24 hingga 1.2.29 dengan memodifikasi ack-node-problem-detector-daemonset dan mengatur parameter EnabledIsolateGPU menjadi false, pengaturan ini akan dipertahankan secara otomatis saat Anda meningkatkan komponen ACK NPD. Jika ingin mengaktifkan kembali isolasi GPU otomatis, atur generateNvidiaGpuIsolationFile menjadi true.
Untuk membatalkan isolasi GPU yang sudah ada, login ke node tempat terjadi error XID dan hapus file /etc/nvidia-device-plugin/unhealthyDevices.json. Untuk mencegah GPU diisolasi kembali, nonaktifkan fitur tersebut seperti yang dijelaskan sebelumnya.

Deteksi dan remediasi

Jika pengecualian GPU terdeteksi, lihat Nvidia Xid Errors untuk solusi. Anda juga dapat memeriksa konsol produk cloud terkait (seperti ECS atau Lingjun) untuk event O&M terkait, atau menggunakan tool diagnosis mandiri untuk memecahkan masalah pengecualian perangkat keras.

Penting

Pada tabel berikut, Auto-isolate Faulty GPU adalah perilaku isolasi default mekanisme lama. Dalam mekanisme baru, GPU diisolasi berdasarkan konfigurasi kustom Anda. Untuk detailnya, lihat mekanisme isolasi GPU otomatis.

Item pemeriksaan dan saran

Jika rekomendasi adalah None, tidak diperlukan tindakan pada perangkat keras; periksa konfigurasi aplikasi Anda sebagai gantinya.

Jenis error	Menghasilkan kondisi node	Menghasilkan event	Deskripsi	Dipagar secara otomatis Hanya berlaku untuk mekanisme lama	Remediasi
NvidiaXID13Error	Tidak	Ya `Type: Warning` `Reason: NvidiaXID13Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 13 error has occurred.`	`Graphics Engine Exception.` Error ini biasanya disebabkan oleh akses array di luar batas atau instruksi ilegal. Masalah perangkat keras jarang menjadi penyebabnya.	Tidak	None
NvidiaXID31Error	Tidak	Ya `Type: Warning` `Reason: NvidiaXID31Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 31 error has occurred.`	`GPU memory page fault.` Error ini biasanya disebabkan oleh akses memori ilegal dari aplikasi. Lebih jarang disebabkan oleh masalah driver atau perangkat keras.	Tidak	None
NvidiaXID43Error	Tidak	Ya `Type: Warning` `Reason: NvidiaXID43Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 43 error has occurred.`	`GPU stopped processing.` Event ini dicatat ketika aplikasi Anda mengalami pengecualian yang disebabkan perangkat lunak dan harus dihentikan. GPU itu sendiri tetap dalam kondisi sehat. Dalam kebanyakan kasus, ini menunjukkan kesalahan aplikasi, bukan masalah driver.	Tidak	None
NvidiaXID44Error	Ya `Type: NvidiaXID44Error` `Reason: NodeHasNvidiaXID44Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 44 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID44Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 44 error has occurred.`	`Graphics Engine fault during context switch.` Kesalahan ini terjadi selama context switch.	Ya (ACK NPD <= 1.2.28) Tidak (ACK NPD >= 1.2.30)	Restart node.
NvidiaXID45Error	Tidak	Ya `Type: Warning` `Reason: NvidiaXID45Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 45 error has occurred.`	`Preemptive cleanup, due to previous errors - Most likely to see when running multiple cuda applications and hitting a DBE.` Event ini dicatat ketika aplikasi dihentikan dan kernel driver mengakhiri aplikasi tersebut di GPU. Contoh yang dapat memicu event ini termasuk menekan Control-C, melakukan reset GPU, atau mengirim sinyal `sigkill`. Dalam banyak kasus, event ini merupakan hasil dari tindakan pengguna atau sistem, bukan kesalahan mendasar.	Tidak	None
NvidiaXID48Error	Ya `Type: NvidiaXID48Error` `Reason: NodeHasNvidiaXID48Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 48 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID48Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 48 error has occurred.`	`Double Bit ECC Error(DBE).` Event ini dicatat ketika GPU mendeteksi kesalahan yang tidak dapat dikoreksi. Aplikasi juga diberi tahu tentang kondisi ini. Diperlukan reset GPU atau restart node untuk menghapus error ini.	Ya	Restart node.
NvidiaXID61Error	Ya `Type: NvidiaXID61Error` `Reason: NodeHasNvidiaXID61Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 61 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID61Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 61 error has occurred.`	`Internal micro-controller breakpoint/warning (newer drivers).`	Ya (ACK NPD <= 1.2.28) Tidak (ACK NPD >= 1.2.30)	Mulai ulang node.
NvidiaXID62Error	Ya `Type: NvidiaXID62Error` `Reason: NodeHasNvidiaXID62Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 62 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID62Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 62 error has occurred.`	`Internal micro-controller halt (newer drivers).`	Ya	Restart node.
NvidiaXID63Error	Tidak	Ya `Type: Warning` `Reason: NvidiaXID63Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 63 error has occurred.`	`ECC page retirement or row remapping recording event.` Ketika aplikasi mengalami masalah perangkat keras memori GPU, mekanisme koreksi otomatis NVIDIA menonaktifkan atau memetakan ulang wilayah memori yang bermasalah. Informasi pensiunan dan pemetaan ulang ini harus dicatat ke infoROM agar berlaku secara permanen. Arsitektur Volta: Event pensiunan halaman ECC berhasil dicatat ke infoROM. Arsitektur Ampere: Event pemetaan ulang baris berhasil dicatat ke infoROM.	Tidak	None
NvidiaXID64Error	Tidak	Ya `Type: Warning` `Reason: NvidiaXID64Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 64 error has occurred.`	`ECC page retirement or row remapper recording failure.` Seperti `Xid 63`, event ini terkait dengan pemetaan ulang memori. Namun, `Xid 64` menunjukkan kegagalan pencatatan, sedangkan `Xid 63` menunjukkan keberhasilan.	Tidak	None
NvidiaXID69Error	Ya `Type: NvidiaXID69Error` `Reason: NodeHasNvidiaXID69Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 69 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID69Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 69 error has occurred.`	`Graphics Engine class error.`	Ya (ACK NPD <= 1.2.28) Tidak (ACK NPD >= 1.2.30)	Restart node.
NvidiaXID74Error	Ya `Type: NvidiaXID74Error` `Reason: NodeHasNvidiaXID74Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 74 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID74Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 74 error has occurred.`	`Fatal NVLINK Error.` Error perangkat keras NVLink menghasilkan XID ini.	Ya	Perbaikan perangkat keras.
NvidiaXID79Error	Ya `Type: NvidiaXID79Error` `Reason: NodeHasNvidiaXID79Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 79 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID79Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 79 error has occurred.`	`GPU has fallen off the bus.` GPU telah lepas dari bus, sehingga tidak terdeteksi.	Ya	Perbaikan perangkat keras.
NvidiaXID94Error	Tidak	Ya `Type: Warning` `Reason: NvidiaXID94Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 94 error has occurred.`	`Contained ECC error.` Mekanisme penahanan kesalahan NVIDIA berusaha membatasi kesalahan ECC yang tidak dapat dikoreksi hanya pada aplikasi asalnya. Hal ini mencegah kesalahan memengaruhi aplikasi lain di GPU. `Xid 94` dihasilkan ketika penahanan berhasil, artinya hanya aplikasi yang mengalami kesalahan yang terpengaruh.	Tidak	None
NvidiaXID95Error	Ya `Type: NvidiaXID95Error` `Reason: NodeHasNvidiaXID95Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 95 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID95Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 95 error has occurred.`	`Uncontained ECC error.` `Xid 95` menunjukkan bahwa penahanan kesalahan gagal, sehingga memengaruhi semua aplikasi di GPU. GPU harus di-reset sebelum aplikasi dapat dijalankan kembali.	Ya	Restart node.
NvidiaXID109Error	Ya `Type: NvidiaXID109Error` `Reason: NodeHasNvidiaXID109Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 109 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID109Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 109 error has occurred.`	`Context Switch Timeout Error.`	Ya (ACK NPD <= 1.2.28) Tidak (ACK NPD >= 1.2.30)	None
NvidiaXID119Error	Ya `Type: NvidiaXID119Error` `Reason: NodeHasNvidiaXID119Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 119 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID119Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 119 error has occurred.`	`GSP RPC Timeout.` Terjadi timeout saat menunggu respons terhadap pesan RPC dari core GSP.	Ya	Restart node.
NvidiaXID120Error	Ya `Type: NvidiaXID120Error` `Reason: NodeHasNvidiaXID120Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 120 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID120Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 120 error has occurred.`	`GSP Error.` Terjadi kesalahan dalam kode yang berjalan di core GSP GPU.	Ya	Restart node.
NvidiaXID140Error	Ya `Type: NvidiaXID140Error` `Reason: NodeHasNvidiaXID140Error` `Message: TS=xxx;GpuIds=xxx;MSG=An NVIDIA XID 140 error has occurred.`	Ya `Type: Warning` `Reason: NvidiaXID140Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid 140 error has occurred.`	`Unrecovered ECC Error.` Event ini dapat terjadi ketika driver GPU mendeteksi kesalahan yang tidak dapat dikoreksi di memori GPU yang memengaruhi kemampuannya untuk menandai halaman guna penonaktifan halaman dinamis atau pemetaan ulang baris. Diperlukan reset GPU.	Ya	Restart node.
NvidiaXID[code]Error	Tidak	Ya (event hanya dihasilkan tiga kali) `Type: Warning` `Reason: NvidiaXID[code]Error` `Message: GpuIds=xxx;TS=xxx;Xid=xxx;MSG=An nvidia xid [code] error has occurred.`	Error XID lain yang tidak tercantum dalam tabel ini.	Tidak	Kirim tiket.
NvidiaSXID[code]Error	Tidak	Ya (event hanya dihasilkan tiga kali) `Type: Warning` `Reason: NvidiaSXID[code]Error` `Message: TS=xxx;NVSwitchIds=xxx;MSG=An nvidia sxid [code] error has occurred.`	Error SXID diklasifikasikan ke dalam tiga kategori: Correctable: Kesalahan dikoreksi secara otomatis tanpa memengaruhi perilaku sistem. Tidak diperlukan tindakan. Fatal: Kesalahan bersifat fatal bagi perangkat dan memengaruhi perilaku sistem. Pemulihan memerlukan reset perangkat atau restart sistem. Non-fatal: Kesalahan tidak fatal bagi perangkat tetapi memengaruhi perilaku sistem. Reset perangkat atau restart sistem mungkin tidak diperlukan.	Tidak	None
NvidiaEccModeNotEnabled	Ya `Type: NvidiaEccModeNotEnabled` `Reason: EccModeNotEnabled` `Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.`	Ya (event dihasilkan terus-menerus hingga masalah diperbaiki) `Type: Warning` `Reason: NvidiaEccModeNotEnabled` `Message: GpuIds=xxx;EccModeCurrent=xxx;EccModePending=xxx;MSG=The ECC mode of the GPU is not enabled.`	Mode ECC tidak diaktifkan pada node.	Tidak	Aktifkan mode ECC dan restart node.
NvidiaPendingRetiredPages	Ya `Type: NvidiaPendingRetiredPages` `Reason: NodeHasNvidiaPendingRetiredPages` `Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.`	Ya (event dihasilkan terus-menerus hingga masalah diperbaiki) `Type: Warning` `Reason: NvidiaPendingRetiredPages` `Message: GpuIds=xxx;VolatileTotalUncorrected=xxx;AggregateTotalUncorrected=xxx;MSG=There are retired pages in a pending state on the GPU.`	GPU memiliki halaman yang dipensiunkan dalam status tertunda. Diperlukan reset GPU untuk menerapkan pensiunan halaman yang tertunda.	Ya	Restart node.
NvidiaRemappingRowsFailed	Ya `Type: NvidiaRemappingRowsFailed` `Reason: GPUMemoryRemappingRowsFailed` `Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row mapping.`	Ya (event dihasilkan terus-menerus hingga masalah diperbaiki) `Type: Warning` `Reason: NvidiaRemappingRowsFailed` `Message: GpuIds=xxx;RemappedDueToUncorrectableErrors=xxx;MSG=The GPU has encountered an error with row mapping.`	GPU mengalami kegagalan pemetaan ulang baris.	Ya	Perbaikan perangkat keras.
NvidiaRemappingRowsRequireReset	Ya `Type: NvidiaRemappingRowsRequireReset` `Reason: UncontainedEccError` `Message: GpuIds=xxx;MSG=Remapping rows requires GPU reset.`	Ya (event dihasilkan terus-menerus hingga masalah diperbaiki) `Type: Warning` `Reason: NvidiaRemappingRowsRequireReset` `Message: GpuIds=xxx;MSG=Remapping rows requires GPU reset.`	GPU mengalami kesalahan yang tidak dapat dikoreksi dan tidak tertahan yang memerlukan reset GPU untuk pemulihan. Segera reset GPU untuk mengembalikan operasi.	Ya (ACK NPD <= 1.2.28) Tidak (ACK NPD >= 1.2.30)	Restart node.
NvidiaDeviceLost	Ya `Type: NvidiaDeviceLost` `Reason: NodeHasNvidiaDeviceLost` `Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible`	Ya (event dihasilkan terus-menerus hingga masalah diperbaiki) `Type: Warning` `Reason: NvidiaDeviceLost` `Message: GpuIds=xxx;MSG=The GPU has fallen off the bus or has otherwise become inaccessible.`	`The GPU has fallen off the bus or has otherwise become inaccessible.`	Ya	Perbaikan perangkat keras.
NvidiaInfoRomCorrupted	Ya `Type: NvidiaInfoRomCorrupted` `Reason: NodeHasNvidiaInfoRomCorrupted` `Message: GpuIds=xxx;MSG=GPU infoROM is corrupted`	Ya (event dihasilkan terus-menerus hingga masalah diperbaiki) `Type: Warning` `Reason: NvidiaInfoRomCorrupted` `Message: GpuIds=xxx;MSG=GPU infoROM is corrupted.`	`infoROM is corrupted.`	Ya	Perbaikan perangkat keras.
NvidiaPowerCableErr	Ya `Type: NvidiaPowerCableErr` `Reason: NodeHasNvidiaPowerCableErr` `Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached`	Ya (event dihasilkan terus-menerus hingga masalah diperbaiki) `Type: Warning` `Reason: NvidiaPowerCableErr` `Message: GpuIds=xxx;MSG=A device's external power cables are not properly attached.`	`A device's external power cables are not properly attached.`	Ya	Perbaikan perangkat keras.
NvidiaPersistencedOffline	Ya `Type: NvidiaPersistencedOffline` `Reason: NodeHasNvidiaPersistencedOffline` `Message: TS=xxx;GpuIds=xxx;Nvidia Persistenced service is not running.`	Ya `Type: Warning` `Reason: NvidiaPersistencedOffline` `Message: TS=xxx;GpuIds=xxx;Nvidia Persistenced service is not running.`	Layanan NVIDIA Persistenced tidak berjalan.	Tidak	Restart layanan nvidia-persistenced.
NvidiaFabricManagerOffline	Ya `Type: NvidiaFabricManagerOffline` `Reason: NodeHasNvidiaFabricManagerOffline` `Message: TS=xxx;GpuIds=xxx;Nvidia Fabric Manager service is not running.`	Ya `Type: Warning` `Reason: NvidiaFabricManagerOffline` `Message: TS=xxx;GpuIds=xxx;Nvidia Fabric Manager service is not running.`	Layanan NVIDIA Fabric Manager tidak berjalan.	Tidak	Restart layanan Fabric Manager.
NvidiaTemperatureHigh	Ya `Type: NvidiaTemperatureHigh` `Reason: NodeHasNvidiaTemperatureHigh` `Message: TS=xxx;GpuIds=xxx;Nvidia gpu temperature exceeds threshold`	Ya `Type: Warning` `Reason: NvidiaTemperatureHigh` `Message: TS=xxx;GpuIds=xxx;Nvidia gpu temperature exceeds threshold`	Suhu GPU telah melebihi 100°C.	Tidak	None
NvidiaNVLinkStateErr	Ya `Type: NvidiaNVLinkStateErr` `Reason: NodeHasNvlinkStateErr` `Message: TS=xxx;GpuIds=xxx;Nvidia nvlink state is down`	Ya `Type: Warning` `Reason: NvidiaNvlinkStateErr` `Message: TS=xxx;GpuIds=xxx;Nvidia nvlink state is down`	Status NVIDIA NVLink mati.	Tidak	Restart node.

Event terkait lainnya

Dalam skenario GPU khusus, mekanisme lama secara otomatis mengisolasi GPU yang bermasalah, sedangkan mekanisme baru mengharuskan Anda mengonfigurasi pemicu di manajemen komponen. Setelah isolasi, Pod aplikasi GPU baru tidak dijadwalkan pada kartu GPU tersebut. Untuk memverifikasi isolasi, periksa jumlah sumber daya nvidia.com/gpu yang dilaporkan oleh Node Kubernetes. Setelah kartu GPU pulih, ACK secara otomatis melepaskannya dari isolasi.

Alasan pemicu

Konten event

Deskripsi

Isolasi GPU

Type: Warning
Reason: NvidiaDeviceIsolated
Message: GpuIds=xxx;MSG=nvidia device has been isolated due to detected issues.

Sistem mengisolasi kartu GPU setelah mendeteksi masalah.

Pelepasan GPU dari isolasi

Type: Normal
Reason: NvidiaDeviceRecovered
Message: GpuIds=xxx;MSG=nvidia device has recovered from the fault.

Kartu GPU pulih, dan ACK melepaskannya dari isolasi.