Container Service for Kubernetes (ACK) menyediakan fitur diagnosis tingkat node untuk GPU guna membantu Anda memecahkan masalah terkait GPU. Jika kluster ACK Pro mengalami kesalahan saat menggunakan node yang dipercepat oleh GPU, Anda dapat mengaktifkan fitur diagnosis node untuk mengumpulkan metrik dasar GPU sebagai bagian dari pemecahan masalah. Topik ini menjelaskan cara menggunakan fitur diagnosis node untuk mendiagnosis node yang dipercepat oleh GPU serta menyertakan tabel kode status NVIDIA System Management Interface (nvidia-smi) dan dua tabel XID untuk membantu Anda dalam pemecahan masalah.
Prasyarat
Kluster ACK Pro telah dibuat. Untuk informasi lebih lanjut, lihat Buat kluster ACK yang dikelola.
Kluster ACK Pro berjalan dengan normal. Anda dapat masuk ke Konsol ACK dan periksa apakah kluster dalam keadaan Running di halaman Clusters.
Aktifkan diagnosis node
Anda dapat memilih node yang dipercepat oleh GPU untuk memulai diagnosis node dan memperbaiki masalah berdasarkan laporan diagnosis.
Masuk ke Konsol ACK. Di panel navigasi sisi kiri, klik Clusters.
Di halaman Clusters, klik nama kluster yang ingin Anda diagnosis. Di panel navigasi sisi kiri, pilih .
Di halaman Diagnosis, klik Node diagnosis.
Di panel Select node, tentukan Node name, baca peringatan, dan pilih I know and agree, lalu klik Create diagnosis.
Tunggu hingga kolom Status pada laporan diagnostik di halaman Diagnosis menampilkan Success.
Jika Anda mendiagnosis satu node yang dipercepat oleh GPU, daftar diagnosis akan menampilkan metrik GPU. Anda dapat memecahkan masalah berdasarkan hasil diagnosis, kode status nvidia-smi, dan XID.
Jika Anda ingin submit a ticket untuk meminta dukungan teknis, sertakan informasi diagnosis node yang dipercepat oleh GPU dalam tiket tersebut.
Pemecahan masalah berdasarkan kode status nvidia-smi
nvidia-smi adalah utilitas baris perintah yang digunakan untuk memantau status perangkat GPU NVIDIA dan mengelola performa serta kesehatan server GPU. Anda dapat mencari NVIDIASMIStatusCode dalam laporan diagnosis Anda di tabel berikut untuk melihat deskripsi dan solusi yang sesuai.
Kode Status nvidia-smi | Deskripsi | Solusi |
0 | Berhasil. | Tidak ada. |
3 | Operasi yang diminta tidak tersedia pada perangkat target. Periksa apakah perangkat target mendukung nvidia-smi atau apakah ada masalah driver. | Periksa log instalasi driver |
6 | Masalah driver: Permintaan untuk menemukan objek tidak berhasil. | Periksa log instalasi driver |
8 | Masalah perangkat keras: Kabel daya eksternal perangkat tidak terpasang dengan benar. | Submit a ticket untuk meminta dukungan teknis Elastic Compute Service (ECS). |
9 | Masalah driver: Driver NVIDIA tidak dimuat. | Periksa log instalasi driver |
10 | Kernel NVIDIA mendeteksi masalah interupsi dengan GPU. | Periksa log instalasi driver |
12 | Pustaka Bersama NVML tidak dapat ditemukan atau dimuat. | Periksa log instalasi driver |
13 | Versi lokal NVML tidak mengimplementasikan fungsi ini. | Periksa log instalasi driver |
14 | Masalah perangkat keras: infoROM rusak. | Submit a ticket untuk meminta dukungan teknis ECS. |
15 | Masalah perangkat keras: GPU telah jatuh dari bus. | Submit a ticket untuk meminta dukungan teknis ECS. |
255 | Kesalahan lainnya atau kesalahan internal driver terjadi. | Periksa log instalasi driver |
-1 | nvidia-smi waktu habis. | Periksa log instalasi driver |
Pemecahan masalah berdasarkan XID
Pesan XID adalah laporan kesalahan yang dicetak dari driver NVIDIA ke log kernel atau log acara sistem operasi. Pesan XID adalah kesalahan GPU yang menunjukkan masalah perangkat keras, masalah perangkat lunak NVIDIA, atau masalah aplikasi pengguna. Pesan XID juga menunjukkan lokasi kesalahan dan kode kesalahan.
Dalam laporan diagnosis, jika item pemeriksaan XID exceptions on GPU-accelerated node kosong, maka tidak ada pesan XID yang dihasilkan. Jika item pemeriksaan tidak kosong, cari XID di tabel berikut untuk solusi atau ajukan tiket untuk meminta dukungan teknis.
Tabel XID untuk pemecahan masalah oleh pengguna
Ketika Anda menerima XID berikut, kami sarankan Anda melakukan langkah-langkah berikut untuk memecahkan kesalahan:
Kirim ulang beban kerja dan periksa apakah XID yang sama dikembalikan.
Jika XID yang sama dikembalikan, periksa kode atau analisis log. Pastikan bahwa kesalahan tidak disebabkan oleh kode.
Jika tidak ada kesalahan yang ditemukan dalam kode, submit a ticket.
XID | Deskripsi |
13 | Pengecualian Mesin Grafis. Dalam sebagian besar kasus, array berada di luar rentang deklarasi mereka atau terjadi kesalahan instruksi. Dalam kasus langka, terjadi kesalahan perangkat keras. |
31 | Fault halaman memori GPU. Dalam sebagian besar kasus, aplikasi mengakses alamat ilegal. Dalam kasus langka, terjadi kesalahan driver atau perangkat keras. |
43 | GPU berhenti memproses. Dalam sebagian besar kasus, aplikasi mengalami kesalahan. |
45 | Pembersihan preventif, karena kesalahan sebelumnya -- Paling sering terlihat ketika menjalankan beberapa aplikasi CUDA dan mengalami DBE. Dalam sebagian besar kasus, aplikasi dihentikan secara manual atau aplikasi berhenti karena kesalahan lain, seperti masalah perangkat keras atau batas sumber daya. XID 45 hanya menunjukkan hasil. Anda perlu menganalisis log untuk menemukan penyebabnya. |
68 | Pengecualian NVDEC0. Dalam sebagian besar kasus, terjadi kesalahan perangkat keras atau driver. |
Tabel XID untuk mengajukan tiket untuk meminta dukungan teknis
Ketika XID berikut dikembalikan, submit a ticket untuk meminta dukungan teknis dan sertakan informasi diagnosis node yang dipercepat oleh GPU dalam tiket tersebut.
XID | Deskripsi |
32 | Stream buffer push tidak valid atau rusak. Kejadian ini dilaporkan oleh pengontrol DMA bus PCIE yang mengelola komunikasi antara driver NVIDIA dan GPU. Dalam sebagian besar kasus, terjadi masalah kualitas PCI. |
38 | Kesalahan firmware driver. Dalam sebagian besar kasus, terjadi masalah firmware driver. |
48 | Kesalahan ECC Bit Ganda (DBE). Kejadian ini dilaporkan ketika GPU mengalami kesalahan yang tidak dapat diperbaiki. Kesalahan ini juga dilaporkan ke aplikasi Anda. Dalam sebagian besar kasus, Anda perlu me-reset GPU atau node untuk memperbaiki kesalahan ini. |
61 | Breakpoint/peringatan mikrokontroler internal. Mesin internal GPU berhenti bekerja. Akibatnya, bisnis Anda terpengaruh. |
62 | Hentian mikrokontroler internal. Kejadian ini mirip dengan XID61. |
63 | Peristiwa perekaman pensiun halaman ECC atau pemetaan ulang baris. Ketika aplikasi mengalami kesalahan perangkat keras memori GPU, mekanisme Error Correction Code (ECC) dari NVIDIA menonaktifkan atau memetakan ulang wilayah memori yang rusak. Informasi pensiun atau pemetaan ulang harus dicatat di infoROM untuk memastikan bahwa pensiun atau pemetaan ulang tersebut secara permanen efektif.
|
64 | Kegagalan pencatatan pensiunan halaman ECC atau pemetaan ulang baris. Kejadian ini mirip dengan XID 63. Namun, XID 63 menunjukkan bahwa informasi pensiunan atau pemetaan ulang berhasil dicatat di infoROM. XID 64 menunjukkan bahwa informasi pensiunan atau pemetaan ulang gagal dicatat. |
74 | Kesalahan NVLINK. XID ini menunjukkan kesalahan perangkat keras NVLink. GPU mengalami kesalahan perangkat keras kritis dan harus diperbaiki. |
79 | GPU telah jatuh dari bus. GPU telah jatuh dari bus dan bus tidak dapat menemukan GPU. Ini berarti GPU mengalami kesalahan perangkat keras kritis dan harus diperbaiki. |
92 | Tingkat kesalahan ECC bit tunggal yang tinggi. Terjadi kesalahan perangkat keras atau driver. |
94 | Kesalahan ECC yang terkandung. Ketika aplikasi mengalami kesalahan ECC memori GPU yang tidak dapat diperbaiki, mekanisme ECC NVIDIA mencoba menekan kesalahan di aplikasi yang salah agar kesalahan tersebut tidak memengaruhi aplikasi lain di node yang dipercepat oleh GPU. Kejadian ini dihasilkan jika mekanisme penekanan kesalahan berhasil menekan kesalahan. Dalam hal ini, hanya aplikasi yang salah yang terpengaruh oleh kesalahan ECC yang tidak dapat diperbaiki. |
95 | Kesalahan ECC yang tidak terkandung. Kejadian ini mirip dengan XID 94. Namun, XID 94 menunjukkan bahwa kesalahan berhasil ditekan. XID 95 menunjukkan bahwa kesalahan gagal ditekan. Aplikasi lain pada node yang dipercepat oleh GPU juga terpengaruh. |