全部产品
Search
文档中心

Container Service for Kubernetes:Diagnosa Node

更新时间:Jul 06, 2025

Container Intelligence Service menyediakan fitur diagnosa node untuk membantu Anda mendiagnosis masalah umum pada node. Topik ini menjelaskan item diagnostik node serta memberikan saran untuk memperbaiki masalah tersebut.

Container Intelligence Service mengembangkan sistem diagnostik berdasarkan pengalaman ahli dan melatih model AI menggunakan sejumlah besar data. Hal ini membantu Anda menemukan akar penyebab masalah. Diagnosa node mencakup komponen-komponen berikut:

  • Diagnostic items: Mendiagnosis node, komponen node, komponen klaster, Elastic Compute Service (ECS) controller manager, dan node yang dipercepat GPU.

  • Root causes: Mengidentifikasi akar penyebab masalah dan memberikan saran perbaikan. Fitur diagnosa node mengumpulkan informasi tentang klaster dan node, mengidentifikasi anomali, lalu melakukan diagnostik mendalam.

Penting

Saat menggunakan fitur diagnosa node, ACK menjalankan program pengumpulan data pada setiap node dalam klaster dan mengumpulkan hasil diagnostik. Informasi yang dikumpulkan hanya mencakup versi sistem, status beban kerja, Docker, kubelet, serta informasi kesalahan utama dalam log sistem. Program pengumpulan data tidak mengumpulkan informasi bisnis atau data sensitif.

Skenario

Tabel berikut menjelaskan skenario diagnosa node dan diagnostik berbantuan AI.

Kategori

Skema

Diagnosa node

Node NotReady:

  • Jaringan belum siap.

  • Kuota ID proses (PIDs) tidak mencukupi.

  • Memori tidak mencukupi.

  • Ruang disk tidak mencukupi.

  • Pengecualian runtime terjadi.

  • Tidak ada detak jantung yang terdeteksi.

Kuota inode yang tersisa tidak mencukupi.

Kuota PIDs tidak mencukupi.

Waktu node tidak benar.

Sistem file node bersifat hanya-baca.

Deadlock terjadi di kernel node.

Diagnostik berbantuan AI

Status node tidak normal.

Status Instance ECS tidak normal.

Kesalahan terjadi di kubelet pada node.

Pengecualian runtime terjadi pada node.

Ruang disk tidak mencukupi.

Penggunaan CPU node tinggi.

Prosedur

Fitur diagnostik klaster mengumpulkan informasi tentang klaster dan node, mengidentifikasi anomali, lalu melakukan diagnostik mendalam. Mode ahli dan mode AI digunakan untuk membantu menemukan akar penyebab masalah. Hasil diagnostik dihasilkan melalui langkah-langkah berikut: identifikasi anomali, pengumpulan data, pemeriksaan item diagnostik, dan analisis penyebab akar.

Node diagnostics

  • Anomaly identification: Mengumpulkan data dasar seperti status node, status pod, dan aliran peristiwa klaster, serta menganalisis anomali berdasarkan data yang dikumpulkan.

  • Data collection: Mengumpulkan dan mendiagnosis data kontekstual berdasarkan hasil identifikasi anomali. Sebagai contoh, ACK mengumpulkan informasi node dalam Kubernetes, informasi ECS, status proses Docker, dan status proses kubelet.

  • Diagnostic item check: Memeriksa apakah metrik kunci normal berdasarkan data yang dikumpulkan. Sebagai contoh, item diagnostik node mencakup status proses Docker dan status ECS. Diagnosa node diklasifikasikan ke dalam beberapa kategori. ACK mencantumkan item diagnostik dari kategori berbeda dan memberikan deskripsi setiap item diagnostik.

  • Root cause analysis: Menganalisis akar penyebab masalah berdasarkan data yang dikumpulkan dan hasil pemeriksaan item diagnostik.

Hasil diagnostik

Hasil diagnostik mencakup hasil analisis penyebab akar dan hasil pemeriksaan item diagnostik. Hasil analisis penyebab akar mencakup detected anomalies, root cause, suggestions for fixes. Hasil pemeriksaan item diagnostik mencakup hasil pemeriksaan setiap item diagnostik. Pemeriksaan item diagnostik digunakan untuk menemukan penyebab yang mungkin tidak diidentifikasi oleh analisis penyebab akar.

Catatan

Item diagnostik dapat bervariasi berdasarkan konfigurasi klaster. Item diagnostik aktual terdapat pada halaman diagnostik yang berlaku.

Item diagnostik

Kategori

Deskripsi

Node

Mendiagnosis masalah node umum, termasuk status node, status jaringan, log kernel, proses kernel, dan ketersediaan layanan.

KomponenNode

Mendiagnosis status komponen node kunci, termasuk komponen jaringan dan volume.

KomponenKlaster

Mendiagnosis masalah klaster umum, termasuk ketersediaan Layanan API, ketersediaan DNS, dan status gateway NAT.

ECSControllerManager

Mendiagnosis masalah Instance ECS umum, termasuk status Instance ECS, koneksi jaringan, sistem operasi, dan I/O disk.

GPUNode

Mendiagnosis masalah node yang dipercepat GPU, termasuk status modul NVIDIA dan konfigurasi driver.

Node

Jika masalah berikut tetap ada setelah Anda mengadopsi solusi yang dijelaskan dalam tabel berikut, kumpulkan log node lalu submit a ticket.

Item diagnostik

Deskripsi

Solusi

Kesalahan konektivitas ke server API Kubernetes

Memeriksa apakah node dapat terhubung ke server API Kubernetes klaster.

Periksa konfigurasi klaster. Untuk informasi lebih lanjut, lihat Troubleshoot ACK clusters.

AUFS mount hangs

Memeriksa apakah AUFS mount hangs terjadi.

submit a ticket.

BufferIOError errors

Memeriksa apakah BufferIOError errors terjadi di kernel node.

submit a ticket.

Cgroup leaks

Memeriksa apakah cgroup leaks terjadi pada node.

Cgroup leaks dapat mengganggu pengumpulan data pemantauan dan menyebabkan kegagalan startup kontainer. Masuk ke node dan hapus direktori cgroup.

Status proses chronyd abnormal

Memeriksa apakah proses chronyd pada node berada dalam keadaan abnormal. Jika proses chronyd pada node berada dalam keadaan abnormal, sinkronisasi jam sistem mungkin terpengaruh.

Jika proses chronyd pada node berada dalam keadaan abnormal, sinkronisasi jam sistem mungkin terpengaruh. Jalankan perintah systemctl restart chronyd untuk memulai ulang proses chronyd.

Image pulling oleh containerd

Memeriksa apakah runtime containerd dapat menarik gambar sesuai harapan.

Periksa konfigurasi jaringan node dan gambar.

Status containerd

Memeriksa status runtime containerd.

submit a ticket.

Ketersediaan pod CoreDNS

Memeriksa apakah node dapat mengakses alamat IP pod CoreDNS.

Periksa apakah node dapat mengakses alamat IP pod CoreDNS. Untuk informasi lebih lanjut, lihat Apa yang harus saya lakukan jika beban kueri DNS tidak seimbang di antara pod CoreDNS?.

Status gambar

Memeriksa apakah gambar rusak.

submit a ticket.

Status overlay2 gambar

Memeriksa apakah sistem file overlay2 dalam gambar rusak.

Jika sistem file overlay2 dalam gambar rusak.

Waktu sistem

Memeriksa apakah waktu sistem benar.

Tidak ada.

Startup kontainer Docker

Memeriksa apakah kontainer Docker gagal dimulai.

submit a ticket.

Penarikan gambar Docker

Memeriksa apakah node dapat menarik gambar Docker sesuai harapan.

Periksa konfigurasi jaringan node dan gambar.

Status Docker

Memeriksa status Docker.

submit a ticket.

Waktu startup Docker

Memeriksa waktu startup Dockerd.

Tidak ada.

Kesalahan hang Docker

Memeriksa apakah kesalahan hang Docker terjadi pada node.

Jalankan perintah systemctl restart docker untuk memulai ulang Docker.

Keberadaan Instance ECS

Memeriksa keberadaan Instance ECS.

Periksa status Instance ECS. Untuk informasi lebih lanjut, lihat FAQ tentang node dan pool node.

Status Instance ECS

Memeriksa status Instance ECS.

Periksa status Instance ECS. Untuk informasi lebih lanjut, lihat FAQ tentang node dan pool node.

Ext4FsError errors

Memeriksa apakah Ext4FsError errors terjadi di kernel node.

submit a ticket.

Sistem file node hanya-baca

Dalam banyak kasus, sistem file node menjadi hanya-baca karena kegagalan disk. Anda tidak dapat menulis data ke sistem file node yang hanya-baca dan bisnis Anda mungkin terpengaruh.

Gunakan perintah fsck untuk memperbaiki sistem file node lalu mulai ulang node.

Waktu perangkat keras

Periksa konsistensi antara waktu perangkat keras dan waktu sistem. Jika selisih antara waktu perangkat keras dan waktu sistem lebih dari 2 menit, kesalahan komponen mungkin terjadi.

Jalankan perintah hwclock --systohc untuk menyinkronkan waktu sistem ke jam perangkat keras.

DNS

Memeriksa apakah nama domain dapat diselesaikan pada node.

Periksa apakah nama domain dapat diselesaikan pada node. Untuk informasi lebih lanjut, lihat Pemecahan masalah DNS.

Kesalahan Kernel Oops

Memeriksa apakah terdapat kesalahan oops di kernel node.

submit a ticket.

Versi Kernel

Periksa apakah versi kernel sudah usang. Versi kernel yang usang dapat menyebabkan kegagalan sistem.

Perbarui kernel node. Untuk informasi lebih lanjut, lihat FAQ tentang Node dan Node Pool.

Ketersediaan DNS

Memeriksa apakah node dapat mengakses alamat IP klaster layanan kube-dns untuk menggunakan layanan DNS yang disediakan oleh klaster.

Periksa status dan log pod CoreDNS. Untuk informasi lebih lanjut, lihat Pemecahan Masalah DNS.

Status kubelet

Memeriksa status kubelet.

Periksa log kubelet. Untuk detail lebih lanjut, lihat Troubleshoot ACK clusters.

Waktu Startup Kubelet

Memeriksa waktu startup kubelet.

Tidak ada.

Penggunaan CPU

Periksa apakah penggunaan CPU pada node terlalu tinggi.

Tidak ada.

Penggunaan Memori

Memeriksa apakah penggunaan memori node terlalu tinggi.

Tidak ada.

Fragmen Memori

Memeriksa keberadaan fragmen memori pada node.

Jika terdapat fragmen memori pada node, akses node tersebut dan jalankan perintah echo 3 > /proc/sys/vm/drop_caches untuk menghapus cache.

Memori Swap

Periksa apakah memori swap diaktifkan pada node.

Memori swap tidak boleh diaktifkan. Masuk ke node dan nonaktifkan memori swap.

Pemuatan driver perangkat jaringan

Memeriksa pemuatan driver VirtIO pada perangkat jaringan.

Terjadi kesalahan saat memuat driver VirtIO pada perangkat jaringan.

Penggunaan CPU node yang terlalu tinggi

Periksa penggunaan CPU node selama seminggu terakhir. Jika penggunaan CPU node tinggi dan sejumlah besar pod dijadwalkan pada node, pod akan bersaing untuk mendapatkan sumber daya. Hal ini meningkatkan penggunaan CPU dan dapat menyebabkan gangguan layanan.

Untuk mencegah gangguan layanan, atur permintaan sumber daya dan batas pada nilai yang sesuai guna menghindari menjalankan terlalu banyak pod pada node.

Keberadaan IP Node Privat

Memeriksa apakah alamat IP node privat tersedia.

Jika alamat IP node privat tidak tersedia, hapus node tersebut dan tambahkan kembali node ke klaster. Jangan lepaskan Instance ECS saat menghapus node. Untuk informasi lebih lanjut tentang cara menghapus node dari klaster, lihat Hapus node. Untuk informasi lebih lanjut tentang cara menambahkan node ke klaster, lihat Tambahkan Instance ECS yang ada.

Penggunaan memori node yang terlalu tinggi

Periksa penggunaan memori node dalam seminggu terakhir. Jika penggunaan memori node tinggi dan sejumlah besar pod dijadwalkan ke node, pod akan bersaing untuk mendapatkan sumber daya. Hal ini meningkatkan penggunaan memori, menyebabkan kesalahan out of memory (OOM), dan berpotensi mengakibatkan gangguan layanan.

Untuk mencegah gangguan layanan, atur permintaan sumber daya dan batas pada nilai yang sesuai guna menghindari menjalankan terlalu banyak pod pada node.

Status Node

Memeriksa apakah node berstatus Ready.

Mulai ulang node. Untuk detail lebih lanjut, lihat FAQ tentang Node dan Pool Node.

Penjadwalan node

Memeriksa apakah node tidak dapat dijadwalkan.

Jika node tidak dapat dijadwalkan, periksa konfigurasi penjadwalan node. Untuk informasi lebih lanjut, lihat Pembuangan node dan status penjadwalan.

Kesalahan OOM

Memeriksa apakah kesalahan OOM terjadi pada node.

submit a ticket.

Pemeriksaan Runtime

Memeriksa apakah runtime node sesuai dengan runtime klaster.

Untuk informasi lebih lanjut, lihat Bisakah saya mengubah runtime kontainer klaster dari containerd ke Docker?.

Versi OS yang Ketinggalan Zaman

Periksa apakah versi OS yang digunakan oleh node memiliki bug yang diketahui atau sudah ketinggalan zaman serta mengalami masalah stabilitas. Masalah tersebut dapat menyebabkan komponen Docker dan containerd tidak berfungsi dengan baik.

Perbarui versi OS.

Akses Internet

Memeriksa apakah node dapat mengakses Internet.

Periksa apakah SNAT diaktifkan untuk klaster. Untuk informasi lebih lanjut, lihat Aktifkan klaster ACK yang ada untuk mengakses Internet.

RCUStallError errors

Memeriksa apakah RCUStallError errors terjadi di kernel node.

submit a ticket.

Versi OS

Memeriksa versi OS yang digunakan oleh node. Jika versi OS yang ketinggalan zaman digunakan oleh node, klaster mungkin tidak berjalan secara normal.

Tidak ada.

Kelebihan proses runc

Jika kelebihan proses runc terjadi pada node, node mungkin secara berkala memasuki keadaan NotReady.

Jika kelebihan proses runc terjadi, periksa proses runc yang bocor dan hentikan proses secara manual.

SoftLockupError errors

Memeriksa apakah SoftLockupError errors terjadi di kernel node.

submit a ticket.

Sistem hang systemd

Memeriksa apakah hang systemd terjadi pada node.

Jika hang systemd terjadi pada node, masuk ke node dan jalankan perintah systemctl daemon-reexec untuk memulai ulang systemd.

Versi systemd yang ketinggalan zaman

Memeriksa apakah versi systemd yang digunakan oleh node memiliki bug yang diketahui. Versi systemd yang ketinggalan zaman memiliki masalah stabilitas yang dapat menyebabkan komponen Docker dan containerd tidak berfungsi dengan baik.

Perbarui versi systemd. Untuk informasi lebih lanjut, lihat systemd.

Proses yang tergantung

Memeriksa apakah proses yang tergantung ada pada node.

submit a ticket.

Kesalahan unregister_netdevice

Memeriksa apakah kesalahan unregister_netdevice terjadi di kernel node.

submit a ticket.

KomponenNode

Item diagnostik

Deskripsi

Solusi

Status komponen CNI

Memeriksa apakah plug-in Container Network Interface (CNI) berjalan sesuai harapan.

Periksa status komponen jaringan yang digunakan oleh klaster. Untuk informasi lebih lanjut, lihat FAQ tentang manajemen jaringan.

Status komponen CSI

Memeriksa apakah plug-in Container Storage Interface (CNI) berjalan sesuai harapan.

Periksa status komponen volume yang digunakan oleh klaster. Untuk informasi lebih lanjut, lihat FAQ tentang CSI.

KomponenKlaster

Item diagnostik

Deskripsi

Solusi

Versi aliyun-acr-credential-helper

Memeriksa apakah versi aliyun-acr-credential-helper yang digunakan oleh klaster sudah ketinggalan zaman.

Jika versi aliyun-acr-credential-helper yang digunakan oleh klaster sudah ketinggalan zaman, perbarui aliyun-acr-credential-helper. Untuk informasi lebih lanjut, lihat Gunakan komponen aliyun-acr-credential-helper untuk menarik gambar tanpa menggunakan rahasia.

Ketersediaan Layanan API

Memeriksa apakah Layanan API klaster tersedia.

Jalankan perintah kubectl get apiservice untuk memeriksa ketersediaan Layanan API klaster. Jika Layanan API tidak tersedia, jalankan perintah kubectl describe apiservice untuk melihat informasi tentang Layanan API dan mengidentifikasi penyebabnya.

Blok CIDR pod yang tersedia tidak mencukupi

Memeriksa apakah jumlah blok CIDR pod yang tersedia dalam klaster yang telah memasang Flannel kurang dari lima. Setiap node dalam klaster dilampirkan ke blok CIDR pod. Jika semua blok CIDR pod digunakan, node baru yang Anda tambahkan ke klaster tidak dapat bekerja dengan baik.

submit a ticket.

Titik akhir CoreDNS

Memeriksa jumlah titik akhir CoreDNS.

Periksa status dan log pod CoreDNS. Untuk informasi lebih lanjut, lihat Pemecahan masalah DNS.

Alamat IP klaster CoreDNS

Memeriksa apakah alamat IP klaster dialokasikan ke pod CoreDNS. Jika alamat IP klaster tidak dialokasikan ke pod CoreDNS, gangguan layanan mungkin terjadi.

Periksa status dan log pod CoreDNS. Untuk informasi lebih lanjut, lihat Pemecahan masalah DNS.

Status gateway NAT

Memeriksa status gateway NAT yang digunakan oleh klaster.

Masuk ke Konsol Gateway NAT untuk memeriksa apakah gateway NAT terkunci karena pembayaran tertunda.

Tingkat koneksi bersamaan yang terputus pada gateway NAT terlalu tinggi

Memeriksa apakah tingkat di mana koneksi bersamaan terputus pada gateway NAT tinggi.

Jika tingkat tersebut tinggi, tingkatkan gateway NAT. Untuk informasi lebih lanjut, lihat FAQ tentang peningkatan gateway NAT Internet standar ke gateway NAT Internet yang ditingkatkan.

ECSControllerManager

Item diagnostik

Deskripsi

Solusi

Pembayaran terlambat terkait komponen Instance ECS

Memeriksa apakah disk atau lebar pita jaringan dari Instance ECS tidak tersedia karena pembayaran terlambat dalam akun Anda.

Jika disk atau lebar pita jaringan dari Instance ECS tidak tersedia karena pembayaran terlambat dalam akun Anda, isi ulang akun Anda.

Pembayaran terlambat terkait Instance ECS

Memeriksa apakah Instance ECS pay-as-you-go ditangguhkan karena pembayaran terlambat.

Jika Instance ECS pay-as-you-go ditangguhkan karena pembayaran terlambat, Anda harus mengisi ulang akun Anda terlebih dahulu dan kemudian memulai ulang instance tersebut.

Status NIC Instance ECS

Memeriksa apakah NIC dari Instance ECS berfungsi seperti yang diharapkan.

Jika NIC dari Instance ECS tidak berfungsi seperti yang diharapkan, mulai ulang instance tersebut.

Status startup Instance ECS

Memeriksa apakah operasi boot dapat dilakukan pada instance secara normal.

Jika operasi boot tidak dapat dilakukan pada instance secara normal, Anda harus membuat instance lain.

Status sistem manajemen backend Instance ECS

Memeriksa apakah sistem manajemen backend dari Instance ECS bekerja sesuai harapan.

Jika sistem manajemen backend dari Instance ECS tidak bekerja seperti yang diharapkan, mulai ulang instance tersebut.

Status CPU Instance ECS

Memeriksa apakah terjadi konten CPU atau kegagalan pengikatan CPU di lapisan bawah Instance ECS.

Jika terdapat konten CPU, instance mungkin gagal mendapatkan CPU atau menghadapi masalah lainnya. Mulai ulang instance tersebut.

Kunci terpisah di CPU Instance ECS

Memeriksa apakah kunci terpisah terjadi di CPU Instance ECS.

Kunci terpisah terjadi di CPU Instance ECS. Untuk informasi lebih lanjut, lihat Mendeteksi dan menangani kunci terpisah.

Status mitigasi DDoS untuk Instance ECS

Memeriksa apakah alamat IP publik dari instance mengalami serangan DDoS.

Jika alamat IP dari Instance ECS mengalami serangan DDoS, belilah layanan anti-DDoS lainnya. Untuk informasi lebih lanjut, lihat Perbandingan solusi Anti-DDoS Alibaba Cloud.

Kemampuan baca/tulis terbatas pada disk cloud

Memeriksa apakah kemampuan baca/tulis disk cloud dibatasi.

Jika IOPS maksimum baca dan tulis disk telah tercapai, operasi baca dan tulis pada disk dibatasi. Untuk informasi lebih lanjut tentang cara melihat metrik disk, lihat Performa penyimpanan blok.

Pemuatan disk Instance ECS

Memeriksa apakah disk cloud dapat dilekatkan ke Instance ECS ketika instance dimulai.

Jika instance gagal dimulai karena disk cloud gagal dilekatkan ke instance, hentikan instance dan kemudian mulai ulang instance tersebut.

Kedaluwarsa Instance ECS

Memeriksa apakah langganan instance telah kedaluwarsa.

Jika Instance ECS telah kedaluwarsa, perpanjang instance tersebut. Untuk informasi lebih lanjut, lihat Perpanjang instance langganan.

Crash OS Instance ECS

Memeriksa apakah crash OS terjadi pada Instance ECS.

Jika crash OS terjadi pada Instance ECS dalam 48 jam terakhir, selidiki log sistem untuk mengidentifikasi penyebabnya. Untuk informasi lebih lanjut, lihat Lihat log sistem dan tangkapan layar.

Status host Instance ECS

Memeriksa apakah kegagalan terjadi pada server fisik tempat Instance ECS ditempatkan.

Jika kegagalan terjadi pada server fisik tempat Instance ECS ditempatkan, instance mungkin dalam keadaan abnormal dan performa instance menurun. Mulai ulang instance tersebut.

Pemuatan gambar Instance ECS

Memeriksa apakah Instance ECS dapat memuat gambar saat sistem menginisialisasi instance.

Instance ECS gagal memuat gambar karena masalah terkait sistem dan gambar. Mulai ulang instance tersebut.

Hung I/O pada disk Instance ECS

Memeriksa apakah hung I/O terjadi pada disk sistem Instance ECS.

Jika hung I/O terjadi pada disk sistem Instance ECS, periksa metrik disk. Untuk informasi lebih lanjut, lihat Lihat data pemantauan disk cloud. Untuk informasi tentang cara menangani hung I/O pada Alibaba Cloud Linux 2, lihat Deteksi hung I/O sistem file dan lapisan blok.

Batas bandwidth atas Instance ECS

Memeriksa apakah total bandwidth dari Instance ECS telah mencapai bandwidth maksimum yang diizinkan untuk tipe instance.

Jika total bandwidth dari Instance ECS telah mencapai bandwidth maksimum yang diizinkan untuk tipe instance, tingkatkan instance ke tipe instance yang menyediakan kemampuan bandwidth lebih tinggi. Untuk informasi lebih lanjut, lihat Ikhtisar perubahan konfigurasi instance.

Batas atas bandwidth burst Instance ECS

Memeriksa apakah bandwidth burst dari instance melebihi batas atas bandwidth burst yang diizinkan untuk tipe instance.

Jika bandwidth burst dari instance melebihi batas atas bandwidth burst yang diizinkan untuk tipe instance, tingkatkan instance ke tipe instance yang menyediakan bandwidth lebih tinggi. Untuk informasi lebih lanjut, lihat Ikhtisar perubahan konfigurasi instance.

Pemuatan NIC Instance ECS.

Memeriksa apakah NIC dari Instance ECS dapat dimuat.

Jika NIC tidak dapat dimuat, konektivitas jaringan instance terpengaruh. Mulai ulang instance tersebut.

Pembentukan sesi NIC pada Instance ECS

Memeriksa apakah sesi dapat dibentuk ke NIC dari Instance ECS.

Jika sesi tidak dapat dibentuk ke NIC atau jika jumlah maksimum sesi yang didukung oleh NIC tercapai, konektivitas jaringan atau throughput instance terpengaruh. Mulai ulang instance tersebut.

Operasi utama pada Instance ECS

Memeriksa apakah operasi yang baru-baru ini Anda lakukan pada instance berhasil. Operasi ini termasuk memulai dan menghentikan instance serta meningkatkan konfigurasi instance.

Jika operasi yang baru-baru ini Anda lakukan pada instance gagal, lakukan operasi tersebut lagi.

Kehilangan paket pada NIC Instance ECS

Memeriksa apakah kehilangan paket arah masuk atau arah keluar terjadi pada NIC dari Instance ECS.

Jika kehilangan paket arah masuk atau arah keluar terjadi pada NIC dari Instance ECS, mulai ulang instance tersebut.

Penurunan performa Instance ECS

Memeriksa apakah performa instance sementara menurun karena masalah pada perangkat lunak atau perangkat keras.

Jika performa instance menurun, waktu penurunan performa akan ditampilkan. Anda dapat melihat peristiwa historis atau log sistem instance untuk mengidentifikasi penyebab penurunan performa. Untuk informasi lebih lanjut, lihat Lihat peristiwa sistem historis.

Performa Instance ECS terganggu

Memeriksa apakah performa Instance ECS terganggu.

Instance ECS hanya dapat memberikan kinerja dasar karena kredit CPU yang tersedia tidak mencukupi.

Penyesuaian ukuran disk Instance ECS

Memeriksa apakah disk dari Instance ECS disesuaikan ukurannya.

Setelah disk disesuaikan ukurannya, sistem operasi tidak dapat menyesuaikan ukuran sistem file. Jika disk tidak dapat digunakan setelah disesuaikan ukurannya, sesuaikan ukuran disk lagi.

Aplikasi sumber daya Instance ECS

Memeriksa apakah sumber daya fisik, termasuk sumber daya CPU dan memori, yang dibutuhkan oleh Instance ECS cukup.

Jika sumber daya fisik yang dibutuhkan oleh Instance ECS tidak cukup, instance tidak dapat dimulai. Tunggu beberapa menit dan mulai ulang instance tersebut. Anda juga dapat membuat Instance ECS di wilayah lain.

Status OS Instance ECS

Memeriksa apakah kernel panics, kesalahan OOM, atau kegagalan internal terjadi di OS dari Instance ECS.

Kegagalan ini mungkin disebabkan oleh konfigurasi instance yang tidak tepat atau program pengguna di OS instance. Mulai ulang instance tersebut.

Status virtualisasi Instance ECS

Memeriksa apakah ada pengecualian di layanan inti pada lapisan virtualisasi bawah instance.

Jika ada pengecualian, instance mungkin tidak merespons atau ditangguhkan secara tak terduga. Mulai ulang instance tersebut.

GPUNode

Item diagnostik

Deskripsi

Solusi

Runtime kontainer

Memeriksa apakah runtime kontainer yang digunakan oleh node yang dipercepat GPU valid.

Periksa status runtime Docker atau containerd pada node. ACK hanya mendukung node yang dipercepat GPU yang menggunakan runtime Docker atau containerd.

Versi NVIDIA-Container-Runtime

Memeriksa versi NVIDIA-Container-Runtime yang digunakan oleh node yang dipercepat GPU.

NVIDIA-Container-Runtime tidak diinstal atau versi NVIDIA-Container-Runtime yang diinstal memiliki masalah. Lakukan langkah-langkah berikut:

  1. Periksa apakah versi NVIDIA-Container-Runtime yang digunakan oleh node yang dipercepat GPU sesuai dengan versi Kubernetes klaster. Untuk informasi lebih lanjut, lihat Catatan rilis untuk versi Kubernetes.

  2. Jika versi NVIDIA-Container-Runtime sesuai dengan versi Kubernetes klaster, submit a ticket. Untuk informasi lebih lanjut tentang cara mengumpulkan data diagnostik, lihat Kumpulkan data diagnostik dari node yang dipercepat GPU.

Status modul cGPU

Memeriksa apakah modul cGPU node yang dipercepat GPU berjalan sesuai harapan.

Periksa apakah node memiliki berbagi GPU diaktifkan. Lakukan langkah-langkah berikut:

  1. Periksa apakah komponen cGPU diinstal. Untuk informasi lebih lanjut, lihat Kelola komponen berbagi GPU.

  2. Jika komponen cGPU diinstal, kumpulkan data diagnostik tentang node yang dipercepat GPU dan submit a ticket. Untuk informasi lebih lanjut tentang cara mengumpulkan data diagnostik, lihat Kumpulkan data diagnostik dari node yang dipercepat GPU.

Konfigurasi runtime kontainer

Memeriksa apakah runtime kontainer yang digunakan oleh node yang dipercepat GPU dikonfigurasi dengan benar.

Runtime kontainer yang digunakan oleh node yang dipercepat GPU tidak dikonfigurasi dengan benar. Periksa apakah bidang nvidia-container-runtime ditentukan dalam konfigurasi runtime kontainer.

  • Untuk runtime Docker, periksa file /etc/docker/daemon.json.

  • Untuk runtime containerd, periksa file /etc/containerd/config.toml.

Status NVIDIA-Container-Runtime

Memeriksa apakah NVIDIA-Container-Runtime berjalan sesuai harapan pada node yang dipercepat GPU.

Kesalahan terjadi pada NVIDIA-Container-Runtime. Kumpulkan data diagnostik tentang node yang dipercepat GPU dan submit a ticket. Untuk informasi lebih lanjut tentang cara mengumpulkan data diagnostik, lihat Kumpulkan data diagnostik dari node yang dipercepat GPU.

Status modul NVIDIA

Memeriksa apakah modul NVIDIA berjalan sesuai harapan pada node yang dipercepat GPU.

Kesalahan terjadi pada modul NVIDIA node yang dipercepat GPU. Lakukan langkah-langkah berikut:

  1. Diagnosis node yang dipercepat GPU. Untuk informasi lebih lanjut, lihat FAQ GPU.

  2. Kumpulkan data diagnostik tentang node yang dipercepat GPU dan submit a ticket. Untuk informasi lebih lanjut tentang cara mengumpulkan data diagnostik, lihat Kumpulkan data diagnostik dari node yang dipercepat GPU.