Cara melihat dan mendiagnosis masalah node - Container Service for Kubernetes

Identifikasi dan atasi masalah node melalui pemeriksaan diagnostik serta analisis akar penyebab berbantuan AI.

Saat diagnostik node dijalankan, ACK mengumpulkan informasi versi sistem, status workload/Docker/kubelet, serta log error sistem utama dari setiap node. Tidak ada data bisnis atau informasi sensitif yang dikumpulkan.

Diagnostik node terdiri dari dua komponen:

Diagnostic items: mendiagnosis node, komponen node, komponen kluster, Elastic Compute Service (ECS) controller manager, dan node berakselerasi GPU.
Root causes: menemukan akar penyebab dan memberikan saran perbaikan dengan mengumpulkan data kluster dan node, mengidentifikasi anomali, serta melakukan analisis mendalam.

Cara kerja

Hasil diagnostik melewati empat tahap:

Anomaly identification: Mengumpulkan sinyal dasar — status node, status pod, dan aliran event kluster — serta mengidentifikasi anomali.
Data collection: Mengumpulkan data kontekstual berdasarkan anomali yang teridentifikasi, termasuk informasi node Kubernetes, detail instans ECS, dan status proses Docker/kubelet.
Diagnostic item check: Memeriksa apakah metrik utama berada dalam rentang normal. Item dikelompokkan menurut kategori, masing-masing disertai deskripsi.
Root cause analysis: Menentukan akar penyebab masalah berdasarkan data yang dikumpulkan dan hasil pemeriksaan.

Hasil diagnostik

Hasil dibagi menjadi dua jenis:

Root cause analysis results: mencakup anomali yang terdeteksi, akar penyebab yang diidentifikasi, dan saran perbaikan.
Diagnostic item check results: mencakup hasil pemeriksaan per item. Hasil ini dapat mengungkap penyebab yang mungkin terlewat oleh analisis akar penyebab.

Item diagnostik bervariasi tergantung konfigurasi kluster dan mencerminkan pengaturan aktual kluster Anda.

Kasus penggunaan

Diagnostik node dan diagnostik berbantuan AI mencakup skenario berikut.

Kategori	Skenario
Diagnostik node	Node NotReady — jaringan belum siap, PID (Process ID) tidak mencukupi, memori tidak mencukupi, disk space tidak mencukupi, pengecualian runtime, atau tidak ada heartbeat yang terdeteksi
	Kuota inode tidak mencukupi
	Kuota PID tidak mencukupi
	Waktu node salah
	Sistem file node read-only
	Deadlock pada kernel node
Diagnostik berbantuan AI	Status node abnormal
	Status instans ECS abnormal
	Error kubelet pada node
	Pengecualian runtime pada node
	Disk space tidak mencukupi
	Utilisasi CPU tinggi pada node

Item diagnostik

Kategori	Apa yang diperiksa
Node	Status node, status jaringan, log kernel, proses kernel, dan ketersediaan layanan
NodeComponent	Status komponen node utama, termasuk komponen jaringan dan penyimpanan
ClusterComponent	Ketersediaan server API, ketersediaan DNS, dan status gateway NAT
ECSControllerManager	Status instans ECS, koneksi jaringan, kesehatan sistem operasi, dan I/O disk
GPUNode	Status modul NVIDIA dan konfigurasi container runtime pada node berakselerasi GPU

Node

Jika masalah tetap berlanjut setelah menerapkan perbaikan yang disarankan, kumpulkan log node dan submit a ticket.

Item diagnostik	Apa yang dideteksi	Perbaikan
Error konektivitas ke server API Kubernetes	Apakah node dapat menjangkau server API kluster. Kehilangan konektivitas mencegah node menerima penugasan workload.	Periksa konfigurasi kluster. Lihat Troubleshoot ACK clusters.
AUFS mount hang	Apakah terjadi AUFS mount hang pada node.	Submit a ticket.
Error BufferIOError	Apakah error BufferIOError muncul di kernel node.	Submit a ticket.
Kebocoran cgroup	Apakah terjadi kebocoran cgroup. Kebocoran cgroup dapat mengganggu pengumpulan data pemantauan dan menyebabkan kegagalan startup kontainer.	Login ke node dan hapus direktori cgroup yang terpengaruh.
Status proses chronyd abnormal	Apakah proses chronyd berjalan normal. Proses chronyd yang abnormal mengganggu sinkronisasi jam, sehingga memengaruhi operasi yang sensitif terhadap waktu.	Jalankan `systemctl restart chronyd` untuk me-restart proses.
Pulling image oleh containerd	Apakah runtime containerd dapat menarik gambar sesuai harapan.	Periksa konfigurasi jaringan node dan pengaturan gambar.
Status Containerd	Apakah runtime containerd sedang berjalan.	Submit a ticket.
Ketersediaan pod CoreDNS	Apakah node dapat menjangkau alamat IP pod CoreDNS. Pod CoreDNS yang tidak dapat dijangkau menyebabkan kegagalan resolusi DNS untuk workload di node ini.	Periksa apakah node dapat mengakses alamat IP pod CoreDNS. Lihat What do I do if the DNS query load is not balanced among CoreDNS pods?.
Status gambar	Apakah gambar utuh. Gambar yang rusak mencegah kontainer dimulai.	Submit a ticket.
Status overlay2 gambar	Apakah sistem file overlay2 dalam gambar rusak.	Submit a ticket.
Waktu sistem	Apakah jam sistem akurat.	Tidak ada.
Startup kontainer Docker	Apakah kontainer Docker gagal dimulai.	Submit a ticket.
Pulling gambar Docker	Apakah node dapat menarik gambar Docker sesuai harapan.	Periksa konfigurasi jaringan node dan pengaturan gambar.
Status Docker	Apakah runtime Docker sedang berjalan.	Submit a ticket.
Waktu startup Docker	Waktu startup Dockerd.	Tidak ada.
Error hang Docker	Apakah terjadi error hang Docker pada node. Hang Docker dapat menyebabkan kontainer berhenti merespons.	Jalankan `systemctl restart docker` untuk me-restart Docker.
Keberadaan instans ECS	Apakah instans ECS dasar ada.	Periksa status instans ECS. Lihat FAQ about nodes and node pools.
Status instans ECS	Apakah instans ECS dalam kondisi sehat.	Periksa status instans ECS. Lihat FAQ about nodes and node pools.
Error Ext4FsError	Apakah error Ext4FsError muncul di kernel node.	Submit a ticket.
Sistem file node read-only	Apakah sistem file node menjadi read-only. Hal ini biasanya menunjukkan kegagalan disk dan memblokir semua operasi tulis, sehingga memengaruhi workload.	Jalankan `fsck` untuk memperbaiki sistem file, lalu restart node.
Waktu hardware	Apakah jam hardware dan jam sistem tersinkronisasi. Perbedaan lebih dari 2 menit dapat menyebabkan error komponen.	Jalankan `hwclock --systohc` untuk menyinkronkan waktu sistem ke jam hardware.
DNS	Apakah nama domain dapat di-resolve pada node.	Lihat DNS troubleshooting.
Error kernel oops	Apakah error oops muncul di kernel node. Error ini menunjukkan jalur kode tak terduga dan dapat menyebabkan ketidakstabilan.	Submit a ticket.
Versi kernel	Apakah versi kernel sudah usang. Kernel yang usang mungkin memiliki masalah stabilitas yang sudah diketahui.	Perbarui kernel node. Lihat FAQ about nodes and node pools.
Ketersediaan DNS	Apakah node dapat menjangkau IP cluster kube-dns Service untuk menggunakan layanan DNS kluster.	Periksa status dan log pod CoreDNS. Lihat DNS troubleshooting.
Status Kubelet	Apakah kubelet berjalan normal. Kubelet yang gagal mencegah node mengelola pod.	Periksa log kubelet. Lihat Troubleshoot ACK clusters.
Waktu startup Kubelet	Waktu startup kubelet.	Tidak ada.
Utilisasi CPU	Apakah utilisasi CPU node terlalu tinggi.	Tidak ada.
Utilisasi memori	Apakah utilisasi memori node terlalu tinggi.	Tidak ada.
Fragmentasi memori	Apakah terjadi fragmentasi memori pada node. Fragmentasi mengurangi memori kontigu dan dapat menurunkan performa workload.	Login ke node dan jalankan `echo 3 \> /proc/sys/vm/drop_caches` untuk mengosongkan cache.
Memori swap	Apakah memori swap diaktifkan. Kubernetes mengharuskan swap dinonaktifkan; mengaktifkannya dapat menyebabkan kubelet berperilaku tidak terduga.	Login ke node dan nonaktifkan memori swap.
Pemuatan driver perangkat jaringan	Apakah driver VirtIO pada perangkat jaringan dimuat dengan benar.	Submit a ticket.
Utilisasi CPU node terlalu tinggi	Apakah utilisasi CPU tinggi selama seminggu terakhir. Jika banyak pod dijadwalkan ke node dengan utilisasi CPU tinggi secara konsisten, konflik sumber daya dapat menyebabkan gangguan layanan.	Atur permintaan dan batas resource secara tepat untuk menghindari overload node.
Keberadaan IP privat node	Apakah node memiliki alamat IP privat yang ditetapkan. Tanpa IP privat, node tidak dapat berkomunikasi dalam kluster.	Hapus node dari kluster lalu tambahkan kembali. Jangan lepas instans ECS saat menghapusnya. Lihat Remove a node dan Add existing ECS instances.
Utilisasi memori node terlalu tinggi	Apakah utilisasi memori tinggi selama seminggu terakhir. Utilisasi memori tinggi yang dikombinasikan dengan penjadwalan pod berat dapat menyebabkan error out-of-memory (OOM) dan gangguan layanan.	Atur permintaan dan batas resource secara tepat untuk menghindari overload node.
Status node	Apakah node berada dalam status Ready.	Restart node. Lihat FAQ about nodes and node pools.
Kemampuan penjadwalan node	Apakah node ditandai sebagai unschedulable. Node yang unschedulable tidak menerima penugasan pod baru.	Periksa konfigurasi penjadwalan node. Lihat Node draining and scheduling status.
Error OOM	Apakah terjadi error out-of-memory (OOM) pada node. Error OOM dapat menyebabkan pod dan proses sistem dihentikan.	Submit a ticket.
Pemeriksaan runtime	Apakah container runtime node sesuai dengan runtime yang dikonfigurasi kluster. Ketidaksesuaian dapat menyebabkan pod gagal dimulai.	Lihat Dapatkah saya mengubah runtime kontainer kluster dari containerd ke Docker?.
Versi OS usang	Apakah versi OS node memiliki bug atau masalah stabilitas yang diketahui. Versi OS usang dapat menyebabkan runtime Docker dan containerd mengalami malfungsi.	Perbarui versi OS.
Akses Internet	Apakah node dapat menjangkau internet.	Periksa apakah SNAT diaktifkan untuk kluster. Lihat Enable an existing ACK cluster to access the internet.
Error RCUStallError	Apakah error RCUStallError muncul di kernel node. Error ini menunjukkan bahwa core CPU terjebak dalam bagian kritis read-copy-update (RCU), yang dapat menyebabkan node hang.	Submit a ticket.
Versi OS	Versi OS yang digunakan node. Versi OS usang dapat mencegah kluster beroperasi normal.	Tidak ada.
Kebocoran proses runc	Apakah terjadi kebocoran proses runc. Kebocoran proses runc dapat menyebabkan node secara berkala masuk ke status NotReady.	Identifikasi proses runc yang bocor dan hentikan secara manual.
Error SoftLockupError	Apakah error SoftLockupError muncul di kernel node. Error ini menunjukkan bahwa core CPU tidak merespons interupsi, yang dapat menyebabkan ketidakstabilan node.	Submit a ticket.
Hang systemd	Apakah terjadi hang systemd. Systemd yang hang dapat mencegah layanan dimulai atau dihentikan, sehingga memengaruhi stabilitas node.	Login ke node dan jalankan `systemctl daemon-reexec` untuk me-restart systemd.
Versi systemd usang	Apakah versi systemd memiliki bug yang diketahui. Versi usang dapat menyebabkan Docker dan containerd mengalami malfungsi.	Perbarui versi systemd. Lihat systemd.
Proses hang	Apakah terdapat proses hang pada node. Proses hang mengonsumsi sumber daya tanpa kemajuan dan menurunkan performa node.	Submit a ticket.
Error unregister_netdevice	Apakah error unregister_netdevice muncul di kernel node. Error ini dapat menyebabkan kebocoran resource kernel dan ketidakstabilan jaringan.	Submit a ticket.

NodeComponent

Item diagnostik	Apa yang dideteksi	Perbaikan
Status komponen CNI	Apakah plugin Container Network Interface (CNI) berjalan sesuai harapan. Plugin CNI yang gagal menyebabkan jaringan pod di node berhenti.	Periksa status komponen jaringan kluster. Lihat FAQ about network management.
Status komponen CSI	Apakah plugin Container Storage Interface (CSI) berjalan sesuai harapan. Plugin CSI yang gagal mencegah pod memasang volume.	Periksa status komponen penyimpanan kluster. Lihat FAQ about CSI.

ClusterComponent

Item diagnostik	Apa yang dideteksi	Perbaikan
Versi aliyun-acr-credential-helper	Apakah versi komponen aliyun-acr-credential-helper sudah usang.	Perbarui aliyun-acr-credential-helper. Lihat Use the aliyun-acr-credential-helper component to pull images without using a secret.
Ketersediaan API Service	Apakah API Service kluster tersedia. API Service yang tidak tersedia memblokir operasi manajemen workload.	Jalankan `kubectl get apiservice` untuk memeriksa ketersediaan. Jika tidak tersedia, jalankan `kubectl describe apiservice` untuk mengidentifikasi penyebabnya.
Blok CIDR pod yang tersedia tidak mencukupi	Apakah jumlah blok CIDR pod yang tersedia di kluster Flannel kurang dari lima. Setiap node memerlukan satu blok CIDR pod; jika semua blok telah digunakan, node baru tidak dapat bergabung ke kluster.	Submit a ticket.
Endpoint CoreDNS	Jumlah endpoint CoreDNS aktif. Terlalu sedikit endpoint mengurangi ketersediaan DNS.	Periksa status dan log pod CoreDNS. Lihat DNS troubleshooting.
Alamat IP cluster CoreDNS	Apakah alamat IP cluster ditetapkan ke pod CoreDNS. Tanpa IP cluster, permintaan DNS tidak dapat menjangkau CoreDNS, sehingga menyebabkan kegagalan DNS di seluruh layanan.	Periksa status dan log pod CoreDNS. Lihat DNS troubleshooting.
Status gateway NAT	Apakah gateway NAT kluster berfungsi normal. Gateway NAT yang gagal memblokir trafik internet arah keluar dari node tanpa IP publik.	Login ke NAT Gateway console dan periksa apakah gateway terkunci karena pembayaran tertunda.
Laju drop koneksi bersamaan yang terlalu tinggi pada gateway NAT	Apakah gateway NAT menjatuhkan laju koneksi bersamaan yang abnormal tinggi. Laju drop tinggi menunjukkan gateway telah mencapai kapasitas koneksi maksimum.	Upgrade gateway NAT. Lihat FAQ about upgrading standard Internet NAT gateways to enhanced Internet NAT gateways.

ECSControllerManager

Item diagnostik	Apa yang dideteksi	Perbaikan
Pembayaran tertunda terkait komponen instans ECS	Apakah disk atau bandwidth jaringan instans dibatasi karena pembayaran tertunda. Pembatasan sumber daya dapat menyebabkan kegagalan workload.	Isi ulang akun Anda untuk memulihkan akses.
Pembayaran tertunda terkait instans ECS	Apakah instans ECS bayar sesuai penggunaan telah ditangguhkan karena pembayaran tertunda.	Isi ulang akun Anda, lalu restart instans.
Status NIC instans ECS	Apakah kartu antarmuka jaringan (NIC) instans berfungsi normal. NIC yang abnormal menyebabkan kehilangan konektivitas jaringan.	Restart instans.
Status startup instans ECS	Apakah instans dapat di-boot secara normal.	Jika boot gagal, buat instans baru.
Status sistem manajemen backend instans ECS	Apakah sistem manajemen backend instans beroperasi normal.	Restart instans.
Status CPU instans ECS	Apakah terjadi konflik sumber daya CPU atau kegagalan binding CPU di lapisan dasar instans. Konflik CPU dapat mencegah instans memperoleh sumber daya CPU dan menurunkan performa.	Restart instans.
Split lock pada CPU instans ECS	Apakah terjadi split lock pada CPU instans ECS. Split lock dapat sangat menurunkan performa CPU.	Lihat Detecting and handling split locks.
Status mitigasi DDoS untuk instans ECS	Apakah alamat IP publik instans sedang mengalami serangan DDoS.	Beli layanan anti-DDoS. Lihat Comparison of Alibaba Cloud Anti-DDoS solutions.
Kemampuan baca/tulis cloud disk terbatas	Apakah throughput baca/tulis cloud disk sedang dikendalikan alirannya. Pengendalian aliran terjadi saat IOPS maksimum tercapai, sehingga operasi I/O melambat atau masuk antrian.	Lihat Block storage performance.
Pemuatan disk instans ECS	Apakah cloud disk dapat disambungkan saat instans dimulai.	Hentikan instans lalu mulai lagi.
Kedaluwarsa instans ECS	Apakah instans langganan telah kedaluwarsa. Instans yang kedaluwarsa akan dihentikan dan sumber dayanya menjadi tidak tersedia.	Perpanjang instans. Lihat Renew a subscription instance.
Crash OS instans ECS	Apakah terjadi crash OS dalam 48 jam terakhir.	Tinjau log sistem untuk mengidentifikasi penyebabnya. Lihat View system logs and screenshots.
Status host instans ECS	Apakah server fisik yang menampung instans mengalami kegagalan. Kegagalan host dapat menurunkan performa instans.	Restart instans.
Pemuatan gambar instans ECS	Apakah instans dapat memuat gambarnya selama inisialisasi.	Restart instans.
Hang I/O pada disk instans ECS	Apakah terjadi hang I/O pada disk sistem. Hang I/O disk dapat menyebabkan sistem operasi tidak merespons.	Periksa metrik disk. Lihat Melihat data pemantauan disk cloud. Untuk Alibaba Cloud Linux 2, lihat Mendeteksi hang I/O pada sistem file dan lapisan blok.
Batas atas bandwidth instans ECS	Apakah total bandwidth instans telah mencapai maksimum untuk tipe instansnya. Saat batas tercapai, throughput jaringan dibatasi dan paket mungkin di-drop.	Upgrade ke tipe instans dengan bandwidth lebih tinggi. Lihat Overview of instance configuration changes.
Batas atas bandwidth burst instans ECS	Apakah bandwidth burst instans telah melebihi maksimum yang diizinkan untuk tipe instansnya.	Upgrade ke tipe instans dengan bandwidth lebih tinggi. Lihat Overview of instance configuration changes.
Pemuatan NIC instans ECS	Apakah NIC dapat dimuat pada instans. Jika NIC gagal dimuat, instans kehilangan konektivitas jaringan.	Restart instans.
Pembentukan sesi NIC pada instans ECS	Apakah sesi dapat dibentuk ke NIC. Jika NIC tidak dapat membentuk sesi atau telah mencapai batas sesinya, konektivitas atau throughput jaringan terpengaruh.	Restart instans.
Operasi kunci pada instans ECS	Apakah operasi terbaru pada instans — seperti memulai, menghentikan, atau meng-upgrade — berhasil diselesaikan.	Ulangi operasi yang gagal.
Kehilangan paket pada NIC instans ECS	Apakah terjadi kehilangan paket inbound atau outbound pada NIC. Kehilangan paket menyebabkan error jaringan dan dapat mengganggu layanan.	Restart instans.
Penurunan performa instans ECS	Apakah performa instans mengalami penurunan sementara karena masalah perangkat lunak atau keras.	Lihat event historis atau log sistem instans untuk mengidentifikasi penyebabnya. Lihat View historical system events.
Performa instans ECS terganggu	Apakah performa instans berkurang. Kredit CPU yang tidak mencukupi menyebabkan instans burstable kembali ke kinerja dasar.	Instans ECS hanya dapat memberikan kinerja dasar karena kredit CPU yang tersedia tidak mencukupi.
Pengubahan ukuran disk instans ECS	Apakah disk telah diubah ukurannya tetapi OS belum memperluas sistem file. Ruang disk tambahan tidak tersedia hingga sistem file diubah ukurannya.	OS tidak secara otomatis mengubah ukuran sistem file setelah pengubahan ukuran disk. Jika disk tetap tidak dapat digunakan, ubah ukurannya lagi.
Permohonan sumber daya instans ECS	Apakah sumber daya CPU dan memori fisik yang cukup tersedia untuk instans. Jika sumber daya tidak mencukupi, instans tidak dapat dimulai.	Tunggu beberapa menit lalu coba mulai instans lagi. Jika masalah berlanjut, buat instans di wilayah berbeda.
Status OS instans ECS	Apakah terjadi panic kernel, error OOM, atau kegagalan internal pada OS instans. Masalah ini sering disebabkan oleh pengaturan yang salah konfigurasi atau program pengguna.	Restart instans.
Status virtualisasi instans ECS	Apakah terdapat pengecualian pada lapisan virtualisasi dasar. Pengecualian ini dapat menyebabkan instans berhenti merespons atau ditangguhkan secara tak terduga.	Restart instans.

GPUNode

Item diagnostik	Apa yang dideteksi	Perbaikan
Container runtime	Apakah container runtime pada node berakselerasi GPU valid. ACK hanya mendukung Docker dan containerd untuk node berakselerasi GPU.	Periksa status runtime Docker atau containerd pada node.
Versi NVIDIA-Container-Runtime	Apakah versi NVIDIA-Container-Runtime kompatibel dengan kluster. NVIDIA-Container-Runtime yang tidak kompatibel atau tidak ada mencegah kontainer GPU dimulai.	1. Periksa apakah versi NVIDIA-Container-Runtime sesuai dengan versi Kubernetes kluster. Lihat Release notes for Kubernetes versions. 2. Jika masalah berlanjut, kumpulkan data diagnostik dan submit a ticket. Lihat Collect diagnostic data from GPU-accelerated nodes.
Status modul cGPU	Apakah modul cGPU berjalan sesuai harapan pada node dengan pembagian GPU diaktifkan.	1. Periksa apakah komponen cGPU telah diinstal. Lihat Install the GPU sharing component. 2. Jika modul tetap gagal, kumpulkan data diagnostik dan submit a ticket. Lihat Collect diagnostic data from GPU-accelerated nodes.
Konfigurasi container runtime	Apakah container runtime pada node berakselerasi GPU dikonfigurasi dengan benar. Salah konfigurasi mencegah kontainer GPU berjalan.	Periksa apakah bidang `nvidia-container-runtime` ditentukan dalam file konfigurasi runtime: Docker — `/etc/docker/daemon.json`; containerd — `/etc/containerd/config.toml`.
Status NVIDIA-Container-Runtime	Apakah NVIDIA-Container-Runtime berjalan sesuai harapan.	Kumpulkan data diagnostik dan kirim tiket. Lihat Kumpulkan Data Diagnostik dari Node yang Diakselerasi GPU.
Status modul NVIDIA	Apakah modul kernel NVIDIA berjalan sesuai harapan pada node berakselerasi GPU. Modul NVIDIA yang gagal mencegah semua workload GPU berjalan.	1. Diagnosis node berakselerasi GPU. Lihat GPU FAQ. 2. Kumpulkan data diagnostik dan submit a ticket. Lihat Collect diagnostic data from GPU-accelerated nodes.