All Products
Search
Document Center

Container Service for Kubernetes:Diagnostik Pod

Last Updated:Mar 26, 2026

Container Intelligence Service mendiagnosis pod menggunakan pemeriksaan berbasis aturan ahli dan model diagnostik berbantuan AI. Ketika sebuah pod tidak normal, mesin diagnostik mengumpulkan data dari node yang terdampak, mengidentifikasi anomali, menjalankan pemeriksaan diagnostik yang telah ditentukan, serta melacak akar penyebabnya—kemudian menampilkan saran perbaikan.

Penting

Saat Anda menjalankan diagnostik pod, ACK menyebarkan program pengumpulan data pada setiap node dalam kluster. Program tersebut mengumpulkan versi sistem, status workload, status Docker dan kubelet, serta pesan error penting dari log sistem. Program ini tidak mengumpulkan data bisnis atau informasi sensitif.

Cara kerja

Hasil diagnostik dihasilkan dalam empat tahap:

Node diagnostics
  1. Identifikasi anomali — Mengumpulkan status node, status pod, dan aliran event kluster, lalu mengidentifikasi anomali.

  2. Pengumpulan data — Mengumpulkan data kontekstual berdasarkan anomali yang terdeteksi: informasi node di Kubernetes, informasi instance ECS, status proses Docker, dan status proses kubelet.

  3. Pemeriksaan item diagnostik — Memeriksa metrik kunci terhadap data yang dikumpulkan. Diagnostik node dikelompokkan ke dalam kategori; setiap kategori mencantumkan item diagnostiknya beserta deskripsi.

  4. Analisis akar penyebab — Menganalisis akar penyebab berdasarkan data yang dikumpulkan dan hasil pemeriksaan, menggunakan mode ahli maupun mode AI.

Hasil diagnostik

Setiap eksekusi diagnostik menghasilkan dua jenis output:

  • Hasil analisis akar penyebab — Anomali yang terdeteksi, akar penyebab, dan saran perbaikan.

  • Hasil pemeriksaan item diagnostik — Status lulus/gagal untuk setiap item diagnostik. Hasil ini melengkapi analisis akar penyebab dengan mengungkap isu yang mungkin terlewat hanya dengan pencocokan pola.

Item diagnostik yang tersedia bergantung pada konfigurasi kluster Anda. Item yang ditampilkan pada halaman diagnostik bersifat otoritatif.

Skenario yang didukung

Tabel berikut mencantumkan skenario yang dicakup oleh diagnostik pod dan diagnostik berbantuan AI.

KategoriSkenario
Diagnostik PodPod tidak diproses oleh scheduler
Pod tidak dapat dijadwalkan karena pelanggaran batasan penjadwalan
Pod dijadwalkan tetapi tidak diproses oleh kubelet
Pod menunggu volume mencapai status Ready
Pod dikeluarkan
Pod dievict karena disk space tidak mencukupi
Pod dievict karena memori pada node tidak mencukupi
Pod dievict karena indeks disk tidak mencukupi
Kontainer sandbox dalam pod gagal dimulai
Pod tetap dalam status Terminating
Terjadi error out-of-memory (OOM) pada kontainer dalam pod
Kontainer dalam pod keluar secara tak terduga
Kontainer dalam pod tetap dalam status CrashLoopBackOff
Container dalam Pod belum siap
Pod gagal menarik gambar kontainer
Pod timeout saat menarik gambar kontainer
Diagnostik berbantuan AIStatus pod tidak normal
Terjadi error OOM pada pod
Kontainer dalam pod keluar secara tak terduga
Konfigurasi ConfigMap atau Secret tidak valid
Pod gagal dalam pemeriksaan kesehatan
Konfigurasi persistent volume claim (PVC) tidak valid
Terjadi error saat menarik gambar kontainer

Kategori item diagnostik

Diagnostik pod memeriksa lima kategori komponen:

KategoriApa yang diperiksa
PodStatus pod, penarikan gambar, dan konektivitas jaringan
NodeStatus node, status jaringan, log kernel, proses kernel, dan ketersediaan layanan
NodeComponentStatus komponen node utama, termasuk komponen jaringan (CNI) dan penyimpanan (CSI)
ClusterComponentKetersediaan server API, layanan DNS, dan status gateway NAT
ECSControllerManagerStatus instance ECS, koneksi jaringan, sistem operasi, dan I/O disk

Pod

Item diagnostikApa yang diperiksaSolusi
Jumlah restart kontainerBerapa kali kontainer dalam pod telah direstartPeriksa status pod dan log. Lihat Troubleshooting Pod.
Kegagalan unduh gambar kontainerApakah pod lain pada node yang sama juga gagal menarik gambarPeriksa status pod dan log. Lihat Troubleshooting Pod.
Validitas Secret yang digunakan untuk menarik gambarApakah Secret untuk menarik gambar validPeriksa status pod dan log. Lihat Troubleshooting Pod.
Konektivitas antara pod dan pod CoreDNSApakah pod dapat menjangkau pod CoreDNSPeriksa konektivitas jaringan antara pod dan pod CoreDNS.
Konektivitas antara pod dan Layanan CoreDNSApakah pod dapat menjangkau Layanan CoreDNSPeriksa konektivitas jaringan antara pod dan Layanan CoreDNS.
Konektivitas antara pod dan server DNS jaringan hostApakah pod dapat menjangkau server DNS di jaringan hostPeriksa konektivitas jaringan antara pod dan server DNS jaringan host.
Status D proses kontainerApakah proses kontainer terjebak dalam status D (uninterruptible sleep)Proses dalam status D biasanya menunggu I/O disk. Restart instance ECS. Jika masalah berlanjut, submit a ticket.
Inisialisasi podApakah pod telah diinisialisasiPeriksa status pod dan log. Lihat Troubleshooting Pod.
Penjadwalan podApakah pod telah dijadwalkanPeriksa status pod dan log. Lihat Troubleshooting Pod.

Node

Jika masalah berlanjut setelah menerapkan solusi, kumpulkan log node dan submit a ticket.

Item diagnostikApa yang diperiksaSolusi
Konektivitas ke server API KubernetesApakah node dapat terhubung ke server API klusterPeriksa konfigurasi kluster. Lihat Troubleshoot kluster ACK.
Hang mount AUFSApakah terjadi hang mount AUFSSubmit a ticket.
Error BufferIOErrorApakah error BufferIOError muncul di kernel nodeSubmit a ticket.
Kebocoran cgroupApakah terdapat kebocoran cgroup pada nodeKebocoran cgroup dapat mengganggu pengumpulan data pemantauan dan menyebabkan kegagalan startup kontainer. Masuk ke node dan hapus direktori cgroup.
Proses chronyd tidak normalApakah proses chronyd berjalan normalProses chronyd yang tidak normal memengaruhi sinkronisasi jam sistem. Jalankan systemctl restart chronyd untuk merestart proses.
Penarikan gambar oleh containerdApakah runtime containerd dapat menarik gambarPeriksa pengaturan jaringan node dan konfigurasi gambar.
Status containerdApakah containerd sedang berjalanSubmit a ticket.
Ketersediaan pod CoreDNSApakah node dapat mengakses alamat IP pod CoreDNSLihat Apa yang harus dilakukan jika beban kueri DNS tidak seimbang di antara pod CoreDNS?.
Status gambarApakah gambar rusakSubmit a ticket.
Status overlay2 gambarApakah sistem file overlay2 dalam gambar rusakSubmit a ticket.
Waktu sistemApakah waktu sistem benarTidak perlu tindakan.
Startup kontainer DockerApakah kontainer Docker gagal dimulaiSubmit a ticket.
Penarikan gambar DockerApakah node dapat menarik gambar DockerPeriksa pengaturan jaringan node dan konfigurasi gambar.
Status DockerApakah Docker sedang berjalanSubmit a ticket.
Waktu startup dockerdWaktu startup dockerdTidak perlu tindakan.
Error hang DockerApakah terjadi error hang DockerJalankan systemctl restart docker untuk merestart Docker.
Keberadaan instance ECSApakah instance ECS adaPeriksa status instance ECS. Lihat FAQ tentang node dan kelompok node.
Status instance ECSStatus saat ini dari instance ECSPeriksa status instance ECS. Lihat FAQ tentang node dan kelompok node.
Error Ext4FsErrorApakah error Ext4FsError muncul di kernel nodeSubmit a ticket.
Sistem file node dalam mode read-onlyApakah sistem file node dalam mode read-onlySistem file read-only biasanya menunjukkan kegagalan disk dan memblokir operasi tulis. Jalankan fsck untuk memperbaiki sistem file, lalu restart node.
Waktu hardwareApakah waktu hardware dan waktu sistem selarasPerbedaan lebih dari 2 menit dapat menyebabkan error komponen. Jalankan hwclock --systohc untuk menyelaraskan waktu sistem ke jam hardware.
Resolusi DNSApakah nama domain dapat diresolusi pada nodeLihat Troubleshooting DNS.
Error kernel oopsApakah terdapat error kernel oops di kernel nodeSubmit a ticket.
Versi kernelApakah versi kernel sudah usangVersi kernel yang usang dapat menyebabkan kegagalan sistem. Perbarui kernel node. Lihat FAQ tentang node dan kelompok node.
Ketersediaan DNSApakah node dapat mengakses cluster IP layanan kube-dns untuk DNSPeriksa status dan log pod CoreDNS. Lihat Troubleshooting DNS.
Status kubeletApakah kubelet sedang berjalanPeriksa log kubelet. Lihat Troubleshoot kluster ACK.
Waktu startup kubeletWaktu startup kubeletTidak perlu tindakan.
Utilisasi CPUApakah utilisasi CPU terlalu tinggiTidak perlu tindakan.
Utilisasi memoriApakah utilisasi memori terlalu tinggiTidak perlu tindakan.
Fragmentasi memoriApakah terdapat fragmen memori pada nodeMasuk ke node dan jalankan echo 3 > /proc/sys/vm/drop_caches untuk mengosongkan cache.
Memori swapApakah memori swap diaktifkanMemori swap harus dinonaktifkan. Masuk ke node dan nonaktifkan swap.
Pemuatan driver VirtIOApakah driver VirtIO dimuat pada perangkat jaringanPeriksa error driver VirtIO pada perangkat jaringan.
Utilisasi CPU tinggi (mingguan)Apakah utilisasi CPU konsisten tinggi selama seminggu terakhirCPU tinggi akibat terlalu banyak pod yang dijadwalkan menyebabkan konflik sumber daya. Tetapkan permintaan dan batas sumber daya yang sesuai untuk menghindari overload node.
Alamat IP privat nodeApakah node memiliki alamat IP privatJika IP privat hilang, hapus node dari kluster tanpa melepas instance ECS, lalu tambahkan kembali. Lihat Hapus node dan Tambahkan instance ECS yang ada.
Utilisasi memori tinggi (mingguan)Apakah utilisasi memori konsisten tinggi selama seminggu terakhirMemori tinggi akibat terlalu banyak pod yang dijadwalkan dapat menyebabkan error OOM dan gangguan layanan. Tetapkan permintaan dan batas sumber daya yang sesuai.
Status nodeApakah node dalam status ReadyRestart node. Lihat FAQ tentang node dan kelompok node.
Kemampuan penjadwalan nodeApakah node tidak dapat dijadwalkanJika node di-cordon, periksa konfigurasi penjadwalannya. Lihat Status draining dan penjadwalan node.
Error OOMApakah error OOM pernah terjadi pada nodeSubmit a ticket.
Konsistensi runtime kontainerApakah runtime node sesuai dengan runtime klusterLihat Dapatkah saya mengubah runtime kontainer kluster dari containerd ke Docker?.
Versi OS (bug yang diketahui)Apakah versi OS memiliki bug atau masalah stabilitas yang diketahuiBug OS yang diketahui dapat menyebabkan Docker dan containerd tidak berfungsi. Perbarui versi OS.
Akses InternetApakah node dapat mengakses internetPeriksa apakah SNAT diaktifkan untuk kluster. Lihat Aktifkan kluster ACK yang ada untuk mengakses internet.
Error RCUStallErrorApakah error RCUStallError muncul di kernel nodeSubmit a ticket.
Versi OSVersi OS yang saat ini digunakan oleh nodeTidak perlu tindakan.
Kebocoran proses runcApakah terjadi kebocoran proses runcKebocoran runc dapat menyebabkan node secara berkala masuk ke status NotReady. Identifikasi proses runc yang bocor dan hentikan secara manual.
Error SoftLockupErrorApakah error SoftLockupError muncul di kernel nodeSubmit a ticket.
Hang systemdApakah terjadi hang systemdJalankan systemctl daemon-reexec untuk merestart systemd.
Versi systemd (bug yang diketahui)Apakah versi systemd memiliki bug yang diketahuiVersi systemd yang usang dapat menyebabkan Docker dan containerd tidak berfungsi. Perbarui systemd. Lihat systemd.
Proses hangApakah terdapat proses hang pada nodeSubmit a ticket.
Error unregister_netdeviceApakah error unregister_netdevice muncul di kernel nodeSubmit a ticket.

NodeComponent

Item diagnostikApa yang diperiksaSolusi
Status komponen CNIApakah plugin Container Network Interface (CNI) sedang berjalanPeriksa status komponen jaringan. Lihat FAQ tentang manajemen jaringan.
Status komponen CSIApakah plugin Container Storage Interface (CSI) sedang berjalanPeriksa status komponen penyimpanan. Lihat FAQ tentang CSI.

ClusterComponent

Item diagnostikApa yang diperiksaSolusi
Versi aliyun-acr-credential-helperApakah versi aliyun-acr-credential-helper sudah usangPerbarui aliyun-acr-credential-helper. Lihat Gunakan aliyun-acr-credential-helper untuk menarik gambar tanpa secret.
Ketersediaan Layanan APIApakah Layanan API kluster tersediaJalankan kubectl get apiservice untuk memeriksa ketersediaan. Jika tidak tersedia, jalankan kubectl describe apiservice untuk melihat detail dan mengidentifikasi penyebabnya.
Blok CIDR pod yang tersediaApakah jumlah blok CIDR pod yang tersedia kurang dari lima (hanya untuk Flannel)Setiap node memerlukan satu blok CIDR pod. Jika semua blok telah digunakan, node baru tidak dapat bergabung ke kluster. Submit a ticket.
Endpoint CoreDNSJumlah endpoint CoreDNS aktifPeriksa status dan log pod CoreDNS. Lihat Troubleshooting DNS.
Alamat IP cluster CoreDNSApakah alamat IP cluster dialokasikan ke pod CoreDNSIP cluster yang tidak dialokasikan dapat menyebabkan gangguan layanan DNS. Periksa status dan log pod CoreDNS. Lihat Troubleshooting DNS.
Status gateway NATStatus gateway NAT klusterMasuk ke Konsol Gateway NAT dan periksa apakah gateway dikunci karena pembayaran tertunda.
Laju drop koneksi bersamaan gateway NATApakah laju drop koneksi bersamaan pada gateway NAT tinggiTingkatkan gateway NAT. Lihat FAQ tentang peningkatan gateway NAT Internet standar ke gateway NAT Internet enhanced.

ECSControllerManager

Item diagnostikApa yang diperiksaSolusi
Pembayaran tertunda komponen instance ECSApakah disk atau bandwidth jaringan tidak tersedia karena pembayaran tertundaIsi ulang akun Anda.
Pembayaran tertunda instance ECSApakah instance ECS bayar sesuai penggunaan ditangguhkan karena pembayaran tertundaIsi ulang akun Anda, lalu restart instance.
Status NIC instance ECSApakah NIC berfungsiMulai ulang instance.
Status startup instance ECSApakah instance dapat boot secara normalJika instance tidak dapat boot, buat instance baru.
Sistem manajemen backend instance ECSApakah sistem manajemen backend berfungsiRestart instance.
Status CPU instance ECSApakah terdapat konflik CPU atau kegagalan binding pada lapisan dasarKonflik CPU dapat mencegah instance mendapatkan waktu CPU. Restart instance.
Split lock pada CPU instance ECSApakah terjadi split lock pada CPU instanceLihat Mendeteksi dan menangani split lock.
Status mitigasi DDoSApakah alamat IP publik instance sedang mengalami serangan DDoSBeli perlindungan Anti-DDoS tambahan. Lihat Perbandingan solusi Anti-DDoS Alibaba Cloud.
Kemampuan baca/tulis cloud diskApakah operasi baca/tulis cloud disk dikendalikan alirannyaPengendalian aliran terjadi ketika IOPS disk mencapai maksimum. Periksa metrik disk. Lihat Kinerja penyimpanan blok.
Pemuatan cloud diskApakah cloud disk dapat disambungkan selama startup instanceJika disk gagal disambungkan, hentikan instance dan mulai lagi.
Kedaluwarsa instance ECSApakah langganan telah kedaluwarsaPerpanjang instance. Lihat Perpanjang instance langganan.
Crash OS instance ECSApakah terjadi crash OS dalam 48 jam terakhirPeriksa log sistem untuk mengidentifikasi penyebabnya. Lihat Lihat log sistem dan tangkapan layar.
Status host instance ECSApakah server fisik yang menjalankan instance mengalami kegagalanKegagalan server fisik dapat menurunkan kinerja instance. Restart instance.
Pemuatan gambar instance ECSApakah instance dapat memuat gambarnya selama inisialisasiJika gambar gagal dimuat, restart instance.
Hang I/O pada disk sistemApakah terjadi hang I/O pada disk sistem instancePeriksa metrik disk. Lihat Lihat data pemantauan cloud disk. Untuk Alibaba Cloud Linux 2, lihat Deteksi hang I/O pada sistem file dan lapisan blok.
Batas bandwidth instance ECSApakah total bandwidth telah mencapai maksimum tipe instansTingkatkan ke tipe instans dengan bandwidth lebih tinggi. Lihat Ikhtisar perubahan konfigurasi instans.
Batas bandwidth burst instance ECSApakah bandwidth burst melebihi batas tipe instansTingkatkan ke tipe instans dengan bandwidth lebih tinggi. Lihat Ikhtisar perubahan konfigurasi instans.
Pemuatan NIC instance ECSApakah NIC dapat dimuatJika NIC gagal dimuat, konektivitas jaringan terpengaruh. Restart instance.
Pembentukan sesi NICApakah sesi dapat dibentuk ke NICJika sesi tidak dapat dibentuk atau batas sesi tercapai, konektivitas atau throughput jaringan terpengaruh. Restart instance.
Operasi kunci terbaruApakah operasi instance terbaru berhasil (start, stop, resize)Jika operasi gagal, lakukan kembali.
Kehilangan paket NICApakah terjadi kehilangan paket inbound atau outbound pada NICMulai ulang instance ini.
Degradasi kinerja instance ECSApakah kinerja instance sementara menurun karena masalah hardware atau softwarePeriksa event historis dan log sistem untuk mengidentifikasi penyebabnya. Lihat Lihat event sistem historis.
Kinerja instance ECS terkompromiApakah instance hanya berjalan pada kinerja dasar karena kredit CPU tidak mencukupiIsi ulang kredit CPU atau tingkatkan ke tipe instans tanpa batas kredit.
Resize disk instance ECSApakah disk telah di-resize tetapi sistem file belum diperbaruiJika sistem file tidak di-resize setelah ekspansi disk, resize disk lagi.
Ketersediaan sumber daya instance ECSApakah sumber daya CPU dan memori fisik yang cukup tersedia untuk instanceJika sumber daya tidak mencukupi, instance tidak dapat dimulai. Tunggu beberapa menit lalu coba lagi, atau buat instance di wilayah berbeda.
Status OS instance ECSApakah terdapat panic kernel, error OOM, atau kegagalan internal di OSMasalah ini mungkin disebabkan oleh salah konfigurasi atau program pengguna di OS. Restart instance.
Status virtualisasi instance ECSApakah terdapat pengecualian pada lapisan virtualisasi dasarPengecualian virtualisasi dapat menyebabkan instance membeku atau restart secara tak terduga. Restart instance.