全部产品
Search
文档中心

Container Service for Kubernetes:Diagnostik Pod

更新时间:Jul 06, 2025

Container Service for Kubernetes menyediakan fitur diagnostik pod untuk membantu mendiagnosis pod. Topik ini menjelaskan item diagnostik pod serta solusi untuk memperbaiki masalah terkait pod.

ACK mengembangkan sistem diagnostik berdasarkan pengalaman ahli dan melatih model diagnostik berbantuan AI menggunakan data dalam jumlah besar. Fitur diagnostik pod menyediakan dua mode diagnostik: mode ahli dan mode AI, untuk membantu menemukan akar penyebab masalah. Diagnostik pod mencakup item diagnostik dan akar penyebab.

  • Diagnostic items: mencakup pod, komponen kluster.

  • Root cause: menemukan akar penyebab masalah dan memberikan saran untuk memperbaikinya. Fitur diagnostik pod mengumpulkan informasi tentang kluster, mengidentifikasi anomali, lalu melakukan diagnostik mendalam.

Penting

Saat menggunakan fitur diagnostik pod, ACK menjalankan program pengumpulan data dalam kluster untuk mengumpulkan hasil diagnostik. Informasi yang dikumpulkan mencakup versi sistem, status beban kerja, Docker, kubelet, serta informasi kesalahan utama dalam log sistem. Program pengumpulan data tidak mengumpulkan informasi bisnis atau data sensitif.

Skenario

Tabel berikut menjelaskan skenario diagnostik pod dan diagnostik berbantuan AI.

Kategori

Skema

Diagnostik Pod

Pod tidak diproses oleh penjadwal.

Pod tidak dapat dijadwalkan karena tidak memenuhi persyaratan batasan untuk penjadwalan.

Pod dijadwalkan tetapi tidak diproses oleh kubelet.

Pod menunggu volume mencapai status Ready.

Pod dievakuasi.

Kontainer sandbox di pod gagal dibuat.

Pod tetap dalam status Terminating.

Kesalahan out-of-memory (OOM) terjadi pada kontainer di pod.

Kontainer di pod keluar secara tidak normal.

Kontainer di pod tetap dalam status CrashLoopBackOff.

Kontainer di pod belum siap.

Pod gagal menarik gambar kontainer.

Kesalahan timeout terjadi saat pod menarik gambar kontainer.

Diagnostik berbantuan AI

Status pod tidak normal.

Kesalahan OOM terjadi pada pod.

Kontainer di pod keluar secara tidak normal.

Konfigurasi ConfigMaps atau Secrets dari pod tidak valid.

Pod gagal melewati pemeriksaan kesehatan.

Konfigurasi persistent volume claims (PVCs) dari pod tidak valid.

Kesalahan terjadi saat pod menarik gambar kontainer.

Prosedur

Fitur diagnostik kluster mengumpulkan informasi tentang kluster, mengidentifikasi anomali, lalu melakukan diagnostik mendalam. Mode ahli dan mode AI digunakan untuk membantu menemukan akar penyebab masalah. Hasil diagnostik dihasilkan melalui langkah-langkah berikut: identifikasi anomali, pengumpulan data, pemeriksaan item diagnostik, dan analisis akar penyebab.

  • Anomaly identification: mengumpulkan data dasar seperti status pod, dan aliran acara kluster, lalu menganalisis anomali berdasarkan data tersebut.

  • Data collection: mengumpulkan dan mendiagnosis data terkait konteks berdasarkan hasil identifikasi anomali.

  • Diagnostic item check: memeriksa apakah metrik kunci normal berdasarkan data yang dikumpulkan.

  • Root cause analysis: menganalisis akar penyebab masalah berdasarkan data yang dikumpulkan dan hasil pemeriksaan item diagnostik.

Hasil diagnostik

Hasil diagnostik mencakup hasil analisis akar penyebab dan hasil pemeriksaan item diagnostik. Hasil analisis akar penyebab mencakup detected anomalies, root cause, suggestions for fixes. Hasil pemeriksaan item diagnostik mencakup hasil pemeriksaan setiap item diagnostik. Pemeriksaan item diagnostik digunakan untuk menemukan penyebab yang mungkin tidak diidentifikasi oleh analisis akar penyebab.

Catatan

Item diagnostik dapat bervariasi berdasarkan konfigurasi kluster. Item diagnostik aktual tersedia pada halaman diagnostik yang relevan.

Item diagnostik pod

Kategori

Deskripsi

Pod

Mendiagnosis masalah pod umum, termasuk status pod, penarikan gambar, dan konektivitas jaringan.

Komponen Kluster

Mendiagnosis masalah kluster umum, termasuk ketersediaan server API dan layanan DNS serta status gateway NAT.

Pod

Item diagnostik

Deskripsi

Solusi

Jumlah restart kontainer

Menunjukkan jumlah kali kontainer dalam pod di-restart.

Periksa status dan log pod. Untuk informasi lebih lanjut, lihat Pemecahan masalah Pod.

Kegagalan unduhan gambar kontainer

Periksa apakah pod lain di node pod saat ini gagal mengunduh gambar kontainer.

Periksa status dan log pod. Untuk informasi lebih lanjut, lihat Pemecahan masalah Pod.

Validitas Secrets yang digunakan oleh pod untuk menarik gambar kontainer

Periksa validitas Secrets yang digunakan oleh pod untuk menarik gambar kontainer.

Periksa status dan log pod. Untuk informasi lebih lanjut, lihat Pemecahan masalah Pod.

Validitas variabel lingkungan pod dengan akselerasi GPU

Periksa apakah NVIDIA_VISIBLE_DEVICES termasuk dalam variabel lingkungan pod karena variabel ini dapat bertentangan dengan kubelet.

Periksa status dan log pod. Untuk informasi lebih lanjut, lihat Pemecahan masalah Pod.

Konektivitas antara pod dan pod CoreDNS

Periksa konektivitas antara pod dan pod CoreDNS.

Periksa konektivitas antara pod dan pod CoreDNS.

Konektivitas antara pod dan Layanan CoreDNS

Periksa konektivitas antara pod dan Layanan CoreDNS.

Periksa konektivitas antara pod dan Layanan CoreDNS.

Konektivitas antara pod dan server DNS di jaringan host

Periksa konektivitas antara pod dan server DNS di jaringan host.

Periksa konektivitas antara pod dan server DNS di jaringan host.

Status proses kontainer D di pod

Periksa apakah proses kontainer di pod berada dalam status D.

Dalam banyak kasus, proses kontainer sedang menunggu I/O disk jika proses kontainer berada dalam status D. Mulai ulang instance ECS yang sesuai untuk menyelesaikan masalah ini. Jika masalah tetap ada, submit a ticket.

Inisialisasi Pod

Periksa apakah pod diinisialisasi.

Periksa status dan log pod. Untuk informasi lebih lanjut, lihat Pemecahan masalah Pod.

Sumber daya GPU yang diminta oleh pod

Periksa apakah pod meminta sumber daya GPU. Pastikan bahwa alasan pod tidak dapat menggunakan GPU bukan karena pod belum meminta sumber daya GPU.

Jika pod belum mengklaim sumber daya GPU, periksa konfigurasi pod.

Penjadwalan Pod

Periksa apakah pod dijadwalkan.

Jika pod belum mengklaim sumber daya GPU, periksa konfigurasi pod.

Komponen Kluster

Item diagnostik

Deskripsi

Solusi

Versi aliyun-acr-credential-helper

Memeriksa apakah versi aliyun-acr-credential-helper yang digunakan oleh kluster sudah ketinggalan zaman.

Jika versi aliyun-acr-credential-helper yang digunakan oleh kluster sudah ketinggalan zaman, perbarui aliyun-acr-credential-helper. Untuk informasi lebih lanjut, lihat Gunakan komponen aliyun-acr-credential-helper untuk menarik gambar tanpa menggunakan secret.

Ketersediaan Layanan API

Memeriksa apakah Layanan API kluster tersedia.

Jalankan perintah kubectl get apiservice untuk memeriksa ketersediaan Layanan API kluster. Jika Layanan API tidak tersedia, jalankan perintah kubectl describe apiservice untuk melihat informasi tentang Layanan API dan mengidentifikasi penyebabnya.

Blok CIDR pod yang tersedia tidak cukup

Memeriksa apakah jumlah blok CIDR pod yang tersedia dalam kluster yang telah memasang Flannel kurang dari lima. Setiap node dalam kluster dilampirkan ke blok CIDR pod. Jika semua blok CIDR pod digunakan, node baru yang Anda tambahkan ke kluster tidak dapat bekerja dengan baik.

submit a ticket.

Titik akhir CoreDNS

Memeriksa jumlah titik akhir CoreDNS.

Periksa status dan log pod CoreDNS. Untuk informasi lebih lanjut, lihat Pemecahan masalah DNS.

Alamat IP kluster CoreDNS

Memeriksa apakah alamat IP kluster dialokasikan ke pod CoreDNS. Jika alamat IP kluster tidak dialokasikan ke pod CoreDNS, gangguan layanan mungkin terjadi.

Periksa status dan log pod CoreDNS. Untuk informasi lebih lanjut, lihat Pemecahan masalah DNS.

Status gateway NAT

Memeriksa status gateway NAT yang digunakan oleh kluster.

Masuk ke Konsol Gateway NAT untuk memeriksa apakah gateway NAT terkunci karena pembayaran tertunda.

Laju penurunan koneksi bersamaan yang terlalu tinggi pada gateway NAT

Memeriksa apakah laju penurunan koneksi bersamaan pada gateway NAT tinggi.

Jika laju tinggi, tingkatkan gateway NAT. Untuk informasi lebih lanjut, lihat FAQ tentang peningkatan gateway NAT Internet standar ke gateway NAT Internet yang ditingkatkan.