Diagnosis Kegagalan Penskalaan Node ACK dengan Dasbor Penskalaan Node - Container Service for Kubernetes

Dasbor penskalaan node menyediakan tampilan terpadu bagi insinyur O&M mengenai aktivitas penskalaan pod dan node—termasuk status kluster secara real-time, tren historis, dan detail tingkat event—sehingga Anda dapat mengidentifikasi masalah kapasitas serta menemukan akar penyebab kegagalan penskalaan tanpa perlu melakukan kueri manual terhadap log kluster.

Prasyarat

Sebelum memulai, pastikan bahwa:

Dasbor penskalaan node telah diaktifkan untuk kluster Anda. Untuk mengaktifkannya, submit a ticket
Kubernetes event center telah diaktifkan untuk kluster Anda. Untuk informasi selengkapnya, lihat Event monitoring
Fitur audit log telah diaktifkan untuk kluster Anda. Untuk informasi selengkapnya, lihat Use cluster auditing

Tata letak dasbor

Dasbor penskalaan node terdiri dari empat area: Overview, Pod details, Node details, dan List of scaling activities.

Overview

Area Overview menampilkan lima metrik utama untuk penilaian cepat terhadap kondisi kesehatan kluster.

Metric	What it shows
Total number of nodes	Total node dalam kluster — menunjukkan kapasitas keseluruhan kluster
Number of available nodes	Node dalam status `KubeletReady`. Jika jumlah ini berbeda dari total, berarti beberapa node tidak berada dalam status `KubeletNotReady` — artinya node tersebut sedang ditambahkan ke kluster atau mengalami kegagalan
Cluster scalability	Menunjukkan apakah cluster-autoscaler saat ini dapat melakukan scale out. Menampilkan NO ketika jumlah node yang tidak berada dalam status `Ready` melebihi batas atas yang dikonfigurasi
Most recent scale-out activities	Jumlah aktivitas scale-out dalam rentang waktu yang dipilih
Most recent scale-in activities	Jumlah aktivitas scale-in dalam rentang waktu yang dipilih

Pod details

Chart	What it shows
Unschedulable pod trend	Jumlah pod dalam status `Pending` dari waktu ke waktu — peningkatan biasanya menandakan bahwa kluster perlu melakukan scale out
Evicted pod trend	Jumlah pod yang dievict dari waktu ke waktu — lonjakan menunjukkan bahwa konsumsi resource pada suatu node telah mencapai ambang batasnya

Node details

Chart	What it shows
Node status trend	Total node, node `KubeletReady`, dan node `KubeletNotReady` dari waktu ke waktu. Node yang ditambahkan dalam 10 menit terakhir tidak termasuk dalam hitungan node `KubeletNotReady`
Node scale-out trend	Aktivitas scale-out dari waktu ke waktu. Setiap titik data merepresentasikan jumlah event `ScaledUpGroup` yang dihasilkan — satu event per aksi scale-out oleh cluster-autoscaler
Node scale-in trend	Aktivitas scale-in dari waktu ke waktu. Setiap titik data merepresentasikan jumlah event `ScaleDown` yang dihasilkan — satu event per aksi scale-in oleh cluster-autoscaler

List of scaling activities

Daftar aktivitas penskalaan menampilkan semua event terkait penskalaan secara kronologis. Lakukan pencarian berdasarkan nama pod, nama node, atau jenis event untuk menemukan aktivitas tertentu dan memeriksa detailnya.

Identifikasi masalah

Periksa adanya node abnormal: Bandingkan Total number of nodes dengan Number of available nodes. Jika keduanya berbeda, berarti beberapa node berada dalam status abnormal dan perlu diperiksa.

Evaluasi ukuran kluster: Beban kerja online berfluktuasi antara jam sibuk dan jam sepi, dan auto scaling dirancang untuk mengikuti pola tersebut. Buka area Node details, pilih rentang waktu yang mencakup periode puncak terbaru, lalu bandingkan tren penskalaan dengan riwayat beban kerja Anda. Jika kluster gagal melakukan penskalaan sesuai harapan, tinjau kembali konfigurasi auto scaling Anda.

Pemecahan masalah kegagalan penskalaan

Pod dalam status Pending tetapi node tidak melakukan scale-out

Periksa metrik Cluster scalability di area Overview.
- Jika menampilkan NO, berarti cluster-autoscaler diblokir dari melakukan scale-out — pecahkan masalah status kluster terlebih dahulu sebelum melanjutkan.
- Jika menampilkan YES, lanjutkan ke langkah berikutnya.
Di List of scaling activities, cari berdasarkan nama pod atau event NotTriggerScaleUp.
Periksa bidang reason untuk mengidentifikasi alasan scale-out tidak dipicu.

Scale-out dipicu tetapi gagal diselesaikan

Di List of scaling activities, cari event FailedToScaleUpGroup.
Periksa bidang reason untuk mengidentifikasi penyebab cluster-autoscaler gagal menyelesaikan scale-out.

Menentukan kapan scale-out dipicu

Di List of scaling activities, cari berdasarkan nama pod atau event NotTriggerScaleUp, lalu periksa timestamp event tersebut.

Menentukan kapan scale-in dipicu

Di List of scaling activities, cari berdasarkan nama node atau event ScaleDown, lalu periksa timestamp event tersebut.

Scale-in gagal

Di List of scaling activities, cari berdasarkan nama node atau event ScaleDownFailed, lalu periksa bidang reason.