Dasbor penskalaan node menyediakan tampilan terpadu bagi insinyur O&M mengenai aktivitas penskalaan pod dan node—termasuk status kluster secara real-time, tren historis, dan detail tingkat event—sehingga Anda dapat mengidentifikasi masalah kapasitas serta menemukan akar penyebab kegagalan penskalaan tanpa perlu melakukan kueri manual terhadap log kluster.
Prasyarat
Sebelum memulai, pastikan bahwa:
-
Dasbor penskalaan node telah diaktifkan untuk kluster Anda. Untuk mengaktifkannya, submit a ticket
-
Kubernetes event center telah diaktifkan untuk kluster Anda. Untuk informasi selengkapnya, lihat Event monitoring
-
Fitur audit log telah diaktifkan untuk kluster Anda. Untuk informasi selengkapnya, lihat Use cluster auditing
Tata letak dasbor
Dasbor penskalaan node terdiri dari empat area: Overview, Pod details, Node details, dan List of scaling activities.
Overview
Area Overview menampilkan lima metrik utama untuk penilaian cepat terhadap kondisi kesehatan kluster.
| Metric | What it shows |
|---|---|
| Total number of nodes | Total node dalam kluster — menunjukkan kapasitas keseluruhan kluster |
| Number of available nodes | Node dalam status KubeletReady. Jika jumlah ini berbeda dari total, berarti beberapa node tidak berada dalam status KubeletNotReady — artinya node tersebut sedang ditambahkan ke kluster atau mengalami kegagalan |
| Cluster scalability | Menunjukkan apakah cluster-autoscaler saat ini dapat melakukan scale out. Menampilkan NO ketika jumlah node yang tidak berada dalam status Ready melebihi batas atas yang dikonfigurasi |
| Most recent scale-out activities | Jumlah aktivitas scale-out dalam rentang waktu yang dipilih |
| Most recent scale-in activities | Jumlah aktivitas scale-in dalam rentang waktu yang dipilih |
Pod details
| Chart | What it shows |
|---|---|
| Unschedulable pod trend | Jumlah pod dalam status Pending dari waktu ke waktu — peningkatan biasanya menandakan bahwa kluster perlu melakukan scale out |
| Evicted pod trend | Jumlah pod yang dievict dari waktu ke waktu — lonjakan menunjukkan bahwa konsumsi resource pada suatu node telah mencapai ambang batasnya |
Node details
| Chart | What it shows |
|---|---|
| Node status trend | Total node, node KubeletReady, dan node KubeletNotReady dari waktu ke waktu. Node yang ditambahkan dalam 10 menit terakhir tidak termasuk dalam hitungan node KubeletNotReady |
| Node scale-out trend | Aktivitas scale-out dari waktu ke waktu. Setiap titik data merepresentasikan jumlah event ScaledUpGroup yang dihasilkan — satu event per aksi scale-out oleh cluster-autoscaler |
| Node scale-in trend | Aktivitas scale-in dari waktu ke waktu. Setiap titik data merepresentasikan jumlah event ScaleDown yang dihasilkan — satu event per aksi scale-in oleh cluster-autoscaler |
List of scaling activities
Daftar aktivitas penskalaan menampilkan semua event terkait penskalaan secara kronologis. Lakukan pencarian berdasarkan nama pod, nama node, atau jenis event untuk menemukan aktivitas tertentu dan memeriksa detailnya.
Identifikasi masalah
Periksa adanya node abnormal: Bandingkan Total number of nodes dengan Number of available nodes. Jika keduanya berbeda, berarti beberapa node berada dalam status abnormal dan perlu diperiksa.
Evaluasi ukuran kluster: Beban kerja online berfluktuasi antara jam sibuk dan jam sepi, dan auto scaling dirancang untuk mengikuti pola tersebut. Buka area Node details, pilih rentang waktu yang mencakup periode puncak terbaru, lalu bandingkan tren penskalaan dengan riwayat beban kerja Anda. Jika kluster gagal melakukan penskalaan sesuai harapan, tinjau kembali konfigurasi auto scaling Anda.
Pemecahan masalah kegagalan penskalaan
Pod dalam status Pending tetapi node tidak melakukan scale-out
-
Periksa metrik Cluster scalability di area Overview.
-
Jika menampilkan NO, berarti cluster-autoscaler diblokir dari melakukan scale-out — pecahkan masalah status kluster terlebih dahulu sebelum melanjutkan.
-
Jika menampilkan YES, lanjutkan ke langkah berikutnya.
-
-
Di List of scaling activities, cari berdasarkan nama pod atau event
NotTriggerScaleUp. -
Periksa bidang
reasonuntuk mengidentifikasi alasan scale-out tidak dipicu.
Scale-out dipicu tetapi gagal diselesaikan
-
Di List of scaling activities, cari event
FailedToScaleUpGroup. -
Periksa bidang
reasonuntuk mengidentifikasi penyebab cluster-autoscaler gagal menyelesaikan scale-out.
Menentukan kapan scale-out dipicu
Di List of scaling activities, cari berdasarkan nama pod atau event NotTriggerScaleUp, lalu periksa timestamp event tersebut.
Menentukan kapan scale-in dipicu
Di List of scaling activities, cari berdasarkan nama node atau event ScaleDown, lalu periksa timestamp event tersebut.
Scale-in gagal
Di List of scaling activities, cari berdasarkan nama node atau event ScaleDownFailed, lalu periksa bidang reason.