Aktifkan perbaikan otomatis untuk node dalam kelompok node terkelola - Container Service for Kubernetes

ACK secara otomatis memantau dan memperbaiki node yang tidak sehat dalam kelompok node terkelola, sehingga mengurangi kebutuhan operasi dan pemeliharaan (O&M) manual. Namun, perbaikan otomatis tidak dapat menangani semua skenario kegagalan. Beberapa kegagalan kompleks mungkin tetap memerlukan intervensi manual.

Untuk kelompok node Lingjun, lihat Aktifkan perbaikan otomatis node.

Cara kerja

Proses perbaikan otomatis mencakup:

Alur eksekusi: Alur end-to-end dari deteksi kegagalan hingga penyelesaian perbaikan.
Kondisi node yang memicu perbaikan otomatis: Jenis kegagalan, tingkat risiko, ambang batas, dan tindakan perbaikan.
Status node selama perbaikan otomatis: Transisi status selama dan setelah perbaikan.

Alur eksekusi

Alur kerja dari deteksi kegagalan hingga notifikasi dan perbaikan otomatis:

Diagnosis dan deteksi kegagalan	Add-on ack-node-problem-detector (NPD) memeriksa adanya pengecualian pada node. Jika suatu node tetap tidak sehat selama periode tertentu, ACK mengidentifikasinya sebagai rusak.
Notifikasi kegagalan	ACK menghasilkan Node Condition dan Kubernetes Event. Konfigurasikan alert di Pusat Insiden untuk menerima notifikasi.
(Untuk skenario GPU eksklusif) Isolasi kegagalan	Setelah pengecualian GPU terdeteksi, ACK mengisolasi kartu GPU yang rusak. Lihat Deteksi pengecualian GPU dan isolasi otomatis.
Perbaikan otomatis untuk pengecualian sistem dan komponen Kubernetes	ACK menentukan apakah akan memulai tugas perbaikan berdasarkan `condition` node dan informasi lainnya. Jalankan `kubectl describe node` untuk memeriksa bidang `condition`. Ketika pengecualian sistem atau komponen Kubernetes berlangsung melebihi ambang batas yang dikonfigurasi, ACK menjalankan tugas perbaikan: ACK memperbaiki sistem dan komponen Kubernetes yang rusak, misalnya dengan melakukan restart kubelet atau runtime kontainer. Jika Anda memilih opsi Enable self-healing for system and node components only (node reboots allowed), ACK melakukan langkah-langkah tambahan berikut jika perbaikan awal gagal: ACK secara otomatis mengatur node yang rusak menjadi unschedulable. ACK melakukan drain pada node tersebut. Timeout drain adalah 10 menit atau nilai maksimum `TerminationGracePeriodSeconds` dari semua Pod yang dievakuasi, mana yang lebih lama, hingga maksimal 30 menit. ACK mengevakuasi Pod ke node lain sesuai dengan Pod Disruption Budget (PDB). Untuk ketersediaan tinggi, gunakan penerapan multi-replika, distribusikan beban kerja di beberapa node, dan konfigurasikan PDB untuk layanan kritis. Jika proses drain gagal, ACK tetap melanjutkan perbaikan. ACK melakukan restart node. Setelah node pulih, ACK mengembalikannya ke status schedulable. Node yang sudah dalam status unschedulable sebelum perbaikan otomatis tetap unschedulable setelah perbaikan selesai.

Pada kluster dengan beberapa kelompok node, perbaikan otomatis dijalankan satu kelompok node dalam satu waktu.

Kondisi node yang memicu perbaikan otomatis

Node Condition	Description	Risk level	Threshold	Repair action
KubeletNotReady(KubeletHung)	Kubelet tidak merespons, menyebabkan node menjadi NotReady.	High	180s	Restart kubelet. Jika opsi Enable self-healing for system and node components only (node reboots allowed) diaktifkan, restart instance ECS.
KubeletNotReady(PLEG)	Pemeriksaan kesehatan Pod Lifecycle Event Generator (PLEG) gagal, menyebabkan node melaporkan status NotReady.	Medium	180s	Restart containerd atau Docker. Restart kubelet. Jika opsi Enable self-healing for system and node components only (node reboots allowed) diaktifkan, restart instance ECS.
KubeletNotReady(SandboxError)	PodSandbox tidak ditemukan, sehingga kubelet tidak dapat dimulai dengan benar.	High	180s	Hapus kontainer sandbox yang bersangkutan. Restart kubelet.
RuntimeOffline	Runtime kontainer (containerd atau Docker) telah berhenti, sehingga node tidak tersedia.	High	90s	Restart containerd atau Docker. Jika opsi Enable self-healing for system and node components only (node reboots allowed) diaktifkan, restart instance ECS.
NTPProblem	Layanan sinkronisasi waktu (ntpd atau chronyd) tidak berfungsi dengan benar.	High	10s	Restart ntpd atau chronyd.
SystemdOffline	Status systemd abnormal mencegah pembuatan atau penghapusan kontainer.	High	90s	Jika opsi Enable self-healing for system and node components only (node reboots allowed) diaktifkan, restart instance ECS.
ReadonlyFilesystem	Sistem file node menjadi read-only.	High	90s	Jika opsi Enable self-healing for system and node components only (node reboots allowed) diaktifkan, restart instance ECS.

Status node selama perbaikan otomatis

Selama perbaikan, status node adalah Repairing.
Jika kegagalan terselesaikan setelah perbaikan, node kembali normal.
Jika kegagalan tetap ada setelah perbaikan, status node menjadi Recovery failed.

Node dengan status Recovery failed tidak akan memicu perbaikan otomatis lainnya hingga kegagalannya terselesaikan.

Catatan penggunaan

Fitur ini memerlukan Pusat Insiden untuk alert dan ack-node-problem-detector (NPD) untuk deteksi pengecualian. Lihat Pemantauan event.
Hanya tersedia di Kluster ACK yang dikelola untuk kelompok node terkelola.
Fitur berikut sedang dalam peluncuran bertahap. Untuk meminta akses, ajukan tiket.
- Perbaikan otomatis untuk pengecualian instans node: tunduk pada daftar izin (allowlist).
- Kumpulan aturan alert: Setelah mengaktifkan perbaikan otomatis node, aktifkan manajemen alert dan aktifkan Cluster Node Auto Repair Alert Rule Set dan GPU monitoring and alert rules untuk menerima notifikasi pengecualian. Kumpulan aturan ini sedang dalam rilis bertahap.
  
  Lihat Manajemen Alert Layanan Kontainer.
- Versi NPD: Perbaikan otomatis untuk pengecualian instans node memerlukan ack-node-problem-detector (NPD) versi 1.2.26 atau lebih baru, yang saat ini sedang dalam rilis bertahap.

Aktifkan perbaikan otomatis node

Aktifkan perbaikan otomatis node saat membuat kelompok node atau untuk kelompok node terkelola yang sudah ada.

Kelompok node baru

Pada halaman ACK Clusters, klik nama kluster Anda. Di panel navigasi kiri, klik Nodes > Node Pools.
Klik Create Node Pool. Di bagian Configure Managed Node Pool, pilih Managed Node Pool, aktifkan perbaikan otomatis node, konfigurasikan kebijakan reboot node untuk perbaikan komponen, lalu buat kelompok node tersebut.

Untuk detail konfigurasi, lihat Buat dan kelola kelompok node. Untuk pertimbangan reboot node, lihat bagian di bawah.

Kelompok node yang sudah ada

Pada halaman ACK Clusters, klik nama kluster Anda. Di panel navigasi kiri, klik Nodes > Node Pools.
Di daftar kelompok node, temukan kelompok node target. Di kolom Actions, klik ikon dan pilih Enable Managed Node Pool (untuk kelompok node biasa) atau Configure Managed Node Pool (untuk kelompok node terkelola). Atur mode Configure Managed Node Pool ke Managed Node Pool dan aktifkan perbaikan otomatis node.

Untuk detail konfigurasi, lihat Buat dan kelola kelompok node. Untuk pertimbangan reboot node, lihat bagian di bawah.

Event perbaikan otomatis

ACK mencatat event perbaikan otomatis ke Event Center. Di halaman detail kluster, pilih Operations > Event Center. Di tab Node Events, lihat catatan perbaikan otomatis. Berlangganan event ini melalui Pemantauan event.

Event	Level	Description
NodeRepairStart	Normal	Perbaikan otomatis node telah dimulai.
NodeRepairAction	Normal	Tindakan perbaikan telah dilakukan, seperti melakukan restart kubelet.
NodeRepairSucceed	Normal	Perbaikan otomatis node berhasil.
NodeRepairFailed	Warning	Perbaikan gagal. Lihat FAQ.
NodeRepairIgnore	Normal	Dilewati karena instans ECS tidak sedang berjalan.

FAQ

Kegagalan perbaikan otomatis

Perbaikan otomatis tidak dapat menangani semua kegagalan. Jika perbaikan gagal atau kegagalan tetap ada, ACK mengatur status node menjadi Recovery failed.

Jika perbaikan otomatis sebuah node gagal, perbaikan berikutnya untuk kelompok node tersebut akan dijeda hingga gangguan teratasi. Anda dapat mengajukan tiket untuk mendapatkan bantuan.

Referensi

Aktifkan NPD dan pantau event kluster melalui Pemantauan event.
Lihat Deteksi pengecualian GPU dan isolasi otomatis dan Diagnosis masalah node GPU.
Untuk menghapus dan menambahkan kembali node yang rusak, ikuti prosedur standar di ACK console guna menghindari perilaku tak terduga. Lihat Hapus node dan Tambahkan node yang sudah ada.