ack-node-problem-detector adalah komponen pemantauan event untuk kluster Alibaba Cloud Container Service for Kubernetes (ACK). Komponen ini diadaptasi dari proyek open source dengan sejumlah peningkatan dan mendukung integrasi dengan platform pemantauan pihak ketiga. Komponen ini menangani deteksi anomali node serta berfungsi sebagai Event Center untuk kluster ACK. Anda dapat menambahkan plugin pemantauan node kustom ke komponen ini guna memperluas cakupan pemantauannya. Topik ini menjelaskan komponen ack-node-problem-detector, penggunaannya, serta riwayat perubahannya.
Ikhtisar komponen
Komponen ack-node-problem-detector merupakan alat diagnostik node untuk kluster ACK yang memantau dan melaporkan anomali node. Komponen ini terdiri atas bagian-bagian berikut:
kube-event-init: Menginisialisasi sumber daya cloud untuk instance Simple Log Service (SLS) Event Center saat Anda menginstal komponen ack-node-problem-detector, sehingga ack-node-problem-detector-daemonset dan kube-eventer dapat menggunakan sumber daya tersebut untuk menyimpan dan menganalisis data event.
ack-node-problem-detector-daemonset: Menjalankan replika pod pada setiap node yang memenuhi syarat untuk memantau kesehatan node serta melaporkan status kondisi kluster dan event. Alamat citra ack-node-problem-detector yang disebutkan di bagian lain topik ini merujuk pada alamat citra untuk ack-node-problem-detector-daemonset.
Catatan Untuk informasi lebih lanjut tentang proyek komunitas open source node-problem-detector, lihat node-problem-detector.
kube-eventer: Melaporkan semua event dalam kluster dan secara default mengirimkannya ke SLS Event Center, menyediakan penyimpanan dan analisis event selama 90 hari. Fitur tambahan seperti dasbor pemantauan, notifikasi, serta pencarian dan analisis event juga tersedia. Anda juga dapat mengonfigurasi kube-eventer untuk melaporkan event kluster ke sistem lain, seperti DingTalk atau EventBridge, guna integrasi data lebih lanjut. Untuk informasi lebih lanjut, lihat kube-eventer.
accel-health-monitor: Menjalankan replika pod pada setiap node GPU yang memenuhi syarat untuk memantau status perangkat GPU serta melaporkan Node Conditions dan event Kubernetes. Alamat citra untuk accel-health-monitor disediakan di bagian lain topik ini. Untuk informasi lebih lanjut mengenai izin dan catatan terkait komponen ini, lihat Deteksi anomali GPU.
Penggunaan
Untuk informasi lebih lanjut tentang cara menginstal ack-node-problem-detector, kasus penggunaannya, serta fitur-fitur plugin baru, lihat Pemantauan event.
Riwayat perubahan
November 2025
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
1.2.29 | accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.3-bafb2ba5-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-315a7cb-aliyun
| 30 November 2025 |
Catatan Versi ini sedang dalam rilis bertahap. Untuk menggunakannya, submit a ticket. Plugin deteksi GPU di ack-node-problem-detector-daemonset diterapkan secara terpisah sebagai DaemonSet bernama ack-accel-health-monitor. Untuk informasi mengenai izin ack-accel-health-monitor, lihat Deteksi anomali GPU. Plugin deteksi GPU menambahkan kemampuan deteksi untuk perangkat lunak dan perangkat seperti nvidia-persistenced, nvidia-fabricmanager, dan nvlink. Fitur yang memungkinkan plugin GPU komponen ack-node-problem-detector melakukan pemagaran GPU abnormal dinonaktifkan secara default. Kebijakan pemagaran untuk beberapa item pemeriksaan GPU diubah. Untuk informasi lebih lanjut, lihat Deteksi anomali GPU. Memperbaiki masalah di mana plugin GPU akan restart karena kegagalan sesekali dalam serialisasi objek JSON. kube-eventer mendukung pelaporan data ke SLS melalui HTTPS.
|
Juli 2025
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
1.2.27 | | 24 Juli 2025 |
Catatan Versi ini sedang dalam rilis bertahap. Untuk menggunakannya, submit a ticket. Penguatan Keamanan untuk kube-eventer dan kube-event-init. Kluster Cluster khusus ACK mendukung penguatan keamanan menggunakan mode enhanced untuk mengakses metadata instans ECS. Selama autentikasi, sistem mengakses metadata instans ECS dalam mode enhanced untuk meningkatkan keamanan kluster. Untuk informasi lebih lanjut, lihat Terapkan mode enhanced untuk mengakses metadata instans ECS.
|
Juni 2025
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
1.2.26 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8d2193b-aliyun npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.1-7359b830-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 11 Juni 2025 |
Catatan Versi ini sedang dalam rilis bertahap. Untuk menggunakannya, submit a ticket. |
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
1.2.25 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8ed7053-aliyun npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.0-e434dc36-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 06 Juni 2025 |
Catatan Versi ini sedang dalam rilis bertahap. Untuk menggunakannya, submit a ticket. Menambahkan kontainer npd-gpu untuk deteksi kesalahan GPU. Mendukung pemagaran kartu GPU tertentu saat terdeteksi kesalahan GPU. Menambahkan dukungan untuk beberapa item pemeriksaan, seperti NvidiaXID44Error, NvidiaXID61Error, NvidiaXID62Error, dan NvidiaXID69Error. Untuk informasi lebih lanjut, lihat Deteksi anomali GPU dan pemagaran otomatis. Mendukung konfigurasi item pemeriksaan GPU yang akan diaktifkan melalui ack-node-problem-detector-config. Mengoptimalkan ukuran citra ack-node-problem-detector.
|
Agustus 2024
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
1.2.20 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 20 Agustus 2024 | Mendukung inspeksi kesalahan GPU untuk node ECS. Memutakhirkan komponen kube-eventer untuk mengoptimalkan bottleneck performa saat melaporkan banyak event dalam kluster. Memutakhirkan komponen kube-eventer untuk mendukung algoritma signature V4 dalam transmisi data Simple Log Service. Menambahkan pengaturan parameter komponen. Anda kini dapat mengonfigurasi secara manual port lokal pod DaemonSet ack-node-problem-detector ke 20256 atau 20257. Port ini dinonaktifkan secara default.
|
Desember 2023
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
v1.2.18 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 18 Desember 2023 | Memperbaiki bug yang menyebabkan event abnormal positif palsu untuk anomali PodOOMKilling akibat log kernel historis yang di-cache. Saat Anda melakukan peningkatan komponen ack-node-problem-detector dari versi lama, parameter komponen yang ditentukan pengguna kini diwariskan.
|
Agustus 2023
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
v1.2.17 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 24 Agustus 2023 | Anda dapat memodifikasi pengaturan parameter komponen pada halaman manajemen komponen di Konsol ACK untuk memperbarui konfigurasi instance Project dan Logstore dalam layanan SLS. Mendukung penambahan informasi tag ekstra, seperti nama kluster, saat mengirim data log ke SLS. Informasi ini ditampilkan secara default dalam data SLS Pusat Insiden ACK.
|
Juni 2023
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
v1.2.16 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 27 Juni 2023 | Mendukung konfigurasi parameter spesifikasi resource untuk komponen pada halaman manajemen komponen di Konsol ACK. |
v1.2.15 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 06 Juni 2023 | Mengoptimalkan beban performa yang ditempatkan ack-node-problem-detector pada API server dan etcd saat PodOOMKilling sering terjadi di kluster berskala besar. |
Februari 2023
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
v1.2.14 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 03 Februari 2023 | |
September 2022
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
v1.2.11 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 30 September 2022 | |
Februari 2022
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
v1.2.9 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 22 Februari 2022 | |
Januari 2022
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
v1.2.8 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 20 Januari 2022 | |
November 2021
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
v1.2.7 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 25 November 2021 | |
April 2021
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
v1.2.5 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun
| 25 April 2021 | Memperbaiki masalah di mana kube-event-init di namespace kube-system menyebabkan error "414 Request-URI Too Large" saat Event Center diaktifkan. Mengoptimalkan mekanisme list-watch eventer untuk mencegah lalu lintas permintaan berlebihan ke etcd. Untuk informasi selengkapnya, lihat eventer list-watch. Memperbaiki masalah di mana kube-eventer salah mengurai timestamp beberapa event sistem. Untuk informasi selengkapnya, lihat fix FailedScheduling event write to sls with wrong timestamp.
|
Juli 2020
Nomor versi | Alamat citra | Waktu perubahan | Deskripsi perubahan |
v0.6.3-28-160499f | registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f | 27 Juli 2020 | Mengoptimalkan pesan event OOM Killing agar mencakup informasi seperti nama pod, namespace, dan UID. Mengoptimalkan efisiensi eksekusi plugin check_fd. Mengoptimalkan notifikasi event untuk watermark PID node. Plugin deteksi masalah jaringan ditingkatkan. Menambahkan plugin untuk memantau dan memberi notifikasi watermark inode pada disk sistem node.
|