ack-node-problem-detector adalah komponen pemantauan event untuk Alibaba Cloud Container Service for Kubernetes (ACK), yang dikembangkan dari proyek open-source Node Problem Detector. Komponen ini mendeteksi anomali node, mendorong pusat event, dan terintegrasi dengan platform pemantauan pihak ketiga. Anda dapat menambahkan plug-in pemantauan kustom untuk memperluas kemampuan deteksi masalah node. Topik ini menjelaskan komponen ack-node-problem-detector, penggunaannya, serta catatan rilisnya.
Pendahuluan
Komponen ack-node-problem-detector merupakan alat diagnostik untuk kluster ACK yang memantau dan melaporkan anomali node. Komponen ini terdiri atas bagian-bagian berikut:
kube-event-init: Saat Anda menginstal komponen ack-node-problem-detector, kube-event-init menginisialisasi resource Simple Log Service (SLS) yang diperlukan untuk pusat event. Hal ini memungkinkan ack-node-problem-detector-daemonset dan kube-eventer menggunakan resource tersebut untuk menyimpan dan menganalisis data event.
ack-node-problem-detector-daemonset: Menjalankan replika pod pada setiap node yang memenuhi kriteria selector untuk memantau kesehatan node serta melaporkan kondisi dan event node. Pada bagian berikutnya, alamat image untuk ack-node-problem-detector merujuk pada alamat image untuk DaemonSet ini.
Catatan Untuk informasi lebih lanjut tentang proyek open source node-problem-detector, lihat node-problem-detector.
kube-eventer: Melaporkan semua event kluster. Secara default, komponen ini mengirim event ke pusat event SLS, yang menyediakan retensi data selama 90 hari serta fitur-fitur seperti dashboard, alert, dan pencarian serta analisis event. Anda juga dapat mengonfigurasi kube-eventer secara manual untuk mengirim event kluster ke sistem lain, seperti DingTalk dan EventBridge, guna integrasi data lebih lanjut. Untuk informasi selengkapnya, lihat kube-eventer.
accel-health-monitor: Menjalankan pod pada setiap node GPU yang memenuhi syarat untuk memantau status perangkat GPU serta melaporkan Node Conditions dan event Kubernetes. Alamat image untuk accel-health-monitor tersedia dalam catatan rilis. Untuk informasi tentang izin dan catatan penggunaannya, lihat Deteksi anomali GPU.
Penggunaan
Untuk informasi tentang cara menginstal ack-node-problem-detector, kasus penggunaannya, dan fitur plug-in baru, lihat pemantauan event.
Catatan Rilis
Februari 2026
Versi | Image Address | Tanggal rilis | Deskripsi |
1.2.30 | kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-4b806cb-aliyun node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/ack-node-problem-detector:v0.8.17-952071f-aliyun accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.4-4c80dfa0-aliyun
| 2026-02-02 |
Catatan Versi ini termasuk dalam rilis canary. Untuk menggunakannya, ajukan tiket. Meningkatkan keamanan ack-node-problem-detector-daemonset. Meningkatkan keamanan kube-eventer. Menambahkan opsi pada halaman konfigurasi komponen di Konsol ACK untuk mengaktifkan atau menonaktifkan pembuatan file isolasi untuk GPU yang bermasalah. Memodifikasi kebijakan isolasi untuk beberapa item deteksi GPU. Untuk informasi lebih lanjut, lihat Deteksi anomali GPU. Menambahkan dukungan untuk deteksi eRDMA.
|
November 2025
Versi | Alamat image | Tanggal rilis | Deskripsi |
1.2.29 | accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.3-bafb2ba5-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-315a7cb-aliyun
| 2025-11-30 |
Catatan Versi ini sedang dalam rilis canary. Untuk menggunakan versi ini, submit a ticket. Men-deploy plug-in deteksi GPU sebagai DaemonSet terpisah bernama ack-accel-health-monitor alih-alih menyertakannya dalam ack-node-problem-detector-daemonset. Untuk informasi tentang izin untuk ack-accel-health-monitor, lihat Deteksi anomali GPU. Plug-in deteksi GPU kini dapat mendeteksi masalah terkait nvidia-persistenced, nvidia-fabricmanager, dan nvlink. Memperbaiki masalah di mana plug-in GPU melakukan restart akibat kegagalan serialisasi JSON yang bersifat intermiten. kube-eventer kini mendukung pengiriman data ke SLS melalui HTTPS.
|
Juli 2025
Versi | Image Address | Tanggal rilis | Deskripsi |
1.2.27 | | 2025-07-24 |
Catatan Versi ini sedang dalam rilis canary. Untuk menggunakan versi ini, submit a ticket. Meningkatkan keamanan kube-eventer dan kube-event-init. ACK Dedicated Cluster kini mendukung mode tingkat lanjut untuk mengakses ECS instance metadata, meningkatkan keamanan dengan menggunakan metode autentikasi yang lebih aman. Untuk informasi selengkapnya, lihat Terapkan mode tingkat lanjut untuk mengakses ECS instance metadata.
|
Juni 2025
Versi | Image Address | Tanggal rilis | Deskripsi |
1.2.26 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8d2193b-aliyun npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.1-7359b830-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2025-06-11 |
Catatan Versi ini termasuk dalam rilis canary. Untuk menggunakan versi ini, ajukan tiket. |
Versi | Alamat image | Tanggal rilis | Deskripsi |
1.2.25 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8ed7053-aliyun npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.0-e434dc36-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2025-06-06 |
Catatan Versi ini termasuk dalam rilis canary. Untuk menggunakan versi ini, ajukan tiket. Menambahkan kontainer npd-gpu untuk deteksi kesalahan GPU. Menambahkan dukungan untuk mengisolasi GPU tertentu saat kesalahan terdeteksi. Menambahkan dukungan untuk beberapa item deteksi, termasuk NvidiaXID44Error, NvidiaXID61Error, NvidiaXID62Error, dan NvidiaXID69Error. Untuk informasi lebih lanjut, lihat Deteksi anomali GPU dan isolasi otomatis. Anda kini dapat mengonfigurasi item deteksi GPU mana yang akan diaktifkan dalam ack-node-problem-detector-config. Mengurangi ukuran image ack-node-problem-detector.
|
Agustus 2024
Versi | Alamat image | Tanggal rilis | Deskripsi |
1.2.20 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2024-08-20 | Menambahkan dukungan untuk inspeksi kesalahan GPU pada node ECS. Memutakhirkan komponen kube-eventer untuk meningkatkan performa selama pelaporan event skala besar. Memutakhirkan komponen kube-eventer untuk mendukung algoritma signature V4 dalam transmisi data Simple Log Service. Menambahkan parameter untuk mengonfigurasi port lokal pod DaemonSet ack-node-problem-detector ke 20256 atau 20257. Port ini dinonaktifkan secara default.
|
Desember 2023
Versi | Image Address | Tanggal rilis | Deskripsi |
v1.2.18 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023-12-18 | Memperbaiki masalah di mana log kernel historis yang di-cache menyebabkan event PodOOMKilling positif palsu. ack-node-problem-detector kini mempertahankan parameter komponen kustom saat Anda melakukan peningkatan dari versi sebelumnya.
|
Agustus 2023
Versi | Image Address | Tanggal rilis | Deskripsi |
v1.2.17 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023-08-24 | Anda kini dapat memperbarui konfigurasi Project dan Logstore Simple Log Service dengan memodifikasi parameter komponen pada halaman Add-ons di Konsol ACK. Anda kini dapat melampirkan tag tambahan, seperti nama kluster, saat mengirim data log ke Simple Log Service. Tag ini kemudian ditampilkan secara default di pusat event ACK.
|
Juni 2023
Versi | Image Address | Tanggal rilis | Deskripsi |
v1.2.16 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023-06-27 | Anda kini dapat mengonfigurasi parameter spesifikasi resource untuk komponen pada halaman Add-ons di Konsol ACK. |
v1.2.15 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023-06-06 | Meningkatkan performa ack-node-problem-detector. Hal ini mengurangi beban pada API server dan etcd saat event PodOOMKilling terjadi secara frekuen di kluster skala besar. |
Februari 2023
Versi | Image Address | Tanggal rilis | Deskripsi |
v1.2.14 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023-02-03 | |
September 2022
Versi | Image Address | Tanggal rilis | Deskripsi |
v1.2.11 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2022-09-30 | |
Februari 2022
Versi | Alamat image | Tanggal rilis | Deskripsi |
v1.2.9 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2022-02-22 | |
Januari 2022
Versi | Image Address | Tanggal rilis | Deskripsi |
v1.2.8 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2022-01-20 | |
November 2021
Versi | Image Address | Tanggal rilis | Deskripsi |
v1.2.7 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2021-11-25 | |
April 2021
Versi | Image Address | Tanggal rilis | Deskripsi |
v1.2.5 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun
| 2021-04-25 | Memperbaiki masalah di mana kube-event-init di namespace kube-system mengembalikan error "414 Request Too Large" saat pusat event diaktifkan. Memperbaiki mekanisme list-watch eventer untuk mencegah lalu lintas permintaan berlebihan ke etcd. Untuk informasi lebih lanjut, lihat eventer list-watch. Memperbaiki masalah di mana kube-eventer salah mengurai timestamp beberapa event sistem. Untuk informasi lebih lanjut, lihat fix FailedScheduling event write to sls with wrong timestamp.
|
Juli 2020
Versi | Alamat image | Tanggal rilis | Deskripsi |
v0.6.3-28-160499f | registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f | 2020-07-27 | Memperkuat pesan event OOMKilling agar mencakup nama pod, namespace, dan UID. Meningkatkan efisiensi eksekusi plug-in check_fd. Memperbaiki notifikasi event untuk penggunaan PID node. Memutakhirkan plug-in diagnostik jaringan. Menambahkan plug-in untuk memantau dan mengirim alert penggunaan inode pada disk sistem node.
|