All Products
Search
Document Center

Container Service for Kubernetes:ack-node-problem-detector

Last Updated:Mar 26, 2026

ack-node-problem-detector adalah komponen pemantauan event untuk Alibaba Cloud Container Service for Kubernetes (ACK), yang dikembangkan dari proyek open-source Node Problem Detector. Komponen ini mendeteksi anomali node, mendorong pusat event, dan terintegrasi dengan platform pemantauan pihak ketiga. Anda dapat menambahkan plug-in pemantauan kustom untuk memperluas kemampuan deteksi masalah node. Topik ini menjelaskan komponen ack-node-problem-detector, penggunaannya, serta catatan rilisnya.

Pendahuluan

Komponen ack-node-problem-detector merupakan alat diagnostik untuk kluster ACK yang memantau dan melaporkan anomali node. Komponen ini terdiri atas bagian-bagian berikut:

  • kube-event-init: Saat Anda menginstal komponen ack-node-problem-detector, kube-event-init menginisialisasi resource Simple Log Service (SLS) yang diperlukan untuk pusat event. Hal ini memungkinkan ack-node-problem-detector-daemonset dan kube-eventer menggunakan resource tersebut untuk menyimpan dan menganalisis data event.

  • ack-node-problem-detector-daemonset: Menjalankan replika pod pada setiap node yang memenuhi kriteria selector untuk memantau kesehatan node serta melaporkan kondisi dan event node. Pada bagian berikutnya, alamat image untuk ack-node-problem-detector merujuk pada alamat image untuk DaemonSet ini.

    Catatan

    Untuk informasi lebih lanjut tentang proyek open source node-problem-detector, lihat node-problem-detector.

  • kube-eventer: Melaporkan semua event kluster. Secara default, komponen ini mengirim event ke pusat event SLS, yang menyediakan retensi data selama 90 hari serta fitur-fitur seperti dashboard, alert, dan pencarian serta analisis event. Anda juga dapat mengonfigurasi kube-eventer secara manual untuk mengirim event kluster ke sistem lain, seperti DingTalk dan EventBridge, guna integrasi data lebih lanjut. Untuk informasi selengkapnya, lihat kube-eventer.

  • accel-health-monitor: Menjalankan pod pada setiap node GPU yang memenuhi syarat untuk memantau status perangkat GPU serta melaporkan Node Conditions dan event Kubernetes. Alamat image untuk accel-health-monitor tersedia dalam catatan rilis. Untuk informasi tentang izin dan catatan penggunaannya, lihat Deteksi anomali GPU.

Penggunaan

Untuk informasi tentang cara menginstal ack-node-problem-detector, kasus penggunaannya, dan fitur plug-in baru, lihat pemantauan event.

Catatan Rilis

Februari 2026

Versi

Image Address

Tanggal rilis

Deskripsi

1.2.30

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-4b806cb-aliyun

  • node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/ack-node-problem-detector:v0.8.17-952071f-aliyun

  • accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.4-4c80dfa0-aliyun

2026-02-02

Catatan

Versi ini termasuk dalam rilis canary. Untuk menggunakannya, ajukan tiket.

  • Meningkatkan keamanan ack-node-problem-detector-daemonset.

  • Meningkatkan keamanan kube-eventer.

  • Menambahkan opsi pada halaman konfigurasi komponen di Konsol ACK untuk mengaktifkan atau menonaktifkan pembuatan file isolasi untuk GPU yang bermasalah.

  • Memodifikasi kebijakan isolasi untuk beberapa item deteksi GPU. Untuk informasi lebih lanjut, lihat Deteksi anomali GPU.

  • Menambahkan dukungan untuk deteksi eRDMA.

November 2025

Versi

Alamat image

Tanggal rilis

Deskripsi

1.2.29

  • accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.3-bafb2ba5-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-315a7cb-aliyun

2025-11-30

Catatan

Versi ini sedang dalam rilis canary. Untuk menggunakan versi ini, submit a ticket.

  • Men-deploy plug-in deteksi GPU sebagai DaemonSet terpisah bernama ack-accel-health-monitor alih-alih menyertakannya dalam ack-node-problem-detector-daemonset. Untuk informasi tentang izin untuk ack-accel-health-monitor, lihat Deteksi anomali GPU.

  • Plug-in deteksi GPU kini dapat mendeteksi masalah terkait nvidia-persistenced, nvidia-fabricmanager, dan nvlink.

  • Memperbaiki masalah di mana plug-in GPU melakukan restart akibat kegagalan serialisasi JSON yang bersifat intermiten.

  • kube-eventer kini mendukung pengiriman data ke SLS melalui HTTPS.

Juli 2025

Versi

Image Address

Tanggal rilis

Deskripsi

1.2.27

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.13-b4a3960-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.9-2b115d6-aliyun

2025-07-24

Catatan

Versi ini sedang dalam rilis canary. Untuk menggunakan versi ini, submit a ticket.

  • Meningkatkan keamanan kube-eventer dan kube-event-init.

  • ACK Dedicated Cluster kini mendukung mode tingkat lanjut untuk mengakses ECS instance metadata, meningkatkan keamanan dengan menggunakan metode autentikasi yang lebih aman. Untuk informasi selengkapnya, lihat Terapkan mode tingkat lanjut untuk mengakses ECS instance metadata.

Juni 2025

Versi

Image Address

Tanggal rilis

Deskripsi

1.2.26

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8d2193b-aliyun

  • npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.1-7359b830-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2025-06-11

Catatan

Versi ini termasuk dalam rilis canary. Untuk menggunakan versi ini, ajukan tiket.

  • Memperbaiki masalah di mana event NvidiaDeviceRecovered tidak dikirim dalam beberapa skenario self-healing GPU.

  • Mengurangi ukuran image ack-node-problem-detector.

Versi

Alamat image

Tanggal rilis

Deskripsi

1.2.25

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8ed7053-aliyun

  • npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.0-e434dc36-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2025-06-06

Catatan

Versi ini termasuk dalam rilis canary. Untuk menggunakan versi ini, ajukan tiket.

  • Menambahkan kontainer npd-gpu untuk deteksi kesalahan GPU.

  • Menambahkan dukungan untuk mengisolasi GPU tertentu saat kesalahan terdeteksi.

  • Menambahkan dukungan untuk beberapa item deteksi, termasuk NvidiaXID44Error, NvidiaXID61Error, NvidiaXID62Error, dan NvidiaXID69Error. Untuk informasi lebih lanjut, lihat Deteksi anomali GPU dan isolasi otomatis.

  • Anda kini dapat mengonfigurasi item deteksi GPU mana yang akan diaktifkan dalam ack-node-problem-detector-config.

  • Mengurangi ukuran image ack-node-problem-detector.

Agustus 2024

Versi

Alamat image

Tanggal rilis

Deskripsi

1.2.20

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2024-08-20

  • Menambahkan dukungan untuk inspeksi kesalahan GPU pada node ECS.

  • Memutakhirkan komponen kube-eventer untuk meningkatkan performa selama pelaporan event skala besar.

  • Memutakhirkan komponen kube-eventer untuk mendukung algoritma signature V4 dalam transmisi data Simple Log Service.

  • Menambahkan parameter untuk mengonfigurasi port lokal pod DaemonSet ack-node-problem-detector ke 20256 atau 20257. Port ini dinonaktifkan secara default.

Desember 2023

Versi

Image Address

Tanggal rilis

Deskripsi

v1.2.18

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023-12-18

  • Memperbaiki masalah di mana log kernel historis yang di-cache menyebabkan event PodOOMKilling positif palsu.

  • ack-node-problem-detector kini mempertahankan parameter komponen kustom saat Anda melakukan peningkatan dari versi sebelumnya.

Agustus 2023

Versi

Image Address

Tanggal rilis

Deskripsi

v1.2.17

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023-08-24

  • Anda kini dapat memperbarui konfigurasi Project dan Logstore Simple Log Service dengan memodifikasi parameter komponen pada halaman Add-ons di Konsol ACK.

  • Anda kini dapat melampirkan tag tambahan, seperti nama kluster, saat mengirim data log ke Simple Log Service. Tag ini kemudian ditampilkan secara default di pusat event ACK.

Juni 2023

Versi

Image Address

Tanggal rilis

Deskripsi

v1.2.16

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023-06-27

Anda kini dapat mengonfigurasi parameter spesifikasi resource untuk komponen pada halaman Add-ons di Konsol ACK.

v1.2.15

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023-06-06

Meningkatkan performa ack-node-problem-detector. Hal ini mengurangi beban pada API server dan etcd saat event PodOOMKilling terjadi secara frekuen di kluster skala besar.

Februari 2023

Versi

Image Address

Tanggal rilis

Deskripsi

v1.2.14

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023-02-03

  • Mengurangi waktu pull image.

  • Menambahkan dukungan untuk kluster ACK Edge.

September 2022

Versi

Image Address

Tanggal rilis

Deskripsi

v1.2.11

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2022-09-30

  • Memperbaiki logika inspeksi ack-node-problem-detector untuk mengurangi beban pada komponen inti kluster.

  • Meningkatkan keamanan image.

Februari 2022

Versi

Alamat image

Tanggal rilis

Deskripsi

v1.2.9

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2022-02-22

  • Menambahkan dukungan untuk inspeksi kernel.

  • Keamanan yang ditingkatkan.

Januari 2022

Versi

Image Address

Tanggal rilis

Deskripsi

v1.2.8

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2022-01-20

  • Menambahkan dukungan untuk mode containerd yang berbeda.

  • Mengoptimalkan batas Quality of Service (QoS) resource untuk komponen guna meningkatkan stabilitas.

November 2021

Versi

Image Address

Tanggal rilis

Deskripsi

v1.2.7

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2021-11-25

  • Menambahkan kompatibilitas untuk layanan sistem pada sistem operasi seperti Alibaba Cloud Linux 3 dan CentOS 8.

  • Menambahkan dukungan untuk lingkungan arsitektur ARM.

April 2021

Versi

Image Address

Tanggal rilis

Deskripsi

v1.2.5

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun

2021-04-25

  • Memperbaiki masalah di mana kube-event-init di namespace kube-system mengembalikan error "414 Request Too Large" saat pusat event diaktifkan.

  • Memperbaiki mekanisme list-watch eventer untuk mencegah lalu lintas permintaan berlebihan ke etcd. Untuk informasi lebih lanjut, lihat eventer list-watch.

  • Memperbaiki masalah di mana kube-eventer salah mengurai timestamp beberapa event sistem. Untuk informasi lebih lanjut, lihat fix FailedScheduling event write to sls with wrong timestamp.

Juli 2020

Versi

Alamat image

Tanggal rilis

Deskripsi

v0.6.3-28-160499f

registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

2020-07-27

  • Memperkuat pesan event OOMKilling agar mencakup nama pod, namespace, dan UID.

  • Meningkatkan efisiensi eksekusi plug-in check_fd.

  • Memperbaiki notifikasi event untuk penggunaan PID node.

  • Memutakhirkan plug-in diagnostik jaringan.

  • Menambahkan plug-in untuk memantau dan mengirim alert penggunaan inode pada disk sistem node.