全部产品
Search
文档中心

Container Service for Kubernetes:ack-node-problem-detector

更新时间:Nov 29, 2025

ack-node-problem-detector adalah komponen pemantauan event untuk kluster Alibaba Cloud Container Service for Kubernetes (ACK). Komponen ini diadaptasi dari proyek open source dengan sejumlah peningkatan dan mendukung integrasi dengan platform pemantauan pihak ketiga. Komponen ini menangani deteksi anomali node serta berfungsi sebagai Event Center untuk kluster ACK. Anda dapat menambahkan plugin pemantauan node kustom ke komponen ini guna memperluas cakupan pemantauannya. Topik ini menjelaskan komponen ack-node-problem-detector, penggunaannya, serta riwayat perubahannya.

Ikhtisar komponen

Komponen ack-node-problem-detector merupakan alat diagnostik node untuk kluster ACK yang memantau dan melaporkan anomali node. Komponen ini terdiri atas bagian-bagian berikut:

  • kube-event-init: Menginisialisasi sumber daya cloud untuk instance Simple Log Service (SLS) Event Center saat Anda menginstal komponen ack-node-problem-detector, sehingga ack-node-problem-detector-daemonset dan kube-eventer dapat menggunakan sumber daya tersebut untuk menyimpan dan menganalisis data event.

  • ack-node-problem-detector-daemonset: Menjalankan replika pod pada setiap node yang memenuhi syarat untuk memantau kesehatan node serta melaporkan status kondisi kluster dan event. Alamat citra ack-node-problem-detector yang disebutkan di bagian lain topik ini merujuk pada alamat citra untuk ack-node-problem-detector-daemonset.

    Catatan

    Untuk informasi lebih lanjut tentang proyek komunitas open source node-problem-detector, lihat node-problem-detector.

  • kube-eventer: Melaporkan semua event dalam kluster dan secara default mengirimkannya ke SLS Event Center, menyediakan penyimpanan dan analisis event selama 90 hari. Fitur tambahan seperti dasbor pemantauan, notifikasi, serta pencarian dan analisis event juga tersedia. Anda juga dapat mengonfigurasi kube-eventer untuk melaporkan event kluster ke sistem lain, seperti DingTalk atau EventBridge, guna integrasi data lebih lanjut. Untuk informasi lebih lanjut, lihat kube-eventer.

  • accel-health-monitor: Menjalankan replika pod pada setiap node GPU yang memenuhi syarat untuk memantau status perangkat GPU serta melaporkan Node Conditions dan event Kubernetes. Alamat citra untuk accel-health-monitor disediakan di bagian lain topik ini. Untuk informasi lebih lanjut mengenai izin dan catatan terkait komponen ini, lihat Deteksi anomali GPU.

Penggunaan

Untuk informasi lebih lanjut tentang cara menginstal ack-node-problem-detector, kasus penggunaannya, serta fitur-fitur plugin baru, lihat Pemantauan event.

Riwayat perubahan

November 2025

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

1.2.29

  • accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.3-bafb2ba5-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-315a7cb-aliyun

30 November 2025

Catatan

Versi ini sedang dalam rilis bertahap. Untuk menggunakannya, submit a ticket.

  • Plugin deteksi GPU di ack-node-problem-detector-daemonset diterapkan secara terpisah sebagai DaemonSet bernama ack-accel-health-monitor. Untuk informasi mengenai izin ack-accel-health-monitor, lihat Deteksi anomali GPU.

  • Plugin deteksi GPU menambahkan kemampuan deteksi untuk perangkat lunak dan perangkat seperti nvidia-persistenced, nvidia-fabricmanager, dan nvlink.

  • Fitur yang memungkinkan plugin GPU komponen ack-node-problem-detector melakukan pemagaran GPU abnormal dinonaktifkan secara default.

  • Kebijakan pemagaran untuk beberapa item pemeriksaan GPU diubah. Untuk informasi lebih lanjut, lihat Deteksi anomali GPU.

  • Memperbaiki masalah di mana plugin GPU akan restart karena kegagalan sesekali dalam serialisasi objek JSON.

  • kube-eventer mendukung pelaporan data ke SLS melalui HTTPS.

Juli 2025

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

1.2.27

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.13-b4a3960-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.9-2b115d6-aliyun

24 Juli 2025

Catatan

Versi ini sedang dalam rilis bertahap. Untuk menggunakannya, submit a ticket.

  • Penguatan Keamanan untuk kube-eventer dan kube-event-init.

  • Kluster Cluster khusus ACK mendukung penguatan keamanan menggunakan mode enhanced untuk mengakses metadata instans ECS. Selama autentikasi, sistem mengakses metadata instans ECS dalam mode enhanced untuk meningkatkan keamanan kluster. Untuk informasi lebih lanjut, lihat Terapkan mode enhanced untuk mengakses metadata instans ECS.

Juni 2025

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

1.2.26

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8d2193b-aliyun

  • npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.1-7359b830-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

11 Juni 2025

Catatan

Versi ini sedang dalam rilis bertahap. Untuk menggunakannya, submit a ticket.

  • Memperbaiki masalah di mana event NvidiaDeviceRecovered tidak berhasil diekspos dalam beberapa skenario self-healing GPU.

  • Mengoptimalkan ukuran citra ack-node-problem-detector.

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

1.2.25

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8ed7053-aliyun

  • npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.0-e434dc36-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

06 Juni 2025

Catatan

Versi ini sedang dalam rilis bertahap. Untuk menggunakannya, submit a ticket.

  • Menambahkan kontainer npd-gpu untuk deteksi kesalahan GPU.

  • Mendukung pemagaran kartu GPU tertentu saat terdeteksi kesalahan GPU.

  • Menambahkan dukungan untuk beberapa item pemeriksaan, seperti NvidiaXID44Error, NvidiaXID61Error, NvidiaXID62Error, dan NvidiaXID69Error. Untuk informasi lebih lanjut, lihat Deteksi anomali GPU dan pemagaran otomatis.

  • Mendukung konfigurasi item pemeriksaan GPU yang akan diaktifkan melalui ack-node-problem-detector-config.

  • Mengoptimalkan ukuran citra ack-node-problem-detector.

Agustus 2024

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

1.2.20

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

20 Agustus 2024

  • Mendukung inspeksi kesalahan GPU untuk node ECS.

  • Memutakhirkan komponen kube-eventer untuk mengoptimalkan bottleneck performa saat melaporkan banyak event dalam kluster.

  • Memutakhirkan komponen kube-eventer untuk mendukung algoritma signature V4 dalam transmisi data Simple Log Service.

  • Menambahkan pengaturan parameter komponen. Anda kini dapat mengonfigurasi secara manual port lokal pod DaemonSet ack-node-problem-detector ke 20256 atau 20257. Port ini dinonaktifkan secara default.

Desember 2023

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

v1.2.18

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

18 Desember 2023

  • Memperbaiki bug yang menyebabkan event abnormal positif palsu untuk anomali PodOOMKilling akibat log kernel historis yang di-cache.

  • Saat Anda melakukan peningkatan komponen ack-node-problem-detector dari versi lama, parameter komponen yang ditentukan pengguna kini diwariskan.

Agustus 2023

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

v1.2.17

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

24 Agustus 2023

  • Anda dapat memodifikasi pengaturan parameter komponen pada halaman manajemen komponen di Konsol ACK untuk memperbarui konfigurasi instance Project dan Logstore dalam layanan SLS.

  • Mendukung penambahan informasi tag ekstra, seperti nama kluster, saat mengirim data log ke SLS. Informasi ini ditampilkan secara default dalam data SLS Pusat Insiden ACK.

Juni 2023

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

v1.2.16

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

27 Juni 2023

Mendukung konfigurasi parameter spesifikasi resource untuk komponen pada halaman manajemen komponen di Konsol ACK.

v1.2.15

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

06 Juni 2023

Mengoptimalkan beban performa yang ditempatkan ack-node-problem-detector pada API server dan etcd saat PodOOMKilling sering terjadi di kluster berskala besar.

Februari 2023

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

v1.2.14

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

03 Februari 2023

  • Mengoptimalkan kecepatan pull citra komponen.

  • Mendukung kluster ACK Edge.

September 2022

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

v1.2.11

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

30 September 2022

  • Mengoptimalkan performa logika inspeksi ack-node-problem-detector untuk mengurangi beban pada komponen inti kluster.

  • Penguatan keamanan citra.

Februari 2022

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

v1.2.9

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

22 Februari 2022

  • Mendukung inspeksi kernel.

  • Penguatan keamanan.

Januari 2022

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

v1.2.8

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

20 Januari 2022

  • Kompatibel dengan mode Containerd yang berbeda.

  • Mengoptimalkan batas resource Quality of Service (QoS) untuk komponen guna meningkatkan stabilitas.

November 2021

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

v1.2.7

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

25 November 2021

  • Kompatibel dengan layanan sistem pada versi kernel seperti Alibaba Cloud Linux 3 dan CentOS 8.

  • Mendukung lingkungan arsitektur ARM.

April 2021

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

v1.2.5

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun

25 April 2021

  • Memperbaiki masalah di mana kube-event-init di namespace kube-system menyebabkan error "414 Request-URI Too Large" saat Event Center diaktifkan.

  • Mengoptimalkan mekanisme list-watch eventer untuk mencegah lalu lintas permintaan berlebihan ke etcd. Untuk informasi selengkapnya, lihat eventer list-watch.

  • Memperbaiki masalah di mana kube-eventer salah mengurai timestamp beberapa event sistem. Untuk informasi selengkapnya, lihat fix FailedScheduling event write to sls with wrong timestamp.

Juli 2020

Nomor versi

Alamat citra

Waktu perubahan

Deskripsi perubahan

v0.6.3-28-160499f

registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

27 Juli 2020

  • Mengoptimalkan pesan event OOM Killing agar mencakup informasi seperti nama pod, namespace, dan UID.

  • Mengoptimalkan efisiensi eksekusi plugin check_fd.

  • Mengoptimalkan notifikasi event untuk watermark PID node.

  • Plugin deteksi masalah jaringan ditingkatkan.

  • Menambahkan plugin untuk memantau dan memberi notifikasi watermark inode pada disk sistem node.