ack-node-problem-detector是ACK基於社區開源專案進行改造和增強叢集節點例外狀況事件監控組件,同時支援對接第三方監控平台,承載ACK叢集的節點異常發現以及事件中心的功能。您可以根據需求使用該組件加入定製化的節點監控外掛程式,擴大節點問題監控範圍。本文介紹ack-node-problem-detector組件的資訊、使用說明和變更記錄。
組件介紹
ack-node-problem-detector組件是ACK叢集提供的節點診斷工具,用於監測和上報節點異常問題。該組件由以下部分組成:
kube-event-init:安裝ack-node-problem-detector組件時,負責初始化雲端的SLSLog Service事件中心雲上執行個體資源,以便ack-node-problem-detector-daemonset和kube-eventer能夠使用這些資源來儲存和分析計算事件數目據。
ack-node-problem-detector-daemonset:在每個符合選擇條件的節點上運行一個Pod副本,以監控節點的健康狀態並上報叢集條件狀態和事件。下文中ack-node-problem-detector的鏡像地址即為ack-node-problem-detector-daemonset的鏡像地址。
kube-eventer:上報叢集中的所有事件並預設將其上報至SLS事件中心,以得到預設90天持久化的事件儲存分析能力,並提供監控大盤、警示、事件搜尋分析等能力。您也可通過手動設定kube-eventer,上報叢集事件至DingTalk、EventBridge等系統進行進一步Data Integration。更多資訊,請參見kube-eventer。
accel-health-monitor:在每個合格GPU節點上運行一個Pod副本,以監控節點的GPU裝置狀態並上報Node Condition和K8s事件。下文中提供了accel-health-monitor的鏡像地址。關於該組件的許可權說明及注意事項,請參考GPU異常檢測。
使用說明
關於ack-node-problem-detector的安裝、使用情境以及新增外掛程式的功能,請參見事件監控。
變更記錄
2025年11月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
1.2.29 | accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.3-bafb2ba5-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-315a7cb-aliyun
| 2025年11月30日 | 將ack-node-problem-detector-daemonset中的GPU檢測外掛程式單獨以DaemonSet方式部署,名稱ack-accel-health-monitor,關於ack-accel-health-monitor許可權說明請參考GPU異常檢測。 GPU檢測外掛程式新增關於nvidia-persistenced、nvidia-fabricmanager、nvlink等軟體和裝置的檢測能力。 預設關閉ack-node-problem-detector組件 GPU外掛程式對異常GPU的隔離功能。 更改某些GPU檢測項的隔離策略,請參考GPU異常檢測。 修複JSON對象序列化偶發失敗導致的GPU外掛程式重啟問題。 kube-eventer支援通過HTTPS協議上報SLS資料。
|
2025年07月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
1.2.27 | | 2025年07月24日 | |
2025年06月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
1.2.26 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8d2193b-aliyun npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.1-7359b830-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2025年06月011日 | |
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
1.2.25 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8ed7053-aliyun npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.0-e434dc36-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2025年06月06日 | 增加npd-gpu容器,用於GPU故障檢測。 支援在檢測到GPU故障時隔離指定的 GPU 卡。 新增支援多個檢測項,包括NvidiaXID44Error、NvidiaXID61Error、NvidiaXID62Error、NvidiaXID69Error等。詳情請參見 GPU異常檢測與自動隔離。 支援通過ack-node-problem-detector-config配置需要開啟的GPU檢測項。 ack-node-problem-detector鏡像大小最佳化。
|
2024年08月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
1.2.20 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2024年08月20日 | 支援ECS節點GPU故障巡檢的功能。 kube-eventer組件升級,最佳化了叢集大規模事件上報情境下的效能瓶頸問題。 kube-eventer組件升級,支援Log Service資料轉送V4簽名演算法。 新增組件參數配置,支援手動設定ack-node-problem-detector DaemonSet Pod的本地連接埠為20256或20257(連接埠預設關閉)。
|
2023年12月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
v1.2.18 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023年12月18日 | |
2023年08月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
v1.2.17 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023年08月24日 | |
2023年06月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
v1.2.16 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023年06月27日 | 支援在ACK控制台的組件管理頁面對組件資源規格參數進行配置。 |
v1.2.15 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023年06月06日 | 最佳化在大規模叢集頻繁出現PodOOMKilling時,ack-node-problem-detector對APIServer、ETCD造成效能負載的問題。 |
2023年02月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
v1.2.14 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023年02月03日 | 最佳化組件鏡像拉取速度。 支援ACK Edge叢集。
|
2022年09月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
v1.2.11 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2022年09月30日 | |
2022年02月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
v1.2.9 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2022年02月22日 | |
2022年01月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
v1.2.8 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2022年01月20日 | 相容Containerd的不同模式。 組件資源QoS限制的最佳化,提升組件穩定性。
|
2021年11月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
v1.2.7 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2021年11月25日 | |
2021年04月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
v1.2.5 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun
| 2021年04月25日 | |
2020年07月
版本號碼 | 鏡像地址 | 變更時間 | 變更內容 |
v0.6.3-28-160499f | registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f | 2020年07月27日 | |