すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:ack-node-problem-detector

最終更新日:Jun 18, 2026

ack-node-problem-detector は、ノード異常を検出し、イベントセンターを提供し、ACK クラスター向けにサードパーティのモニタリングプラットフォームとの統合を可能にします。

概要

オープンソースの Node Problem Detector (NPD) をベースに構築されたこのコンポーネントは、ノードの健全性を監視し、イベントセンターとして機能します。以下のコンポーネントが含まれます。

  • kube-event-init:インストール時にイベントセンター用の Simple Log Service (SLS) リソースを初期化し、ack-node-problem-detector-daemonset および kube-eventer がイベントデータを保存、計算、分析できるようにします。

  • ack-node-problem-detector-daemonset:各対象ノードで Pod を実行してノードの健全性を監視し、ノードコンディションとイベントを報告します。本トピックでは、ack-node-problem-detector のイメージアドレスは ack-node-problem-detector-daemonset のイメージを指します。

    説明

    オープンソースプロジェクトの node-problem-detector をご参照ください。

  • kube-eventer:デフォルトでは、クラスターイベントを SLS イベントセンターに報告し、90 日間の保持期間が設定されたイベントストレージと分析、ダッシュボード、アラート機能、および検索を提供します。また、kube-eventer を設定して、DingTalk や EventBridge などの他のシステムにイベントを転送することもできます。kube-eventer をご参照ください。

  • accel-health-monitor:各対象 GPU ノードで Pod を実行して GPU デバイスの状態を監視し、ノードコンディションと Kubernetes イベントを報告します。イメージアドレスは、後述のリリースノートに記載されています。権限と注意事項については、「GPU 障害検出」をご参照ください。

使用

イベントモニタリングでは、インストール、ユースケース、およびプラグインの機能について説明しています。

リリースノート

2026年5月

バージョン

イメージアドレス

リリース日

説明

1.2.35

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-4b806cb-aliyun

  • node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/ack-node-problem-detector:v0.8.17-952071f-aliyun

  • accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.5-ad7ad729-aliyun

2026年5月18日

説明

このバージョンはカナリアリリース中です。このバージョンを使用するには、チケットを送信してください。

2026 年 2 月

バージョン

イメージアドレス

リリース日

説明

1.2.30

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-4b806cb-aliyun

  • node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/ack-node-problem-detector:v0.8.17-952071f-aliyun

  • accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.4-4c80dfa0-aliyun

2026 年 2 月 2 日

説明

このバージョンはカナリアリリースです。このバージョンを使用するには、チケットを送信してください。

  • ack-node-problem-detector-daemonset のセキュリティを強化しました。

  • kube-eventer のセキュリティを強化しました。

  • GPU 障害隔離ファイルの生成を有効化/無効化するコンソールオプションを追加しました。

  • 一部の GPU 検出項目のフェンシング戦略を変更しました。詳細については、GPU 障害検出をご参照ください。

  • eRDMA 検出に対応しました。

2025年11月

バージョン

イメージアドレス

リリース日

説明

1.2.29

  • accel-health-monitor: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/accel-health-monitor:v0.5.3-bafb2ba5-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-315a7cb-aliyun

2025年11月30日

説明

このバージョンはカナリアリリース中です。このバージョンを使用するには、チケットを送信してください。

  • GPU 検出プラグインを ack-node-problem-detector-daemonset から分離し、独立した DaemonSet ack-accel-health-monitor としました。必要な権限については、GPU 障害検出をご参照ください。

  • GPU プラグインにソフトウェアとデバイスの検出機能を追加しました。検出対象には nvidia-persistencednvidia-fabricmanager、NVLink が含まれます。

  • JSON シリアル化の失敗が原因で GPU プラグインが時折再起動する問題を修正しました。

  • kube-eventer が HTTPS 経由で SLS にデータを報告できるようにしました。

2025 年 7 月

バージョン

イメージアドレス

リリース日

説明

1.2.27

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.13-b4a3960-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.9-2b115d6-aliyun

2025 年 7 月 24 日

説明

このバージョンはカナリアリリースです。このバージョンを使用するには、チケットを送信 してください。

2025年6月

バージョン

イメージアドレス

リリース日

説明

1.2.26

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8d2193b-aliyun

  • npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.1-7359b830-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2025年6月11日

説明

このバージョンはカナリアリリース中です。このバージョンを使用するには、チケットを送信してください。

  • 一部の GPU 自己修復シナリオにおいて、NvidiaDeviceRecovered イベントが正しく発行されなかった問題を修正しました。

  • ack-node-problem-detector のイメージサイズを最適化しました。

バージョン

イメージアドレス

リリース日

説明

1.2.25

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8ed7053-aliyun

  • npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.0-e434dc36-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2025年6月6日

説明

このバージョンはカナリアリリース中です。このバージョンを使用するには、チケットを送信してください。

  • GPU 障害検出のために npd-gpu コンテナを追加しました。

  • 障害検出時に特定の GPU をフェンシングする機能を追加しました。

  • NvidiaXID44ErrorNvidiaXID61ErrorNvidiaXID62ErrorNvidiaXID69Error などの検出項目を追加しました。詳細は、GPU障害の検出と自動フェンシングをご参照ください。

  • ack-node-problem-detector-config を使用して、有効にする GPU 検出項目を設定する機能を追加しました。

  • ack-node-problem-detector のイメージサイズを最適化しました。

2024 年 8 月

バージョン

イメージアドレス

リリース日

説明

1.2.20

  • ack-node-problem-detector:registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun

  • kube-eventer:registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun

  • kube-event-init:registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2024 年 8 月 20 日

  • ECS ノードでの GPU 障害検査に対応しました。

  • 大量のイベントを報告する際のパフォーマンスボトルネックを解決するため、kube-eventer をアップグレードしました。

  • SLS データ送信における V4 署名アルゴリズムをサポートするため、kube-eventer をアップグレードしました。

  • ack-node-problem-detector DaemonSet の Pod のローカルポート (20256 または 20257、デフォルトでは無効) を設定するパラメーターを追加しました。

2023 年 12 月

バージョン

イメージアドレス

リリース日

説明

v1.2.18

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023 年 12 月 18 日

  • キャッシュされた過去のカーネルログによる podOOMKilling イベントの誤検知を修正しました。

  • ack-node-problem-detector の旧バージョンからアップグレードする際に、カスタムコンポーネントパラメーターが継承されるようになりました。

2023年8月

バージョン

イメージアドレス

リリース日

説明

v1.2.17

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-eventer-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年8月24日

  • ACK コンソールの [アドオン] ページから SLS プロジェクトと Logstore の設定を更新できるようになりました。

  • SLS にログデータを送信する際に、クラスター名などのカスタムラベルをサポートするようになりました。これらのラベルは、ACK イベントセンターにデフォルトで表示されます。

2023年6月

バージョン

イメージアドレス

リリース日

説明

v1.2.16

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年6月27日

ACK コンソールの [アドオン] ページで、コンポーネントのリソース仕様を設定できるようになりました。

v1.2.15

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年6月6日

大規模クラスターで頻繁に発生する podOOMKilling イベントによる API サーバーと etcd の負荷を軽減しました。

2023 年 2 月

バージョン

イメージアドレス

リリース日

説明

v1.2.14

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023 年 2 月 3 日

  • コンポーネントのイメージのプル速度が向上しました。

  • ACK エッジクラスターのサポートを追加しました。

2022 年 9 月

バージョン

イメージアドレス

リリース日

説明

v1.2.11

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2022 年 9 月 30 日

  • コアクラスターコンポーネントへのロードを軽減するため、 ack-node-problem-detector の検査ロジックを最適化しました。

  • イメージのセキュリティを強化しました。

2022年2月

バージョン

イメージアドレス

リリース日

説明

v1.2.9

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-event-init:v1.6-a92aba6-aliyun

2022年2月22日

  • カーネル検査のサポートを追加しました。

  • セキュリティを強化しました。

2022 年 1 月

バージョン

イメージアドレス

リリース日

説明

v1.2.8

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2022 年 1 月 20 日

  • Containerd の各種モードとの互換性を追加しました。

  • コンポーネントの安定性を向上させるため、QoS リソース制限を最適化しました。

2021 年 11 月

バージョン

イメージアドレス

リリース日

説明

v1.2.7

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2021 年 11 月 25 日

  • Alibaba Cloud Linux 3 や CentOS 8 などのオペレーティングシステム上のシステムサービスとの互換性を追加しました。

  • ARM アーキテクチャのサポートを追加しました。

2021年4月

バージョン

イメージアドレス

リリース日

説明

v1.2.5

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun

2021年4月25日

  • イベントセンターを有効にした際に、 kube-systemkube-event-init で発生する "414 Request Too Large" エラーを修正しました。

  • kube-eventer の list-watch メカニズムを最適化し、etcd へのリクエストトラフィックを削減しました。詳細については、eventer の list-watch をご参照ください。

  • kube-eventer において、一部のシステムイベントでタイムスタンプが誤って解析される問題を修正しました。詳細については、「FailedScheduling イベントが誤ったタイムスタンプで SLS に書き込まれる問題を修正」をご参照ください。

2020年7月

バージョン

イメージアドレス

リリース日

説明

v0.6.3-28-160499f

registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

2020年7月27日

  • OOMKilling イベントメッセージを強化し、Pod 名、名前空間、UID を含めるようにしました。

  • check_fd プラグインの実行効率を改善しました。

  • ノードの PID 使用量しきい値のイベント通知を改善しました。

  • ネットワーク問題検出プラグインをアップグレードしました。

  • ノードのシステムディスク inode 使用量に対してアラートをトリガーするプラグインを追加しました。