すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:ack-node-problem-detector

最終更新日:Mar 26, 2026

ack-node-problem-detector は、オープンソースの Node Problem Detector プロジェクトを強化した、Alibaba Cloud Container Service for Kubernetes (ACK) 向けのイベントモニタリングコンポーネントです。ノードの異常を検出し、イベントセンターを強化し、サードパーティのモニタリングプラットフォームと統合します。カスタム監視プラグインを追加して、ノードの問題検出機能を拡張できます。このトピックでは、ack-node-problem-detector コンポーネント、その使用方法、およびリリースノートについて説明します。

はじめに

ack-node-problem-detector コンポーネントは、ACK クラスター向けの診断ツールであり、ノードの異常を監視および報告します。このコンポーネントは、以下の部分で構成されます。

  • kube-event-init: ack-node-problem-detector コンポーネントをインストールすると、kube-event-init はイベントセンターに必要な Simple Log Service (SLS) リソースを初期化します。これにより、ack-node-problem-detector-daemonsetkube-eventer はこれらのリソースを使用してイベントデータを保存および分析できます。

  • ack-node-problem-detector-daemonset: セレクター基準を満たす各ノードで Pod レプリカを実行し、ノードの健全性をモニターし、ノードの状態とイベントを報告します。以下のセクションでは、ack-node-problem-detector のイメージアドレスは、この DaemonSet のイメージアドレスを指します。

    説明

    オープンソースの Node Problem Detector プロジェクトの詳細については、「node-problem-detector」をご参照ください。

  • kube-eventer: すべてのクラスターイベントを報告します。デフォルトで、このコンポーネントはイベントを SLS イベントセンターに送信します。SLS イベントセンターは、90日間のデータ保持と、ダッシュボード、アラート、イベントの検索と分析などの特徴を提供します。また、kube-eventer を手動で構成して、DingTalk や EventBridge などの他のシステムにクラスターイベントを送信し、さらなるデータ統合を行うこともできます。詳細については、「kube-eventer」をご参照ください。

  • accel-health-monitor: 対象となる GPU ノードごとに Pod を実行し、GPU デバイスの状態をモニターし、ノードの状態と Kubernetes イベントを報告します。accel-health-monitor のイメージアドレスはリリースノートに記載されています。その権限と注意事項については、「GPU 異常検知」をご参照ください。

使用方法

ack-node-problem-detector のインストール方法、ユースケース、および新しいプラグイン機能については、「イベントモニタリング」をご参照ください。

リリースノート

2026年2月

バージョン

イメージアドレス

リリース日

説明

1.2.30

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-4b806cb-aliyun

  • node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/ack-node-problem-detector:v0.8.17-952071f-aliyun

  • accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.4-4c80dfa0-aliyun

2026-02-02

説明

このバージョンはカナリアリリースです。このバージョンを使用するには、チケットを送信してください。

  • ack-node-problem-detector-daemonset のセキュリティを向上させました。

  • kube-eventer のセキュリティを向上させました。

  • ACK コンソールのコンポーネント構成ページに、異常な GPU の隔離ファイルの生成を有効または無効にするオプションを追加しました。

  • 一部の GPU 検出項目の隔離ポリシーを変更しました。詳細については、「GPU 異常検知」をご参照ください。

  • eRDMA 検出のサポートを追加しました。

2025年11月

バージョン

イメージアドレス

リリース日

説明

1.2.29

  • accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.3-bafb2ba5-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-315a7cb-aliyun

2025-11-30

説明

このバージョンはカナリアリリースです。このバージョンを使用するには、チケットを送信してください。

  • GPU 検出プラグインを ack-node-problem-detector-daemonset に含める代わりに、ack-accel-health-monitor という名前の個別の DaemonSet としてデプロイしました。ack-accel-health-monitor の権限については、「GPU 異常検知」をご参照ください。

  • GPU 検出プラグインは、nvidia-persistencednvidia-fabricmanager、および nvlink に関連する問題を検出できるようになりました。

  • 断続的な JSON シリアル化の失敗により GPU プラグインが再起動する問題を修正しました。

  • kube-eventer は、HTTPS 経由で SLS にデータを送信することをサポートするようになりました。

2025年7月

バージョン

イメージアドレス

リリース日

説明

1.2.27

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.13-b4a3960-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.9-2b115d6-aliyun

2025-07-24

説明

このバージョンはカナリアリリース中です。このバージョンを使用するには、チケットを送信してください。

  • kube-eventerkube-event-init のセキュリティを向上させました。

  • 専用 Kubernetes クラスタ では、ECS インスタンスメタデータ へのアクセスに拡張モードがサポートされるようになりました。これにより、より安全な認証方式を採用することでセキュリティが向上します。詳細については、「ECS インスタンスメタデータへのアクセスに拡張モードを適用する」をご参照ください。

2025年6月

バージョン

イメージアドレス

リリース日

説明

1.2.26

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8d2193b-aliyun

  • npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.1-7359b830-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2025-06-11

説明

このバージョンはカナリアリリースです。このバージョンを使用するには、チケットを送信してください。

  • 一部の GPU 自己修復シナリオで NvidiaDeviceRecovered イベントが発行されない問題を修正しました。

  • ack-node-problem-detector のイメージサイズを削減しました。

バージョン

イメージアドレス

リリース日

説明

1.2.25

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8ed7053-aliyun

  • npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.0-e434dc36-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2025-06-06

説明

このバージョンはカナリアリリース中です。このバージョンを使用するには、チケットを送信

  • GPU 障害検出用の npd-gpu コンテナを追加しました。

  • 障害が検出されたときに特定の GPU を隔離するサポートを追加しました。

  • NvidiaXID44ErrorNvidiaXID61ErrorNvidiaXID62Error、および NvidiaXID69Error を含む複数の検出項目をサポートするようになりました。詳細については、「GPU 異常検知と自動隔離」をご参照ください。

  • ack-node-problem-detector-config で有効にする GPU 検出項目を構成できるようになりました。

  • ack-node-problem-detector のイメージサイズを削減しました。

2024年8月

バージョン

イメージアドレス

リリース日

説明

1.2.20

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2024-08-20

  • ECS ノードでの GPU 障害検査のサポートを追加しました。

  • 大規模なイベント報告時のパフォーマンスを向上させるために kube-eventer コンポーネントをアップグレードしました。

  • Simple Log Service データ転送用の V4 署名アルゴリズムをサポートするために kube-eventer コンポーネントをアップグレードしました。

  • ack-node-problem-detector DaemonSet Pod のローカルポートを 20256 または 20257 に構成するパラメーターを追加しました。このポートはデフォルトで無効になっています。

2023年12月

バージョン

イメージアドレス

リリース日

説明

v1.2.18

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023-12-18

  • キャッシュされた過去のカーネルログによって PodOOMKilling イベントが誤検知される問題を修正しました。

  • ack-node-problem-detector を以前のバージョンからアップグレードする際に、カスタムコンポーネントのパラメーターが保持されるようになりました。

2023年8月

バージョン

イメージアドレス

リリース日

説明

v1.2.17

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023-08-24

  • ACK コンソールの [アドオン] ページでコンポーネントパラメーターを変更し、Simple Log Service のプロジェクトと Logstore の構成を更新できるようになりました。

  • Simple Log Service にログデータを送信する際に、クラスター名などの追加タグをアタッチできるようになりました。これらのタグは、ACK イベントセンターにデフォルトで表示されます。

2023年6月

バージョン

イメージアドレス

リリース日

説明

v1.2.16

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023-06-27

ACK コンソールの [アドオン] ページで、コンポーネントのリソース仕様パラメーターを構成できるようになりました。

v1.2.15

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023-06-06

ack-node-problem-detector のパフォーマンスを向上させました。これにより、大規模クラスターで PodOOMKilling イベントが頻繁に発生する場合の API サーバーと etcd の負荷が軽減されます。

2023年2月

バージョン

イメージアドレス

リリース日

説明

v1.2.14

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023-02-03

  • イメージプル時間を削減しました。

  • ACK Edge クラスターに対応しました。

2022年9月

バージョン

イメージアドレス

リリース日

説明

v1.2.11

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2022-09-30

  • コアクラスターコンポーネントの負荷を軽減するために、ack-node-problem-detector の検査ロジックを改善しました。

  • イメージセキュリティを向上させました。

2022年2月

バージョン

イメージアドレス

リリース日

説明

v1.2.9

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2022-02-22

  • カーネル検査のサポートを追加しました。

  • セキュリティを強化しました。

2022年1月

バージョン

イメージアドレス

リリース日

説明

v1.2.8

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2022-01-20

  • さまざまな containerd モードのサポートを追加しました。

  • 安定性を向上させるために、コンポーネントのリソースのサービス品質 (QoS) 制限を最適化しました。

2021年11月

バージョン

イメージアドレス

リリース日

説明

v1.2.7

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2021-11-25

  • Alibaba Cloud Linux 3 および CentOS 8 などのオペレーティングシステムでのシステムサービスの互換性を追加しました。

  • ARM アーキテクチャ環境のサポートを追加しました。

2021年4月

バージョン

イメージアドレス

リリース日

説明

v1.2.5

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun

2021-04-25

  • イベントセンターが有効になっているときに、kube-system 名前空間の kube-event-init が「414 Request Too Large」エラーを返す問題を修正しました。

  • etcd への過剰なリクエストトラフィックを防ぐために、eventer のリスト監視メカニズムを改善しました。詳細については、「eventer list-watch」をご参照ください。

  • kube-eventer が一部のシステムイベントのタイムスタンプを誤って解析する問題を修正しました。詳細については、「fix FailedScheduling event write to sls with wrong timestamp」をご参照ください。

2020年7月

バージョン

イメージアドレス

リリース日

説明

v0.6.3-28-160499f

registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

2020-07-27

  • OOMKilling イベントメッセージを強化し、Pod 名、名前空間、および UID を含めるようにしました。

  • check_fd プラグインの実行効率を向上させました。

  • ノード PID 使用量に関するイベント通知を改善しました。

  • ネットワーク診断プラグインをアップグレードしました。

  • ノードシステムディスクの inode 使用量をモニターし、アラートを送信するプラグインを追加しました。