ack-node-problem-detector は、オープンソースの Node Problem Detector プロジェクトを強化した、Alibaba Cloud Container Service for Kubernetes (ACK) 向けのイベントモニタリングコンポーネントです。ノードの異常を検出し、イベントセンターを強化し、サードパーティのモニタリングプラットフォームと統合します。カスタム監視プラグインを追加して、ノードの問題検出機能を拡張できます。このトピックでは、ack-node-problem-detector コンポーネント、その使用方法、およびリリースノートについて説明します。
はじめに
ack-node-problem-detector コンポーネントは、ACK クラスター向けの診断ツールであり、ノードの異常を監視および報告します。このコンポーネントは、以下の部分で構成されます。
kube-event-init: ack-node-problem-detector コンポーネントをインストールすると、kube-event-init はイベントセンターに必要な Simple Log Service (SLS) リソースを初期化します。これにより、ack-node-problem-detector-daemonset と kube-eventer はこれらのリソースを使用してイベントデータを保存および分析できます。
ack-node-problem-detector-daemonset: セレクター基準を満たす各ノードで Pod レプリカを実行し、ノードの健全性をモニターし、ノードの状態とイベントを報告します。以下のセクションでは、ack-node-problem-detector のイメージアドレスは、この DaemonSet のイメージアドレスを指します。
kube-eventer: すべてのクラスターイベントを報告します。デフォルトで、このコンポーネントはイベントを SLS イベントセンターに送信します。SLS イベントセンターは、90日間のデータ保持と、ダッシュボード、アラート、イベントの検索と分析などの特徴を提供します。また、kube-eventer を手動で構成して、DingTalk や EventBridge などの他のシステムにクラスターイベントを送信し、さらなるデータ統合を行うこともできます。詳細については、「kube-eventer」をご参照ください。
accel-health-monitor: 対象となる GPU ノードごとに Pod を実行し、GPU デバイスの状態をモニターし、ノードの状態と Kubernetes イベントを報告します。accel-health-monitor のイメージアドレスはリリースノートに記載されています。その権限と注意事項については、「GPU 異常検知」をご参照ください。
使用方法
ack-node-problem-detector のインストール方法、ユースケース、および新しいプラグイン機能については、「イベントモニタリング」をご参照ください。
リリースノート
2026年2月
バージョン | イメージアドレス | リリース日 | 説明 |
1.2.30 | kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-4b806cb-aliyun node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/ack-node-problem-detector:v0.8.17-952071f-aliyun accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.4-4c80dfa0-aliyun
| 2026-02-02 |
説明 このバージョンはカナリアリリースです。このバージョンを使用するには、チケットを送信してください。 ack-node-problem-detector-daemonset のセキュリティを向上させました。
kube-eventer のセキュリティを向上させました。
ACK コンソールのコンポーネント構成ページに、異常な GPU の隔離ファイルの生成を有効または無効にするオプションを追加しました。 一部の GPU 検出項目の隔離ポリシーを変更しました。詳細については、「GPU 異常検知」をご参照ください。 eRDMA 検出のサポートを追加しました。
|
2025年11月
バージョン | イメージアドレス | リリース日 | 説明 |
1.2.29 | accel-health-monitor: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/accel-health-monitor:v0.5.3-bafb2ba5-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.14-315a7cb-aliyun
| 2025-11-30 |
説明 このバージョンはカナリアリリースです。このバージョンを使用するには、チケットを送信してください。 GPU 検出プラグインを ack-node-problem-detector-daemonset に含める代わりに、ack-accel-health-monitor という名前の個別の DaemonSet としてデプロイしました。ack-accel-health-monitor の権限については、「GPU 異常検知」をご参照ください。 GPU 検出プラグインは、nvidia-persistenced、nvidia-fabricmanager、および nvlink に関連する問題を検出できるようになりました。 断続的な JSON シリアル化の失敗により GPU プラグインが再起動する問題を修正しました。 kube-eventer は、HTTPS 経由で SLS にデータを送信することをサポートするようになりました。
|
2025年7月
バージョン | イメージアドレス | リリース日 | 説明 |
1.2.27 | | 2025-07-24 |
説明 このバージョンはカナリアリリース中です。このバージョンを使用するには、チケットを送信してください。 kube-eventer と kube-event-init のセキュリティを向上させました。
専用 Kubernetes クラスタ では、ECS インスタンスメタデータ へのアクセスに拡張モードがサポートされるようになりました。これにより、より安全な認証方式を採用することでセキュリティが向上します。詳細については、「ECS インスタンスメタデータへのアクセスに拡張モードを適用する」をご参照ください。
|
2025年6月
バージョン | イメージアドレス | リリース日 | 説明 |
1.2.26 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8d2193b-aliyun npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.1-7359b830-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2025-06-11 |
説明 このバージョンはカナリアリリースです。このバージョンを使用するには、チケットを送信してください。 |
バージョン | イメージアドレス | リリース日 | 説明 |
1.2.25 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.16-8ed7053-aliyun npd-gpu: registry-__ACK_REGION_ID__-vpc.ack.aliyuncs.com/acs/npd-gpu-plugin:v0.4.0-e434dc36-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.12-c7c1896-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2025-06-06 |
説明 このバージョンはカナリアリリース中です。このバージョンを使用するには、チケットを送信。 GPU 障害検出用の npd-gpu コンテナを追加しました。 障害が検出されたときに特定の GPU を隔離するサポートを追加しました。 NvidiaXID44Error、NvidiaXID61Error、NvidiaXID62Error、および NvidiaXID69Error を含む複数の検出項目をサポートするようになりました。詳細については、「GPU 異常検知と自動隔離」をご参照ください。
ack-node-problem-detector-config で有効にする GPU 検出項目を構成できるようになりました。
ack-node-problem-detector のイメージサイズを削減しました。
|
2024年8月
バージョン | イメージアドレス | リリース日 | 説明 |
1.2.20 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun
| 2024-08-20 | ECS ノードでの GPU 障害検査のサポートを追加しました。 大規模なイベント報告時のパフォーマンスを向上させるために kube-eventer コンポーネントをアップグレードしました。 Simple Log Service データ転送用の V4 署名アルゴリズムをサポートするために kube-eventer コンポーネントをアップグレードしました。 ack-node-problem-detector DaemonSet Pod のローカルポートを 20256 または 20257 に構成するパラメーターを追加しました。このポートはデフォルトで無効になっています。
|
2023年12月
バージョン | イメージアドレス | リリース日 | 説明 |
v1.2.18 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023-12-18 | |
2023年8月
バージョン | イメージアドレス | リリース日 | 説明 |
v1.2.17 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023-08-24 | |
2023年6月
バージョン | イメージアドレス | リリース日 | 説明 |
v1.2.16 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023-06-27 | ACK コンソールの [アドオン] ページで、コンポーネントのリソース仕様パラメーターを構成できるようになりました。 |
v1.2.15 | ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023-06-06 | ack-node-problem-detector のパフォーマンスを向上させました。これにより、大規模クラスターで PodOOMKilling イベントが頻繁に発生する場合の API サーバーと etcd の負荷が軽減されます。
|
2023年2月
バージョン | イメージアドレス | リリース日 | 説明 |
v1.2.14 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2023-02-03 | イメージプル時間を削減しました。 ACK Edge クラスターに対応しました。
|
2022年9月
バージョン | イメージアドレス | リリース日 | 説明 |
v1.2.11 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun
| 2022-09-30 | |
2022年2月
バージョン | イメージアドレス | リリース日 | 説明 |
v1.2.9 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2022-02-22 | カーネル検査のサポートを追加しました。 セキュリティを強化しました。
|
2022年1月
バージョン | イメージアドレス | リリース日 | 説明 |
v1.2.8 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2022-01-20 | |
2021年11月
バージョン | イメージアドレス | リリース日 | 説明 |
v1.2.7 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2 kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun
| 2021-11-25 | |
2021年4月
バージョン | イメージアドレス | リリース日 | 説明 |
v1.2.5 | ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun
| 2021-04-25 | |
2020年7月
バージョン | イメージアドレス | リリース日 | 説明 |
v0.6.3-28-160499f | registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f | 2020-07-27 | OOMKilling イベントメッセージを強化し、Pod 名、名前空間、および UID を含めるようにしました。
check_fd プラグインの実行効率を向上させました。
ノード PID 使用量に関するイベント通知を改善しました。 ネットワーク診断プラグインをアップグレードしました。 ノードシステムディスクの inode 使用量をモニターし、アラートを送信するプラグインを追加しました。
|