[廃止済] CloudMonitor の Kubernetes 監視を使用して ACK クラスタの基本リソースを監視する - Container Service for Kubernetes

リソース監視は、Kubernetes で最も一般的に使用される監視方法の 1 つです。CloudMonitor の Kubernetes 監視機能を使用すると、Container Service for Kubernetes（ACK）クラスタのワークロードで使用される基本リソースの使用状況とヘルスステータスを効率的に確認できます。リソースには、CPU、メモリ、およびネットワークリソースが含まれます。これにより、ACK クラスタが期待どおりに安定して実行できるようになります。

重要

CloudMonitor の Kubernetes コンテナ監視機能は段階的に廃止されています。廃止された CloudMonitor と同等の完全な機能カバレッジを提供する Managed Service for Prometheus への移行を強くお勧めします。

機能の説明

CloudMonitor は、Alibaba Cloud アカウント内のすべての ACK クラスタのメトリクスを自動的に収集します。これにより、複数のリージョンにデプロイされている ACK クラスタを、一元的にグローバルに監視できます。詳細については、「概要」をご参照ください。

クラスタ視点のメトリクス
CloudMonitor は、アラート、ノード数、ポッドのメモリと CPU 使用率、ノードのメモリと CPU 使用率などのメトリクスを提供します。これにより、クラスタのパフォーマンスを効率的に把握できます。
より専門的な監視とアラート
CloudMonitor のコンテナ監視機能は Kubernetes 監視に更新され、コンテナ向けのより専門的な基本監視機能が提供されます。CloudMonitor は、名前空間、ノード、ワークロード、ポッドなどのネイティブ Kubernetes オブジェクトの主要な監視メトリクスを提供します。アラート機能は更新され、さまざまな視点からアラートルールを構成できるようになりました。
さまざまなコンテナ監視シナリオに適したメトリクス
CloudMonitor は、ホストインフラストラクチャレイヤー、Platform as a Service（PaaS）のコンテナレイヤー、Kubernetes スケジューリングレイヤーなど、特定のレイヤーのさまざまなシナリオに最適なメトリクスをサポートしています。たとえば、コンテナの Kubernetes スケジューリングに影響を与えるメモリメトリクスは、コンテナのワーキングメモリ専用です。これにより、コンテナのメモリ使用量とホストのメモリ使用量を区別できます。

前提条件

クラスタ内の metrics-server コンポーネントのバージョンが V0.3.8.5 以降であること。 metrics-server の更新方法の詳細については、以下のトピックを参照してください。
- ACK マネージドクラスター: コンポーネントの管理
- Kubernetes 1.12 以前を実行する ACK 専用クラスター: Kubernetes バージョンを 1.12 に更新する前に metrics-server コンポーネントを更新する
metrics-server コンポーネントを V0.3.8.5 以降に更新できない場合は、以前のバージョンのリソース監視を使用してください。詳細については、このトピックの「以前のバージョンのリソース監視を使用する」セクションを参照してください。

ACK クラスタの CloudMonitor の監視機能を有効にする

詳細については、「ACK クラスタの Kubernetes コンテナ監視機能を有効にする」をご参照ください。

リソース監視データを表示する

CloudMonitor コンソールにログインします。
左側のナビゲーションウィンドウで、クラウドサービス監視 > [Container Service ACK] を選択します。
[コンテナサービス監視] ページで、管理するクラスタを見つけ、その名前をクリックするか、[アクション] 列の [詳細の表示] をクリックします。
説明
初めて CloudMonitor を使用してクラスタを監視する場合、認証を実行するように求めるメッセージが表示されます。クラスタの詳細ページに移動する前に、[承認] をクリックして承認を完了する必要があります。
クラスタの詳細ページで、[クラスタの概要]、[ノード]、[名前空間]、[ワークロードとアラートルール] の各セクションで、クラスタの監視データを表示します。
詳細については、「監視データの表示」をご参照ください。

メトリクスベースのアラートのシナリオ

シナリオ	説明	構成方法
クラスタまたはクラスタ内のノードのリソース使用量に対するしきい値トリガーアラートを構成する	クラスタまたはクラスタ内のノードのリソース使用量がしきい値を超えると、サービス中断を防ぐためにアラートがトリガーされます。クラスタ全体またはクラスタ内のすべてのノードのリソース使用量を監視するために、しきい値トリガーアラートルールを構成することをお勧めします。	アラートルールを作成するときに、[リソース範囲] パラメーターを [クラスタ] または [ノード] に設定します。これにより、クラスタ内またはクラスタ内のノードで異常なメトリクス値が検出された場合に、アラート通知を受信できます。 [リソース範囲] パラメーターを [ノード] に設定する場合は、[ノード] ドロップダウンリストから [すべて] のノードを選択してください。これにより、[ルールの説明] パラメーターで指定されたメトリクスの異常値がクラスタ内のいずれかのノードで検出されると、アラートがトリガーされます。
クラスタ内のポッドのリソース使用量に対するしきい値トリガーアラートを構成する	クラスタのリソース使用量がしきい値を超えた場合は、問題の原因となっているポッドを見つける必要があります。クラスタ内のすべてのポッドのリソース使用量を監視するために、しきい値トリガーアラートルールを構成することをお勧めします。	アラートルールを作成するときに、[リソース範囲] パラメーターを [コンテナグループ（ポッド）] に設定し、[名前空間] と [コンテナグループ（ポッド）] の両方のドロップダウンリストから [すべて] を選択します。これにより、[ルールの説明] パラメーターで指定されたメトリクスの異常値がクラスタ内のいずれかのポッドで検出されると、アラートがトリガーされます。
クラスタの指定された名前空間内のポッドのリソース使用量に対するしきい値トリガーアラートを構成する	ほとんどの場合、クラスタは複数のアプリケーション間で共有されます。 Kubernetes を使用すると、マルチテナント環境で名前空間を使用してアプリケーションを分離できます。アプリケーションが存在する名前空間でリソース使用量がしきい値を超えると、アラートがトリガーされます。クラスタ内の指定された名前空間内のすべてのポッドのリソース使用量を監視するために、しきい値トリガーアラートルールを構成することをお勧めします。	アラートルールを作成するときに、[リソース範囲] を [コンテナグループ（ポッド）] に設定し、[名前空間] ドロップダウンリストからアプリケーションが存在する名前空間を選択し、[コンテナグループ（ポッド）] ドロップダウンリストから [すべて] を選択します。これにより、指定された名前空間内のいずれかのポッドで、[ルールの説明] パラメーターで指定されたメトリクスの異常値が検出されると、アラートがトリガーされます。
クラスタの指定された名前空間で指定されたアプリケーションを実行するポッドのリソース使用量に対するしきい値トリガーアラートを構成する	ほとんどの場合、クラスタは複数のアプリケーション間で共有されます。 Kubernetes を使用すると、マルチテナント環境でワークロードを使用してアプリケーションを分離できます。たとえば、アプリケーションはデプロイメントとして実行される場合があります。デプロイメントのリソース使用量がしきい値を超えると、アラートがトリガーされます。指定されたワークロードのすべてのポッドのリソース使用量を監視するために、しきい値トリガーアラートルールを構成することをお勧めします。	アラートルールを作成するときに、[リソース範囲] パラメーターを [コンテナグループ（ポッド）] に設定し、[名前空間] ドロップダウンリストからアプリケーションが存在する名前空間を選択し、アプリケーションのワークロードを選択します。サポートされているワークロードは、Deployment、StatefulSet、DaemonSet、Job、および CronJob です。 [コンテナグループ（ポッド）] ドロップダウンリストから [すべて] を選択します。これにより、指定されたワークロードのいずれかのポッドで、[ルールの説明] パラメーターで指定されたメトリクスの異常値が検出されると、アラートがトリガーされます。

アラートルールを構成する

[ステップ 1: アラート連絡先を作成し、アラート連絡先グループに追加する]

CloudMonitor コンソールにログインします。
左側のナビゲーションウィンドウで、[アラート] > [アラート連絡先] を選択します。
アラート連絡先を作成し、アラート連絡先グループに追加します。
詳細については、「アラート連絡先またはアラート連絡先グループを作成する」をご参照ください。

[ステップ 2: アラートルールを作成する]

CloudMonitor コンソールにログインします。
左側のナビゲーションウィンドウで、コンテナサービス監視 > [Container Service ACK] を選択します。
[コンテナサービス監視] ページで、管理するクラスタを見つけ、[アクション] 列の [アラートルールの表示] をクリックします。
表示されるページで、[アラートルールの作成] をクリックします。

[アラートルールの作成] パネルで、パラメーターを構成します。次の表にパラメーターを示します。

パラメーター	説明
[リソース範囲]	アラートルールが適用されるリソース。有効な値： [クラスタ]: アラートルールはクラスタに適用されます。このオプションを選択する場合は、クラスタ名を選択する必要があります。 [ノード]: アラートルールは、クラスタ内のすべてのノードまたは指定されたノードに適用されます。このオプションを選択する場合は、クラスタと 1 つ以上のノードを選択する必要があります。 [コンテナグループ（ポッド）]: アラートルールは、クラスタの指定された名前空間の指定されたアプリケーションのすべてのポッドまたは指定されたポッドに適用されます。このオプションを選択する場合は、クラスタとその名前空間を選択し、[Deployment]、[StatefulSet]、[DaemonSet]、[Job]、または [CronJob] タブで [アプリケーション] と [1 つ以上のポッド] を選択する必要があります。説明 [コンテナグループ] タブでは、[1 つ以上のポッド] を選択するだけで済みます。
[ルールの説明]	アラートルールをトリガーする条件。メトリクスが指定された条件を満たすと、アラートルールがトリガーされます。メトリクス、しきい値、およびアラートレベルを構成します。ポッドのメトリクスの詳細については、「ACK（新バージョン）」をご参照ください。
[ミュート期間]	アラートがクリアされる前に、CloudMonitor が同じ重大度レベルのアラート通知を再送信する間隔。有効な値：5 分、15 分、30 分、60 分、3 時間、6 時間、12 時間、および 24 時間。 CloudMonitor は、メトリクス値がしきい値に達するとアラート通知を送信します。ミュート期間内にアラートレベルが変更されない場合、CloudMonitor はアラート通知を再送信しません。ミュート期間内にアラートレベルが変更された場合（たとえば、アラートがクリアされた場合）、またはミュート期間の終了後にメトリクス値がしきい値に再び達した場合、CloudMonitor はアラート通知を再送信します。説明通知無効ミュートCloud Monitor は、状態または状態ではアラート通知を送信しません。ミュートは、特定のリソースがミュート期間中であることを示します。この期間中、Cloud Monitor はリソースのアラート通知を送信しません。 [通知無効] は、複数のリソースがミュート期間中であることを示します。この期間中、Cloud Monitor はリソースのアラート通知を送信しません。
[有効期間]	アラートルールが有効な期間。 CloudMonitor は、指定された期間内にのみ、アラートルールに基づいて指定されたリソースを監視します。
[アラートコールバック]	インターネット経由でアクセスできるコールバック URL。 CloudMonitor は HTTP POST リクエストを送信して、指定された URL にアラート通知をプッシュします。 HTTP プロトコルのみがサポートされています。アラートコールバックの構成方法の詳細については、「アラートコールバック機能を使用して、しきい値トリガーアラートに関する通知を送信する」をご参照ください。説明 CloudMonitor がアラート通知をプッシュするためにリクエストを送信するコールバック URL。インターネット経由でアクセスできるコールバック URL を指定することをお勧めします。
[アラート連絡先グループ]	アラート通知の送信先のアラート連絡先グループ。アラート通知は、選択したアラート連絡先グループに属するアラート連絡先に送信されます。アラート連絡先グループには、1 つ以上のアラート連絡先を含めることができます。アラート連絡先とアラート連絡先グループの作成方法の詳細については、「アラート連絡先またはアラート連絡先グループを作成する」をご参照ください。

[OK] をクリックして、アラートルールを作成します。
作成されたアラートルールは、[アラートルール] セクションで表示できます。アラートルールの詳細については、「アラートルールを管理する」をご参照ください。

[検証]

左側のナビゲーションウィンドウで、[アラート] > [アラート履歴] を選択します。
[アラート履歴] ページで、アラートの傾向と詳細なアラートレコードを表示します。

以前のバージョンのリソース監視を使用する

クラスタの metrics-server コンポーネントが V0.3.8.5 以降に更新されていない場合は、次の手順を実行して以前のバージョンのリソース監視を使用できます。

ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスタ] をクリックします。
[クラスタ] ページで、管理するクラスタを見つけ、その名前をクリックします。左側のウィンドウで、[ワークロード] > [デプロイメント] を選択します。
[デプロイメント] ページで、管理するデプロイメントを見つけ、[アクション] 列の [監視] をクリックして、[監視データ] を表示します。
[デプロイメントアプリケーション]、[コンテナグループリスト]、[コンテナグループホットスポット] タブで監視データを表示します。
オプション。左側のナビゲーションウィンドウで、[アラート] > [アラートルール] を選択して、アラートルールを構成します。
グループベースのメトリクスの名前は group で始まり、インスタンスベースのメトリクスの名前は pod で始まります。

FAQ

ACK クラスタの CloudMonitor の監視データが存在しない場合はどうすればよいですか？

この問題のトラブルシューティング方法の詳細については、「ACK クラスタにデータが存在しない場合はどうすればよいですか？」をご参照ください。