Prometheus アラートを設定し、メトリック傾向チャートを追加する方法 - Application Real-Time Monitoring Service

ARMS Prometheus アラートを使用すると、DingTalk グループのアラートカードにメトリック傾向チャートを追加できます。これらのチャートを表示すると、関連するアラートに関する詳細情報が得られ、トラブルシューティングや問題の特定に役立ちます。このトピックでは、Prometheus アラートを設定して通知カードにメトリック傾向チャートを追加する方法について説明します。

前提条件

DingTalk グループを作成済みであること。詳細については、「DingTalk ロボット」をご参照ください。
DingTalk グループをアラート連絡先として指定する通知ポリシーを設定済みであること。詳細については、「通知ポリシー」をご参照ください。

制限事項

メトリック傾向チャートは、DingTalk グループのアラートカードにのみ追加できます。

メトリック傾向チャートの設定

ARMS コンソールにログインします。
左側のナビゲーションウィンドウで、[Prometheus モニタリング] > [Prometheus アラートルール] を選択します。
[Prometheus アラートルール] ページで、
- 既存のアラートルールにメトリック傾向チャートを設定するには、アラートルールを見つけ、その行の [編集] をクリックします。
- 新しいアラートルールにメトリック傾向チャートを設定するには、ページの右上隅にある [Prometheus アラートルールの作成] をクリックします。

作成または編集ページで、次の操作を実行します。

[通知] セクションで [NAT モード] を選択し、次に DingTalk グループを連絡先として使用する通知ポリシーを選択します。

[詳細設定] を展開します。[アノテーション] セクションで、[アノテーションの作成] をクリックして、次の 2 つのアノテーションを追加します。

キー	値	例
_aliyun_display_promql	メトリック傾向チャートを表示するために使用される PromQL クエリ文。この文は通常、アラートルールの PromQL 文からしきい値条件を削除したものです。たとえば、`cpu_usage > 80` を `cpu_usage` に変更する必要があります。(最大 512 KB のメトリックデータをクエリできます。)	`_aliyun_display_promql:cpu_usage`
_aliyun_display_name	メトリック傾向チャートのメトリックの名前。	`_aliyun_display_name:コンテナー CPU 使用率`

必要に応じて他のパラメーターを変更します。パラメーターの詳細については、「Prometheus アラートルール」をご参照ください。
[保存] をクリックします。次に、[完了] をクリックします。

メトリック傾向チャートの表示

設定が完了すると、アラートがトリガーされたときに、DingTalk クライアントのアラートカードでメトリック傾向チャートを表示できます。

アラートカードの詳細については、「通知グループでのアラートの処理」をご参照ください。

よくある質問

アラートルールの PromQL クエリ文を使用する代わりに、チャートの PromQL クエリ文を手動で設定する必要があるのはなぜですか？
アラートルールの PromQL クエリ文は、チャートの PromQL クエリ文とは異なります。アラートルールのクエリ文には、しきい値条件と、AND や OR などの論理演算子が含まれています。チャートに使用されるクエリ文からこれらの部分を削除する必要があります。
_aliyun_display_promql アノテーションを設定した後、チャートが表示されないのはなぜですか？
チャートは、_aliyun_display_promql クエリによって返される時系列のラベルが、アラートルールの PromQL 文によって返される時系列のラベルと同一である場合にのみレンダリングされます。PromQL 文は複数の時系列を返すことができます。システムは、そのラベルに基づいて時系列の 1 つを選択し、傾向チャートをレンダリングします。たとえば、cpu_usage > 80 文によって返されるメトリックに pod_name ラベルと container ラベルが含まれている場合、_aliyun_display_promql クエリによって返される結果にもこれらの 2 つのラベルが含まれている必要があります。