Alibaba Cloud Prometheus では、アラート ルールで条件を指定してメトリックを監視できます。条件が満たされると、アラート イベントが生成されます。通知ポリシーを設定して、テキスト メッセージ、メール、電話、DingTalk チャットボット、WeCom チャットボット、または webhook でアラート通知を送信できます。
前提条件
Prometheus インスタンスが Managed Service for Prometheus に作成されています。詳細については、以下のトピックを参照してください。
Prometheus アラート ルールの作成ページに移動する
Managed Service for Prometheus コンソール にログオンします。
左側のナビゲーション ペインで、アラート ルールの表示 をクリックします。
Prometheus アラート ルール ページで、Prometheus アラート ルールの作成 をクリックします。
プリセット メトリックを使用してアラート ルールを作成する
ARMS はさまざまなプリセット メトリックを提供します。プリセット メトリックを選択し、そのメトリックのアラート ルールを設定できます。
Prometheus アラート ルールの作成 ページで、パラメータを設定します。次の表にパラメータを示します。
パラメータ
説明
例
アラート ルール名
アラート ルール名を入力します。
本番クラスタ - コンテナ CPU 使用率アラート
チェック タイプ
静的しきい値 を選択します。
静的しきい値
Prometheus インスタンス
Prometheus インスタンスを選択します。
本番クラスタ
アラート連絡先グループ
アラート連絡先グループを選択します。
Prometheus インスタンスでサポートされているアラート連絡先グループは、Prometheus インスタンスのタイプによって異なります。
Kubernetes 負荷
アラート メトリック
メトリックを選択します。アラート連絡先グループによって提供されるメトリックは異なります。
コンテナ CPU 使用率
アラート条件
アラート イベントを生成する条件を指定します。
コンテナの CPU 使用率が
/* greater */ 超過 */80% の場合、アラート イベントが生成されます。フィルタ条件
アラート ルールの適用範囲を指定します。リソースがフィルタ条件とアラート条件の両方を満たす場合、アラート イベントが生成されます。
次のタイプのフィルタ条件がサポートされています。
トラバース: アラート ルールは、現在の Prometheus インスタンス内のすべてのリソースに適用されます。デフォルトでは、トラバースが選択されています。
等しい: このフィルタ条件を選択した場合は、リソース名を入力する必要があります。アラート ルールは、指定されたリソースにのみ適用されます。複数のリソースを同時に指定することはできません。
等しくない: このフィルタ条件を選択した場合は、リソース名を入力する必要があります。アラート ルールは、指定されたリソース以外のリソースに適用されます。複数のリソースを同時に指定することはできません。
正規表現に一致: このフィルタ条件を選択した場合は、リソース名と一致する正規表現を入力する必要があります。テンプレートを使用して作成したアラート ルールは、正規表現に一致するすべてのリソースに適用されます。
正規表現に一致しない: このフィルタ条件を選択した場合は、リソース名と一致する正規表現を入力する必要があります。アラート ルールは、正規表現に一致しないリソースに適用されます。
説明フィルタ条件を設定すると、データ プレビュー セクションが表示されます。
フィルタ条件は 300 文字以内にしてください。
トラバース
データ プレビュー
データ プレビュー には、アラート条件に対応する PromQL ステートメントが表示されます。また、時系列グラフに指定されたメトリックの値も表示されます。
デフォルトでは、1 つのリソースのリアルタイム値のみが表示されます。フィルタ条件を指定して、異なる時間範囲の異なるリソースのメトリック値を表示できます。
説明時系列グラフのしきい値は赤い線で表されます。アラート条件を満たす曲線の部分は濃い赤で表示され、アラート条件を満たさない曲線の部分は青で表示されます。
カーソルを曲線の上に移動すると、特定の時点のリソースの詳細が表示されます。
時系列曲線上で期間を選択して、選択した期間の時系列曲線を表示することもできます。
なし
期間
アラート条件が満たされた場合、アラート イベントが生成されます。データ ポイントがしきい値に達すると、アラート イベントが生成されます。
アラート条件が N 分間継続して満たされた場合、アラート イベントが生成されます。しきい値に達した期間が N 分以上の場合にのみ、アラート イベントが生成されます。
1
アラート レベル
アラート レベルを指定します。デフォルト値: デフォルト。有効な値: デフォルト、P4、P3、P2、P1。デフォルトは最も低い重大度レベルを示し、P1 は最も高い重大度レベルを示します。
デフォルト
アラート メッセージ
エンド ユーザーに送信するアラート メッセージを指定します。Go テンプレート構文に基づいて、アラート メッセージにカスタム変数を指定できます。
名前空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / コンテナ: {{$labels.container}} CPU 使用率: {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%。現在の値: {{ printf "%.2f" $value }}%
アラート通知
シンプルモード: 通知オブジェクト、通知期間、通知を再送信するかどうか を設定する必要があります。
標準モード:
通知ポリシーを指定しない: このオプションを選択した場合、アラート ルールを作成した後に 通知ポリシー ページで通知ポリシーを作成できます。通知ポリシー ページで、一致ルールと一致条件を指定できます。たとえば、アラート ルール名を一致条件として指定できます。アラート ルールがトリガーされると、アラート イベントが生成され、通知ポリシーで指定された連絡先または連絡先グループにアラート通知が送信されます。詳細については、通知ポリシーの作成と管理 を参照してください。
ドロップダウン リストから通知ポリシーを選択することもできます。ARMS は、選択した通知ポリシーに一致ルールを自動的に追加し、アラート ルールの ID を一致条件として指定します。アラート ルール名は通知ポリシー ページに表示されます。このようにして、アラート ルールに基づいて生成されたアラート イベントは、選択した通知ポリシーと一致させることができます。
重要通知ポリシーを選択すると、アラート ルールに基づいて生成されたアラート イベントは通知ポリシーと一致させることができ、アラートを生成できます。アラート イベントは、あいまい一致を使用する他の通知ポリシーとも一致する可能性があり、アラートが生成される可能性があります。1 つ以上のアラート イベントを 1 つ以上の通知ポリシーと一致させることができます。
通知ポリシーを指定しない
詳細設定
アラート チェック サイクル
アラート ルールは N 分ごとにトリガーされ、アラート条件が満たされているかどうかを確認します。デフォルト値: 1。最小値: 1。
1
データの完成後にチェック
はい
いいえ
はい
タグ
アラート ルールのタグを指定します。指定されたタグを使用して、通知ポリシーを一致させることができます。
なし
注釈
アラート ルールの注釈を指定します。
なし
保存 をクリックします。Prometheus アラート ルール ページで、アラート ルールのステータスを確認します。
自動中断 が ステータス 列に表示された場合は、指示に従ってアラート ルールを変更し、[アクション] 列の 開始 をクリックします。表示されるメッセージで、OK をクリックします。上記の解決策を適用した後も問題が解決しない場合は、テクニカル サポート (DingTalk ID: d9j_rg9e4062f) にお問い合わせください。
アラート ルールは、次の理由により自動的に中断される場合があります。
アラート ルールによってクエリされた結果の数が 1,500 を超えています。
通知オブジェクトが設定されていません。
Prometheus インスタンスがアンインストールされているか、使用できません。
カスタム PromQL ステートメントを使用してアラート ルールを作成する
プリセット メトリック以外のメトリックを監視するには、カスタム PromQL ステートメントを使用してアラート ルールを作成できます。
Prometheus アラート ルールの作成 ページで、パラメータを設定します。次の表にパラメータを示します。
パラメータ
説明
例
アラート ルール名
アラート ルール名を入力します。
Pod CPU 使用率が 8% を超えています
チェック タイプ
カスタム PromQL を選択します。
カスタム PromQL
Prometheus インスタンス
Prometheus インスタンスを選択します。
なし
参照アラート連絡先グループ
アラート連絡先グループを選択します。
Prometheus インスタンスでサポートされているアラート連絡先グループは、Prometheus インスタンスのタイプによって異なります。
Kubernetes 負荷
参照メトリック
オプション。[参照メトリック] ドロップダウン リストには、一般的なメトリックが表示されます。メトリックを選択すると、メトリックの PromQL ステートメントが [カスタム PromQL ステートメント] フィールドに表示されます。ビジネス要件に基づいてステートメントを変更できます。
参照メトリック ドロップダウン リストの値は、Prometheus インスタンスのタイプによって異なります。
Pod ディスク使用量アラート
カスタム PromQL ステートメント
PromQL ステートメントを入力します。
名前空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}} / {{$labels.device}} ディスクの使用率が 90% を超えています。現在の値: {{ printf "%.2f" $value }}%max(container_fs_usage_bytes{pod!="", namespace!="arms-prom",namespace!="monitoring"}) by (pod_name, namespace, device)/max(container_fs_limit_bytes{pod!=""}) by (pod_name,namespace, device) * 100 > 90
データ プレビュー
データ プレビュー には、アラート条件に対応する PromQL ステートメントが表示されます。また、時系列グラフに指定されたメトリックの値も表示されます。
デフォルトでは、1 つのリソースのリアルタイム値のみが表示されます。フィルタ条件を指定して、異なる時間範囲の異なるリソースのメトリック値を表示できます。
説明カーソルを曲線の上に移動すると、特定の時点のリソースの詳細が表示されます。
時系列曲線上で期間を選択して、選択した期間の時系列曲線を表示することもできます。
なし
期間
アラート条件が満たされた場合、アラート イベントが生成されます。データ ポイントがしきい値に達すると、アラート イベントが生成されます。
アラート条件が N 分間継続して満たされた場合、アラート イベントが生成されます。しきい値に達した期間が N 分以上の場合にのみ、アラート イベントが生成されます。
1
アラート レベル
アラート レベルを指定します。デフォルト値: デフォルト。有効な値: デフォルト、P4、P3、P2、P1。デフォルトは最も低い重大度レベルを示し、P1 は最も高い重大度レベルを示します。
デフォルト
アラート メッセージ
エンド ユーザーに送信するアラート メッセージを指定します。Go テンプレート構文に基づいて、アラート メッセージにカスタム変数を指定できます。
名前空間: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / {{$labels.device}} ディスクの使用率が 90% を超えています。現在の値: {{ printf "%.2f" $value }}%
アラート通知
シンプルモード: 通知オブジェクト、通知期間、通知を再送信するかどうか を設定する必要があります。
標準モード:
通知ポリシーを指定しない: このオプションを選択した場合、アラート ルールを作成した後に 通知ポリシー ページで通知ポリシーを作成できます。通知ポリシー ページで、一致ルールと一致条件を指定できます。たとえば、アラート ルール名を一致条件として指定できます。アラート ルールがトリガーされると、アラート イベントが生成され、通知ポリシーで指定された連絡先または連絡先グループにアラート通知が送信されます。詳細については、通知ポリシーの作成と管理 を参照してください。
ドロップダウン リストから通知ポリシーを選択することもできます。ARMS は、選択した通知ポリシーに一致ルールを自動的に追加し、アラート ルールの ID を一致条件として指定します。アラート ルール名は通知ポリシー ページに表示されます。このようにして、アラート ルールに基づいて生成されたアラート イベントは、選択した通知ポリシーと一致させることができます。
重要通知ポリシーを選択すると、アラート ルールに基づいて生成されたアラート イベントは通知ポリシーと一致させることができ、アラートを生成できます。アラート イベントは、あいまい一致を使用する他の通知ポリシーとも一致する可能性があり、アラートが生成される可能性があります。1 つ以上のアラート イベントを 1 つ以上の通知ポリシーと一致させることができます。
通知ポリシーを指定しない
詳細設定
アラート チェック サイクル
アラート ルールは N 分ごとにトリガーされ、アラート条件が満たされているかどうかを確認します。デフォルト値: 1。最小値: 1。
1
データの完成後にチェック
はい
いいえ
はい
タグ
アラート ルールのタグを指定します。指定されたタグを使用して、通知ポリシーを一致させることができます。
なし
注釈
アラート ルールの注釈を指定します。
なし
保存 をクリックします。Prometheus ページで、アラート ルールのステータスを確認します。
自動中断 が ステータス 列に表示された場合は、指示に従ってアラート ルールを変更し、[アクション] 列の 開始 をクリックします。表示されるメッセージで、OK をクリックします。上記の解決策を適用した後も問題が解決しない場合は、テクニカル サポート (DingTalk ID: d9j_rg9e4062f) にお問い合わせください。
アラート ルールは、次の理由により自動的に中断される場合があります。
アラート ルールによってクエリされた結果の数が 1,500 を超えています。
通知オブジェクトが設定されていません。
Prometheus インスタンスがアンインストールされているか、使用できません。
アラート ルールの管理
Managed Service for Prometheus コンソールの アラート ルールの表示 ページで作成されたアラート ルール (静的しきい値ルールとカスタム PromQL ルールを含む) については、編集、削除、コピー、開始、停止、および履歴アラート イベントの表示を行うことができます。
他の Alibaba Cloud サービスのコンソールで生成されたアラート ルールについては、履歴アラート イベントを表示し、クラウド サービスのアラート ルール リストに戻るこができます。