ACK One での Prometheus による Argo CD アラートの設定 - ACK

ACK One フリートモニタリングでは、Managed Service for Prometheus を使用してご利用の Fleet インスタンスからメトリックを収集します。カスタム Prometheus アラートルールを定義することで、Argo CD Pod のリソース使用量をリアルタイムで監視し、しきい値を超えた際に通知を送信できます。

前提条件

作業を開始する前に、以下の要件を満たしていることを確認してください。

Fleet モニタリングが有効になっていること。「Fleet モニタリングの有効化」をご参照ください。
通知オブジェクトが設定済みであること。「通知オブジェクト」をご参照ください。

通知オブジェクトに DingTalk を使用する場合、事前に DingTalk チャットボットのセキュリティ設定で カスタムキーワード

Argo CD アラートルールの作成

ACK One コンソールにログインします。左側のナビゲーションウィンドウで、Fleet > Fleet Observability > Fleet モニタリング の順に選択します。
Fleet モニタリング ページの右上隅にある アラート設定 をクリックし、Prometheus アラートルール ページを開きます。

Prometheus アラートルールの作成 をクリックし、次の表に示すフィールドを入力します。

パラメーター	説明	デフォルト	例
アラートルール名	アラートルールの名前です。	—	`ACK One Argo CD pod memory alert`
チェックタイプ	検出方法です。静的しきい値はメトリックを固定値と比較します。カスタム PromQL では、直接 PromQL 式を記述できます。	—	`Static Threshold`
Prometheus インスタンス	監視対象の ACK One Fleet インスタンスです。	—	`text-XXXX`
アラート連絡先グループ	ご利用の環境内で監視対象となる Kubernetes アプリケーショングループです。	—	`Kubernetes workload`
アラートメトリック	評価対象のメトリックです。Argo CD Pod の場合は、コンテナメモリ使用量およびコンテナ CPU 使用率が最も重要な監視メトリックとなります。	—	`Container Memory Usage`
アラート条件	アラートイベントをトリガーするしきい値条件です。	—	CPU使用率が`80%`
フィルター条件	アラートルールの適用範囲を絞り込みます。以下のフィルター条件タイプをご参照ください。	Traverse	`Namespace Equal argocd, Pod: Traverse`
持続時間	アラートイベントの発火タイミングを制御します。以下の持続時間オプションをご参照ください。	—	アラート条件が 2 分間継続的に満たされる
アラートレベル	重大度レベルです。Default が最低、P1 が最高です。有効な値：Default、P4、P3、P2、P1。	Default	`P1`
アラートメッセージ	アラート発火時に受信者に送信されるメッセージです。Go テンプレート構文に基づき、カスタム変数を指定できます。	—	`Namespace: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / Container: {{$labels.container}} CPU utilization: {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%. Current value: {{ printf "%.2f" $value }}%`
アラート通知	通知フォーマットです。有効な値：シンプルモードおよび標準モード。	—	`Simple Mode`
通知オブジェクト	アラートメッセージを受信するチャンネル（例：DingTalk グループ）です。	—	`DingTalk alert`
通知期間	アラート通知を送信するタイムウィンドウです。	—	`23:00–01:00`
通知を再送信するかどうか	アラートがクリアされない場合の再送信頻度です。	—	10 分ごと

フィルター条件タイプ

タイプ	適用範囲	追加入力の必要性	複数値のサポート
Traverse（デフォルト）	Prometheus インスタンス内のすべてのリソース	いいえ	該当なし
Equal	指定されたリソースのみ	リソース名	いいえ
Not equal	指定されたリソース以外のすべて	リソース名	いいえ
Regex match	名前が正規表現に一致するリソース	正規表現	はい（正規表現経由）
Regex not match	名前が正規表現に一致しないリソース	正規表現	はい（正規表現経由）

持続時間オプション

オプション	アラート発火タイミング
アラート条件が満たされた場合	単一のデータポイントがしきい値を超えるとすぐに
アラート条件が N 分間継続的に満たされた場合	しきい値超過状態が少なくとも N 分間継続した後

完了をクリックしてアラートルールを保存します。

アラートルールの検証

ルールを保存後、アラート条件をシミュレートして、通知が意図した受信者に届くことを確認します。

一時的にアラートのしきい値を下げて、現在ご利用の Argo CD Pod が超過している値に設定するか、Pod に負荷スパイクを発生させます。
設定した 持続時間 が経過するまで待ちます。
通知オブジェクト（例：DingTalk グループ）にアラートメッセージが届いているかを確認します。
メッセージ本文が設定した アラートメッセージ テンプレートと一致していることを確認します。

過去のアラートイベントを確認するには、Prometheus コンソールを開きます。『過去のアラートの表示』をご参照ください。

次のステップ

アラートルールテンプレートの作成と管理 — 複数の Fleet インスタンス間でアラート設定を再利用します。
Fleet モニタリングの有効化 — まだ設定していない場合は、モニタリング基盤を構築します。