ACK One フリートモニタリングでは、Managed Service for Prometheus を使用してご利用の Fleet インスタンスからメトリックを収集します。カスタム Prometheus アラートルールを定義することで、Argo CD Pod のリソース使用量をリアルタイムで監視し、しきい値を超えた際に通知を送信できます。
前提条件
作業を開始する前に、以下の要件を満たしていることを確認してください。
Fleet モニタリングが有効になっていること。「Fleet モニタリングの有効化」をご参照ください。
通知オブジェクトが設定済みであること。「通知オブジェクト」をご参照ください。
通知オブジェクトに DingTalk を使用する場合、事前に DingTalk チャットボットのセキュリティ設定で カスタムキーワード
Argo CD アラートルールの作成
ACK One コンソール にログインします。左側のナビゲーションウィンドウで、Fleet > Fleet Observability > Fleet モニタリング の順に選択します。
Fleet モニタリング ページの右上隅にある アラート設定 をクリックし、Prometheus アラートルール ページを開きます。
Prometheus アラートルールの作成 をクリックし、次の表に示すフィールドを入力します。
パラメーター 説明 デフォルト 例 アラートルール名 アラートルールの名前です。 — ACK One Argo CD pod memory alertチェックタイプ 検出方法です。静的しきい値 はメトリックを固定値と比較します。カスタム PromQL では、直接 PromQL 式を記述できます。 — Static ThresholdPrometheus インスタンス 監視対象の ACK One Fleet インスタンスです。 — text-XXXXアラート連絡先グループ ご利用の環境内で監視対象となる Kubernetes アプリケーショングループです。 — Kubernetes workloadアラートメトリック 評価対象のメトリックです。Argo CD Pod の場合は、コンテナメモリ使用量 および コンテナ CPU 使用率 が最も重要な監視メトリックとなります。 — Container Memory Usageアラート条件 アラートイベントをトリガーするしきい値条件です。 — CPU使用率が 80%フィルター条件 アラートルールの適用範囲を絞り込みます。以下のフィルター条件タイプをご参照ください。 Traverse Namespace Equal argocd, Pod: Traverse持続時間 アラートイベントの発火タイミングを制御します。以下の持続時間オプションをご参照ください。 — アラート条件が 2 分間継続的に満たされる アラートレベル 重大度レベルです。Default が最低、P1 が最高です。有効な値:Default、P4、P3、P2、P1。 Default P1アラートメッセージ アラート発火時に受信者に送信されるメッセージです。Go テンプレート構文に基づき、カスタム変数を指定できます。 — Namespace: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / Container: {{$labels.container}} CPU utilization: {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%. Current value: {{ printf "%.2f" $value }}%アラート通知 通知フォーマットです。有効な値:シンプルモード および 標準モード。 — Simple Mode通知オブジェクト アラートメッセージを受信するチャンネル(例:DingTalk グループ)です。 — DingTalk alert通知期間 アラート通知を送信するタイムウィンドウです。 — 23:00–01:00通知を再送信するかどうか アラートがクリアされない場合の再送信頻度です。 — 10 分ごと フィルター条件タイプ
タイプ 適用範囲 追加入力の必要性 複数値のサポート Traverse(デフォルト) Prometheus インスタンス内のすべてのリソース いいえ 該当なし Equal 指定されたリソースのみ リソース名 いいえ Not equal 指定されたリソース以外のすべて リソース名 いいえ Regex match 名前が正規表現に一致するリソース 正規表現 はい(正規表現経由) Regex not match 名前が正規表現に一致しないリソース 正規表現 はい(正規表現経由) 持続時間オプション
オプション アラート発火タイミング アラート条件が満たされた場合 単一のデータポイントがしきい値を超えるとすぐに アラート条件が N 分間継続的に満たされた場合 しきい値超過状態が少なくとも N 分間継続した後 完了 をクリックしてアラートルールを保存します。
アラートルールの検証
ルールを保存後、アラート条件をシミュレートして、通知が意図した受信者に届くことを確認します。
一時的にアラートのしきい値を下げて、現在ご利用の Argo CD Pod が超過している値に設定するか、Pod に負荷スパイクを発生させます。
設定した 持続時間 が経過するまで待ちます。
通知オブジェクト(例:DingTalk グループ)にアラートメッセージが届いているかを確認します。
メッセージ本文が設定した アラートメッセージ テンプレートと一致していることを確認します。
過去のアラートイベントを確認するには、Prometheus コンソールを開きます。『過去のアラートの表示』をご参照ください。
次のステップ
アラートルールテンプレートの作成と管理 — 複数の Fleet インスタンス間でアラート設定を再利用します。
Fleet モニタリングの有効化 — まだ設定していない場合は、モニタリング基盤を構築します。