このドキュメントでは、Realtime Compute for Apache Flink の主要なアラートメトリクス、推奨設定、および運用保守 (O&M) の例について説明します。このガイドを参考にすることで、システムパフォーマンスの監視や障害診断をより効果的に行うことができます。
前提条件
詳細については、「モニタリングとアラートの設定」をご参照ください。ご利用のワークスペースで使用されているモニタリングサービスに対応する方法を選択できます。
Application Real-Time Monitoring Service (ARMS) での複数メトリックのモニタリングには、カスタム PromQL が必要です。より簡単な設定が必要な場合は、引き続き Cloud Monitor を使用してアラートを設定できます。
推奨アラートルール設定
|
シナリオ |
複合メトリック/イベント名 |
ルール設定 |
レベル |
対処 |
|
ジョブステータスイベント |
= FAILED (イベントアラート) |
P0 |
1. 再起動ポリシーが誤って設定されていないか確認します。デフォルト設定の使用を推奨します。 2. 原因が再起動ポリシーによるものか、JobManager または TaskManager の異常によるものかを特定します。 3. 最新のスナップショットまたは成功したチェックポイントからジョブを復元します。 |
|
|
概要/ジョブの 1 分あたりのエラー回復数 |
1 期間連続で ≥ 1 |
P0 |
1. 問題を特定します。
2. 最新のスナップショットまたは成功したチェックポイントからジョブを復元します。 |
|
|
成功したチェックポイント数 (5 分間の累積) |
1 期間連続で ≤ 0 |
P0 |
1. 詳細については、「システムチェックポイント」をご参照のうえ、失敗の根本原因をトラブルシューティングしてください。 2. 問題を特定します。
3. 設定を動的に更新するか、最新の成功したチェックポイントからジョブを復元します。 |
|
|
概要/ビジネスレイテンシー && ソースからの毎秒の入力レコード数 |
最大レイテンシー ≥ 180000 入力レコード ≥ 0 3 期間連続 |
P1 |
1. 詳細については、「メトリックの説明」をご参照のうえ、レイテンシーの原因を調査してください。
2. 原因に基づいて対処します。
|
|
|
概要/ソースからの毎秒の入力レコード数 && ソースの生データタイムスタンプ |
入力レコード ≤ 0 (ビジネスに依存) 最大アイドル時間 ≥ 60000 5 期間連続 |
P1 |
1. taskmanager.log、フレームグラフ、および上流サービスのメトリックを確認し、問題が上流データなし、速度制限、エラー、または停止したスレッドスタックであるかを確認します。 2. 原因に基づいて対処します。
|
|
|
概要/sink への毎秒の出力レコード数 |
5 期間連続で ≤ 0 |
P1 |
1. データが sink 演算子に到達しているか確認します。
2. sink が外部システムに書き込めるか確認します。
3. 一時的な対策として、バックアップストレージシステムへのデュアルライトを有効にしてください。 |
|
|
CPU/単一 TM の CPU 使用率 |
10 期間連続で ≥ 85% |
P2 |
1. フレームグラフまたは Flink UI を使用して、ホットスポット演算子を特定します。
2. ボトルネックとなっている演算子の並列度を上げるか、TaskManager により多くの CPU コアを割り当てます。 |
|
|
TM のヒープメモリ使用量 |
10 期間連続で ≥ 90% |
P2 |
1. GC ログを確認して問題を特定します。
2. 原因に基づいて対処します:ヒープサイズを増やすか、並列度を上げてスロットあたりのデータ量を減らします。 |
ジョブの可用性
ジョブ失敗アラート
開発コンソール (ARMS)
-
Realtime Compute for Apache Flink コンソールにログインします。Realtime Compute for Apache Flink コンソール にログインした後、ワークスペースの [アクション] 列で、[コンソール] をクリックします。
-
[]ページで、対象のジョブをクリックします。
-
[アラート設定] タブをクリックします。

Cloud Monitor
-
Cloud Monitor コンソールにログインします。
-
左側のナビゲーションウィンドウで、 を選択します。
-
「サブスクリプションポリシー」タブで、「サブスクリプションポリシーの作成」をクリックします。
-
「[サブスクリプションポリシーの作成]」ページで、パラメーターを設定します。詳細については、「イベントサブスクリプションの管理(推奨)」をご参照ください。

ジョブの安定性
JobManager の頻繁な再起動の防止
-
メトリック:
ジョブの 1 分あたりのエラー回復数 -
ルール:ジョブが 1 分以内に再起動した場合にアラートを送信します。
-
推奨設定:
-
ジョブの 1 分あたりのエラー回復数メトリック値 >= 1
-
期間:1 分
-
通知:電話、ショートメッセージ、メール、および WebHook (緊急)
-
チェックポイント成功率の確保
-
メトリック:
1 分あたりの完了したチェックポイント数 -
ルール:5 分以内にチェックポイントが完了しない場合にアラートを送信します。
-
推奨設定:
-
1 分あたりの完了したチェックポイント数 -
メトリック値 <= 0
-
期間:5 分
-
通知:電話、ショートメッセージ、メール、および WebHook (緊急)
-
データの適時性
レイテンシー SLA の確保
-
メトリック:
-
ビジネスレイテンシー -
ソースからの毎秒の入力レコード数
-
-
ルール:データが受信されており、ビジネスレイテンシーが 5 分を超えた場合にアラートを生成します。必要に応じて、しきい値とアラートレベルを調整できます。
-
推奨設定:
-
ビジネスレイテンシー最大値 >= 300000
-
ソースからの毎秒の入力レコード数メトリック値 > 0
-
期間:5 分
-
上流データストリームの中断検出
-
メトリック:
-
ソースからの毎秒の入力レコード数 -
未処理ソースデータの経過時間
-
-
ルール:入力データがあり、サービスレイテンシーが 5 分を超えた場合にアラートがトリガーされます (しきい値とアラートレベルは設定可能です)。
-
推奨設定:
-
ソースからの毎秒の入力レコード数メトリック値 <= 0
-
ソースでの未処理データの経過時間最大値 > 60000
-
期間:5 分
-
下流へのデータ出力がないことの検出
-
メトリック:
sink への毎秒の出力レコード数 -
ルール:5 分以上データ出力がない場合にアラートを生成します。必要に応じて、しきい値とアラートレベルを調整できます。
-
推奨設定:
-
sink への毎秒の出力レコード数メトリック値 <= 0
-
期間:5 分
-
リソースのパフォーマンスボトルネック
CPU パフォーマンスボトルネック
-
メトリック:
単一 TM の CPU 使用率 -
ルール:CPU 使用率が 10 分以上 85% を超えた場合にアラートを送信します。
-
推奨設定:
-
単一 TM の CPU 使用率最大値 >= 85
-
期間:10 分
-
メモリパフォーマンスボトルネック
-
メトリック:TM のヒープメモリ使用量
-
ルール:ヒープメモリ使用量が 10 分以上 90% を超えた場合にアラートを送信します。
-
推奨設定:
-
TM のヒープメモリ使用量最大値 >= しきい値 (90%)
このしきい値は、 ページで確認できるヒープメモリ使用量に基づいて決定します。たとえば、使用量が 194 MB / 413 MB の場合、しきい値を 372 MB(413 MB の 90%)に設定します。

-
期間:10 分
-