このドキュメントでは、Realtime Compute for Apache Flink の主要なアラートメトリック、推奨されるアラート構成、および O&M の例について説明します。このガイドを使用して、システムパフォーマンスをモニターし、エラーを診断できます。
前提条件
「モニタリングの設定」をご参照のうえ、ワークスペースのモニタリングサービスタイプに基づいて適切な構成メソッドを選択してください。
ARMS での複数メトリックのモニタリングは、カスタム PromQL を介してのみサポートされます。構成を簡素化するには、CloudMonitor を使用してアラートを構成できます。
推奨されるアラートルール構成
シナリオ | 組み合わせメトリック/イベント名 | ルール設定 | レベル | アクション |
ジョブ実行ステータスイベント | = FAILED (イベントアラート) | P0 | 1. 不正な再起動ポリシー構成を確認します。デフォルト構成を使用してください。 2. 問題が再起動ポリシーによるものか、異常な JobManager または TaskManager によるものかを判断します。 3. 最新のスナップショットまたは成功したチェックポイントからジョブを回復します。 | |
概要/1分あたりのジョブフェールオーバー数 | 1 期間連続で ≥ 1 | P0 | 1. 問題を特定します。
2. 最新のスナップショットまたは成功したチェックポイントからジョブを回復します。 | |
成功したチェックポイントの数 (合計 5 分) | 1 期間連続で ≤ 0 | P0 | 1. チェックポイント失敗の根本原因をトラブルシューティングするには、詳細については、「システムチェックポイント」をご参照ください。 2. 問題を特定します。
3. 構成を動的に更新するか、最新の成功したチェックポイントからジョブを回復します。 | |
概要/ビジネスレイテンシー && ソースの秒間入力レコード数 | 最大レイテンシー ≥ 180000 入力レコード ≥ 0 3 期間連続 | P1 | 1. レイテンシーの原因をトラブルシューティングするには、詳細については、「メトリックの説明」をご参照ください。
2. 特定の原因に基づいて調整を行います。
| |
概要/ソースの秒間入力レコード数 && ソースでの未処理データ時間 | 入力レコード ≤ 0 (ビジネスによる) 最大未処理時間 ≥ 60000 5 期間連続 | P1 | 1. taskmanager.log、フレームグラフ、アップストリームサービスのメトリックなどを確認します。問題が、アップストリームデータがない、トラフィック制限、アップストリームの例外、またはスタックしたスレッドスタックであるかを確認します。 2. 特定の原因に基づいて調整を行います。
| |
概要/シンクの秒間出力レコード数 | 5 期間連続で ≤ 0 | P1 | 1. データがシンクオペレーターに到達するかどうかを確認します。
2. シンクが外部システムに書き込めるかどうかを確認します。
3. 一時的にデュアルライトモードにスペックダウンし、データをバックアップストレージに書き込みます。 | |
CPU/単一 TaskManager の CPU 使用率 | 10 期間連続で ≥ 85% | P2 | 1. フレームグラフまたは Flink UI を使用して、ホットスポットオペレーターを特定します。
2. ボトルネックオペレーターの並列処理の次数を増やすか、TaskManager により多くの CPU コアを割り当てます。 | |
TaskManager の使用済みヒープメモリ | 10 期間連続で ≥ 90% | P2 | 1. GC ログをチェックして問題を特定します。
2. 特定の原因に基づいて調整を行います: ヒープサイズを増やすか、並列処理の次数を増やしてスロットあたりのデータ量を減らします。 |
ジョブの可用性
ジョブ失敗アラート
開発コンソール (ARMS)
リアルタイムコンピューティングコンソールにログインし、対象のワークスペースの [アクション] 列にある [コンソール] をクリックします。
[] ページで、対象のジョブの名前をクリックします。
[アラート構成] タブをクリックします。

CloudMonitor
Cloud Monitor コンソールにログインします。
左側のナビゲーションウィンドウで、[] を選択します。
[サブスクリプションポリシー] タブで、[サブスクリプションポリシーの作成] をクリックします。
[サブスクリプションポリシーの作成] ページで、パラメーターを構成できます。パラメーターの詳細については、「イベントサブスクリプションの管理 (推奨)」をご参照ください。

ジョブの安定性
JobManager の頻繁な再起動の防止
メトリック:
1 分あたりのジョブのエラー回復数ルール: ジョブが 1 分以内に再起動した場合にアラートをトリガーします。
推奨構成:
Number of job fault recoveries per minute監視値 >= 1
期間: 1 分
通知: 電話、ショートメッセージ、メール、WebHook (緊急)
高いチェックポイント成功率の確保
メトリック:
Number of completed checkpoints per minuteルール: 5 分以内に成功したチェックポイントがない場合にアラートをトリガーします。
推奨構成:
Number of completed checkpoints per minute監視値 <= 0
期間: 5 分
通知: 電話、ショートメッセージ、メール、WebHook (緊急)
リアルタイムデータ
SLA レイテンシーの確保
メトリクス:
Business latencySource input records per second
ルール: データが流入していて、ビジネスレイテンシーが 5 分を超えた場合にアラートをトリガーします。必要に応じて、しきい値とアラートレベルを調整できます。
推奨構成:
Business latency最大値 >= 300000
Source input records per second監視値 > 0
期間: 5 分
入力データストリームの中断の検出
メトリクス:
Source input records per secondTime of unprocessed data at the source
ルール: データ流入中にサービスレイテンシーが 5 分を超えると、アラートがトリガーされます。(サービス要件に基づいて、しきい値とアラートレベルを調整できます。)
推奨構成:
Source input records per second監視値 <= 0
Time of unprocessed data at the source最大値 > 60000
期間: 5 分
データ出力欠落の検出
メトリクス:
Sink output records per secondルール: 5 分を超えてデータが出力されない場合にアラートをトリガーします。必要に応じて、しきい値とアラートレベルを調整できます。
推奨構成:
Sink output records per second監視値 <= 0
期間: 5 分
リソースのパフォーマンスボトルネック
CPU パフォーマンスボトルネック
メトリック:
CPU utilization of a single TaskManager (TM)ルール: CPU 使用率が 85% を超える状態が 10 分以上続いた場合にアラートをトリガーします。
推奨構成:
CPU utilization of a single TM最大値 >= 85
期間: 10 分
メモリパフォーマンスボトルネック
メトリック: TM の使用済みヒープメモリ
ルール: ヒープメモリ使用量が 90% を超える状態が 10 分以上続いた場合にアラートをトリガーします。
推奨構成:
Used heap memory of the TM最大値 >= しきい値 (90%)
このしきい値は、 ページで確認できます。 たとえば、ログには 194 MB / 413 MB と表示される場合があります。 この場合、しきい値を 372 MB に設定できます。

期間: 10 分