全部產品

Realtime Compute for Apache Flink：監控警示推薦配置樣本與模板

更新時間：Nov 15, 2025

本文檔提供Realtime Compute Flink 的關鍵警示指標、警示配置建議及營運實踐樣本，協助您更好地監控系統效能並進行故障診斷。

前提條件

請參見配置監控警示，根據您工作空間使用的監控服務類型，選擇相應配置方式。

說明

ARMS的多指標監控只能通過自訂PromQL支援，如果需要簡易化配置，仍可以通過CloudMonitor進行警示配置。

推薦警示規則配置

情境	組合指標/事件名稱	規則配置	層級	處理動作
作業失敗警示	作業運行狀態事件	= FAILED（事件警示）	P0	①檢查重啟策略是否配置不當（建議使用預設配置）。 ②定位是重啟策略導致，還是 JobManager/TaskManager 異常導致。 ③從最近的快照/成功的Checkpoint 恢複生產。
Failover 激增	Overview/作業每分鐘錯誤恢複次數	≥ 1 連續 1 個周期	P0	①定位問題通過 Failover 及 JM/TM 日誌，確認失敗根因。忽略：偶發的、可自動回復的機器故障。修複：代碼 Bug、資源瓶頸或配置錯誤。 ②從最近的快照/成功的Checkpoint 恢複生產。
Checkpoint連續失敗	Checkpoint 成功次數（5 min 累計）	≤ 0 連續 1 周期	P0	①參閱系統檢查點排查checkpoint失敗根本原因。 ②定位問題參數問題（如逾時）：調整checkpoint相關配置。資源擴容（如反壓）：可以進行動態擴縮容，為反壓運算元增加資源。 ③動態更新配置或從最近成功的Checkpoint恢複生產。
業務延時高（有資料）	Overview/業務延時 && 每秒Source端輸入記錄數	最大值延時≥180000 輸入記錄數≥0 連續 3 個周期	P1	①參閱監控指標說明排查延遲原因。資料層面：事件時間（EventTime）是否亂序？流量層面：上遊流量是否激增？下遊是否反壓？ ②根據具體原因調整內部：調整 Connector WITH 參數，為瓶頸運算元擴容。外部：最佳化外部服務配置（如調整限流策略、增加串連數）。
上遊資料流中斷檢測	Overview/每秒Source端輸入記錄數 && 源端未處理資料時間	輸入記錄數≤0（業務而定）最大值未處理時間≥60000 持續 5 個周期	P1	①可查看taskmanager.log、火焰圖、上遊服務指標等。確認問題是上遊無資料/限流/異常，還是線程棧卡死。 ②根據具體原因調整 Connector問題：最佳化 Connector 參數（如逾時、並發）或增加 TaskManager 資源。上下遊服務問題：通知上遊業務方進行處理。 Flink 內部瓶頸(如反壓或系統卡死)：先解決導致瓶頸的根本原因（如處理下遊問題），然後從最近的 Checkpoint 重啟作業。
下遊資料無輸出檢測	Overview/每秒輸出到Sink端記錄數	≤ 0 連續 5 個周期	P1	①確認資料是否抵達 Sink 運算元商務邏輯過濾：通過日誌或指標，確認是否所有輸入資料都因不滿足條件被過濾。遲到資料丟棄：檢查 Watermark 和視窗配置，確認資料是否因遲到而被丟棄。 ②確認 Sink 是否能寫入外部系統串連層面：Sink 串連池是否已打滿？網路連接是否正常？目標系統層面：下遊資料庫/服務是否存在鎖表、磁碟空間不足、寫入限流或其他異常？ ③臨時雙寫降級，將資料寫入備用儲存。
CPU效能瓶頸	CPU/ 單個TM 的CPU利用率	≥ 85 % 連續 10 周期	P2	①看火焰圖或Flink UI定位熱點運算元。商務邏輯：是否為複雜的計算、JSON 解析、不合理的自訂函數 (UDF)。資料扭曲：是否存在熱點Key導致某個key的資料量過大，導致單任務過載。資源不足：當前並行度和 TM 資源能否匹配資料流量？是否存在嚴重反壓？ GC 頻繁：通過日誌或 JVM 指標檢查是否因記憶體壓力導致頻繁 Full GC，消耗大量 CPU。 ②適當增加瓶頸運算元的並行度，或為TaskManager分配更多CPU Core。
記憶體效能瓶頸	TM的堆記憶體已使用	≥ 90 % 連續 10 周期	P2	①查看 GC 日誌定位問題。記憶體流失 (Leak)：通過 Flink UI 或監控觀察，堆記憶體在 GC 後無法回落到正常基準，基準持續抬升。容量不足 (Insufficient)：堆記憶體使用量率長期處於高位，頻繁觸發 Full GC，導致效能下降。瞬間 OOM：處理某條或某批資料時，記憶體瞬間佔滿，直接導致 OutOfMemoryError。 ②根據具體原因調整：增加Heap或調大並行度降低單槽資料量。

作業可用性

作業失敗警示

開發控制台（ARMS）

登入Realtime Compute控制台，單擊目標工作空間操作列下的控制台。
在營運中心 > 作業營運頁面，單擊目標作業名稱。
單擊警示配置頁簽。

CloudMonitor

登入CloudMonitor控制台。
在左側導覽列，選擇事件中心 > 事件訂閱。
在訂閱策略頁簽，單擊建立訂閱策略。
在建立訂閱策略頁面，配置相關參數，參數詳情請參見管理事件訂閱（推薦）。

作業穩定性

防止 JobManager 頻繁重啟

指標：作業每分鐘錯誤恢複次數
規則：1 分鐘內作業重啟警示
配置建議：
- 作業每分鐘錯誤恢複次數
  監控值 >= 1
- 時間周期：1分鐘
- 通知：電話+簡訊+郵件+WebHook（Critical）

Checkpoint 成功率保障

指標：每分鐘完成checkpoint數量
規則：Checkpoint5分鐘無成功警示
配置建議：
- 每分鐘完成checkpoint數量
- 監控值 <= 0
- 時間周期：5分鐘
- 通知：電話+簡訊+郵件+WebHook（Critical）

資料即時性

保障 SLA 延遲

指標：
- 業務延時
- 每秒Source端輸入記錄數
規則：有資料流入且業務延時超過5分鐘則警示（閾值和警示層級可根據業務調整）
配置建議：
- 業務延時
  最大值 >= 300000
- 每秒Source端輸入記錄數
  監控值 > 0
- 時間周期：5分鐘

上遊資料流中斷檢測

指標：
- 每秒Source端輸入記錄數
- 源端未處理資料的時間
規則：有資料流入且業務延時超過5分鐘則警示（閾值和警示層級可根據業務調整）
配置建議：
- 每秒Source端輸入記錄數
  監控值 <= 0
- 源端未處理資料的時間
  最大值 > 60000
- 時間周期：5分鐘

下遊資料無輸出檢測

指標：每秒輸出到Sink端記錄數
規則：無資料輸出超過5分鐘則警示（閾值和警示層級可根據業務調整）
配置建議：
- 每秒輸出到Sink端記錄數
  監控值 <= 0
- 時間周期：5分鐘

資源效能瓶頸

CPU效能瓶頸

指標：單個TM CPU的利用率
規則：CPU使用率大於85%超過10分鐘則警示
配置建議：
- 單個TM CPU的利用率
  最大值 >= 85
- 時間周期：10分鐘

記憶體效能瓶頸

指標：TM的堆記憶體已使用
規則：堆記憶體使用量率大於90%超過10分鐘則警示
配置建議：
- TM的堆記憶體已使用
  最大值 >= 閾值（90%）
  該閾值可在作業營運 > 作業日誌中查看，如圖 194 MB / 413 MB。可以設定閾值為372 MB。
- 時間周期：10分鐘