全部產品
Search
文件中心

Realtime Compute for Apache Flink:配置監控警示

更新時間:Dec 17, 2025

Realtime ComputeFlink版支援使用CloudMonitor(免費監控服務)或ARMS提供監控警示服務,配置作業指標監控警示、作業事件監控警示以及工作流程警示,便於您及時發現並處理異常。本文為您介紹使用不同監控服務時如何配置監控警示。

使用限制

  • 部署時提交至Session叢集的Flink作業不支援配置監控警示。

  • 批作業暫不支援配置監控警示。

  • ARMS監控不支援工作流程警示,但仍可以使用CloudMonitor(免費監控服務)進行配置。

配置引導

請根據您工作空間使用的監控服務類型(查看監控服務類型),選擇相應配置方式:

切換監控服務類型

支援切換監控服務類型,可以滿足不同業務情境的需求。

Realtime Compute控制台,單擊目標工作空間操作列下的更多,可以切換到另一個類型的監控服務。

說明

請仔細閱讀切換服務類型的注意事項,勾選確認後,方可進一步配置使用。

CloudMonitor配置監控警示

指標警示配置

重要

僅購買該工作空間的主帳號,以及該主帳號下具有專案空間許可權的RAM使用者和RAM角色,可以在CloudMonitor上配置警示。

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,選擇警示服務 > 警示規則

  3. 單擊建立警示規則,配置相關參數。

  4. 參數

    說明

    產品

    Realtime ComputeFlink版

    資源範圍

    選擇執行個體,警示規則作用於Realtime ComputeFlink版指定工作空間。

    關聯資源

    單擊添加執行個體,選擇目標地區下的工作空間後(如何查看工作空間ID等資訊?),單擊確認

    規則描述

    單擊添加規則 > 簡單指標組合指標,進入設定規則描述面板。

    image

    其中,在維度部分,您可以配置namespace(Flink專案空間名稱)和deploymentID(對應Flink作業部署詳情頁簽的部署作業ID),指定需要監控的作業。

    說明
    • namespace和deploymentID下拉式清單無資料時,您可以手動填寫。

    • 不填寫則監控所有專案空間下的所有作業。

    說明

事件警示配置(含工作流程)

重要

僅購買該工作空間的主帳號,以及該主帳號下具有專案空間許可權的RAM使用者和RAM角色,可以在CloudMonitor上配置警示或訂閱事件。

作業事件警示

通過配置條件來訂閱作業的系統事件警示,支援事件批量警示配置。

  1. 登入CloudMonitor控制台

  2. 在左側導覽列,選擇事件中心 > 事件訂閱

  3. 訂閱策略頁簽,單擊建立訂閱策略

  4. 建立訂閱策略頁面,配置相關參數,參數詳情請參見管理事件訂閱(推薦)

    image

    • 訂閱類型:系統事件

    • 產品:選擇Realtime ComputeFlink版

    • 事件名稱:支援作業運行失敗(使用ARMS監控服務時不支援)、ECS宕機事後處理ECS主動營運影響事件。

    • 事件內容:可以在事件內容中通過填寫如下Flink資訊進行指定作業批量警示

      • 工作空間ID:對目標工作空間下所有專案空間的所有作業進行事件警示。工作空間ID查看請參見如何查看工作空間ID等資訊?

      • 專案空間名稱:對目標專案空間下所有作業進行事件警示。

      • 部署作業名稱:對指定作業進行事件警示,多個作業時使用英文逗號(,)分隔。需要注意帳號下是否存在重名作業,若存在重名作業請使用DeploymentID。

      • DeploymentID:對指定作業進行事件警示,多個作業時使用英文逗號(,)分隔。可在Flink作業部署詳情頁簽的部署作業ID查看。

    說明

    應用分組事件內容事件資源均不設定時,表示訂閱範圍對本帳號內所有工作空間生效。

工作流程事件警示

通過配置條件來訂閱Flink工作流程的系統事件警示,支援事件批量警示配置,工作流程詳情請參見管理工作流程

  1. 擷取工作流程節點的資源ID。

    1. 登入CloudMonitor控制台

    2. 在左側導覽列,選擇事件中心 > 系統事件

    3. 事件監控頁簽,產品選擇Realtime ComputeFlink版、事件名稱選擇工作流程工作狀態變化,單擊搜尋

    4. 在下面篩選出工作流程節點的資源ID。

      工作流程警示_cn.png

      資源格式為acs:flink:cn-hangzhou:<阿里雲帳號Id>:resourceId/workspaceId/<workspaceId-namespaceId>#workflowDefinitionName/<workflowDefinitionName>#taskDefinitionName/<taskDefinitionName>,您也可以使用這個格式直接拼接您的工作流程節點的資源ID。

      參數

      說明

      <workspace阿里雲帳號Id>

      開通Flink工作空間的阿里雲帳號ID。

      <workspaceId-namespaceId>

      由"-"字元拼接workspaceIdnamespaceId組成。

      workspaceId:工作空間ID,詳情請參見空間管理與操作

      namespaceId: 專案空間名稱。

      <workflowDefinitionName>

      工作流程名稱。

      <taskDefinitionName>

      工作流程節點名稱。

      說明

      CloudMonitor中工作流程的狀態變更事件顯示通常會存在幾分鐘的延遲。

  2. 訂閱事件通知。

    1. 在左側導覽列,選擇事件中心 > 事件訂閱

    2. 訂閱策略頁簽,單擊建立訂閱策略

    3. 建立訂閱策略頁面,設定訂閱策略的相關參數,參數詳情請參見管理事件訂閱(推薦)

      • 訂閱類型:系統事件

      • 產品:選擇Realtime ComputeFlink版

      • 事件名稱:選擇工作流程工作狀態變化

      • 事件內容:支援填寫toState: FAILED(工作流程狀態失敗)、toState: SUCCESS(工作流程狀態成功)、fromState: SCHEDULED, toState: RUNNING(工作流程狀態從等待調度,到運行中的參數)。

      • 事件資源:輸入步驟1中擷取到的工作流程的資源ID,多個時使用英文逗號(,)分隔。

      • 事件類型、事件等級、應用分組:均不設定。

ARMS配置監控警示

指標警示配置

說明

ARMS的多指標監控只能通過自訂PromQL支援,如果需要簡易化配置,可以通過CloudMonitor指標警示配置

單個作業配置(Realtime Compute控制台)

您可以針對目標作業建立新的警示規則,也可以在建立警示規則模板後,直接使用已有規則模板為目標作業建立警示,加快配置監控警示的效率。

說明

Realtime Compute開發控制台僅支援查看近48小時內警示事件,更長時間的警示事件請在ARMS控制台警示管理中查看。

  1. 進入警示配置入口。

    1. 登入Realtime Compute控制台,單擊目標工作空間操作列下的控制台

    2. 營運中心 > 作業營運頁面,單擊目標作業名稱。

    3. 單擊警示配置頁簽。

  2. 警示規則頁簽,選擇添加警示規則 > 自訂規則

    您也可以選擇添加警示規則 > 規則模板,通過添加並使用警示模板,可以直接建立警示規則或基於模板進行簡單修改後建立警示規則,加快配置監控警示的效率。

  3. 填寫警示規則資訊。

    類別

    參數

    描述

    具體規則

    規則名稱

    以字母開頭,僅包含小寫英文字母、數字、底線(_),長度限制為3~64個字元。

    描述

    規則的備忘資訊。

    內容

    配置觸發警示的條件內容,配置完成後會每間隔指定時間,對指定的指標值與閾值進行計算比較,計算結果滿足則自動警示。

    • 指標

      • Restart Count in 1 Minute:1分鐘內Job Manager重啟次數,單位為次。

      • Checkpoint Count in 5 Minutes:5分鐘內Checkpoint成功次數,單位為個。

      • Emit Delay:業務延時,即資料發生時間與資料離開Source運算元的時間差值,單位為秒。

        重要

        資料發生時間依賴於外部系統中記錄的時間戳記。如果外部系統裡面沒時間戳記,或者資料寫入外部系統時,亂寫時間戳記,則Emit Delay數值不準確,無法反映真實延時。建議多指標配置警示來判斷真實事件,詳情請參見監控警示推薦配置樣本與模板

      • IN RPS:每秒輸入記錄數,單位為條/秒。

      • OUT RPS:每秒輸出記錄數,單位為條/秒。

      • Source Idle Time:源端未處理資料的時間,單位為毫秒。

      • Job Failed:作業失敗

    • 時間差:指系統每次檢查時,向前回溯查詢的歷史資料時間視窗長度。單位(分鐘)。

    • 運算子:支援>=<=兩種。

    • 閾值:與指標進行比較的值。

      • 如果您選擇的運算子是>= ,則取縱軸中的MAX值。如果時間差內最大值>=閾值,則觸發警示規則。

      • 如果您選擇的運算子是<= ,則取縱軸中的MIN值。如果時間差內最小值<= 閾值,則觸發警示規則。

    假設監控的是“5分鐘內CP成功次數”指標,時間差設為10分鐘,閾值設為2,運算子選“<=”。

    系統就會每分鐘都去翻最近10分鐘的歷史資料,看看在這10分鐘裡,有沒有某一個“5分鐘時間段”的CP成功次數小於等於2。如果有,就觸發警示。

    生效時間

    警示監控的生效時間,可以指定只在白天(9點~18點)生效,預設全天生效。

    警示頻率

    連續多少分鐘內只發一次警示。支援1分鐘~1440分鐘(24小時)。

    通知方式

    通知方式

    支援選擇多個通知方式。支援的通知方式如下:

    • DingTalk:DingTalk。

    • Email:郵件。

    • SMS:簡訊。

    • Webhook:網路服務地址。

    • Phone:電話。

      需確保接收人電話已完成驗證,否則無法生效。您可以單擊下方的通知對象管理,若連絡人頁簽中目標連絡人電話列存在未驗證標識,需單擊完成驗證。

      image

    重要

    請確保已建立並添加可用的通知對象,否則將導致警示通知方式失敗。例如,選擇DingTalk通知方式時,請選中DingTalk並添加DingTalk機器人類型的DingTalk通知對象。

    通知對象

    支援同時通知多個通知對象,您可以直接選擇或搜尋提醒對象。在選擇通知對象前,您需要單擊右側的通知對象管理建立通知對象,詳情請參見空間管理與操作

    警示降噪

    單擊進階配置後,您可以開啟警示降噪開關。

    開啟警示降噪開關後,對於作業可以快速恢複的情境(因叢集調度或觸發自動調優等情境觸發的短期的Failover)則不會向您發送警示,只有連續達到您設定的閾值條件時,才會向您發送警示。

    無資料警示

    單擊進階配置後,您可以開啟無資料警示開關並填寫連續無資料的時間資訊。

    開啟該功能後,將監測無監控埋點資料彙報情境,如果資料在選擇時間段內沒有彙報就會觸發警示。通常JobManager異常、作業異常停止或者彙報鏈路異常會導致無監控埋點資料彙報。

  4. 單擊確定

    儲存後的警示規則預設已啟用,且出現在警示規則列表中,您可以選擇停止、編輯或刪除。

單作業/多作業配置(ARMS控制台)

  1. 登入Realtime Compute控制台

  2. 單擊目標工作空間操作列下的更多 > 監控指標配置,進入應用即時監控服務ARMS控制台。

    上方展示了工作空間名稱、工作空間ID,以及對應的Prometheus執行個體名稱。

    image.png

  3. 單擊左側的警示規則,建立警示規則。

    image

    • 檢測類型:支援通過靜態閾值和自訂PromQL進行指標警示(Flink已支援的警示指標除外)。

    • 篩選條件:支援批量警示配置。命名空間填寫專案空間名稱,選擇全部時表示工作空間下全部專案空間;部署作業填寫專案空間下目標作業的部署作業ID(在Flink作業部署詳情頁簽查看),選擇全部時表示專案空間下的全部作業。

    更多配置參數詳情請參見建立Prometheus警示規則。您也可以建立Prometheus警示規則模板,詳情請參見建立Prometheus警示規則模板

事件警示配置

僅支援作業失敗事件,在指標警示配置中選擇Job Failed規則配置,暫不支援其他事件警示配置,可通過CloudMonitor事件警示配置

常見問題

如何確認工作空間使用的監控服務類型

監控服務類型是您在開通工作空間時進行選擇。開通後,在營運中心 > 作業營運頁面,單擊目標作業名稱,如果存在警示配置頁簽,則工作空間使用的是隨用隨付 Prometheus 監控服務(ARMS)監控服務類型,不存在則使用的是免費監控服務(CloudMonitor)類型。

image

如何在Realtime Compute開發控制台添加DingTalk機器人警示

  1. 添加一個自訂DingTalk機器人,並擷取它的Webhook地址,詳情請參見添加自訂DingTalk機器人並擷取Webhook地址

    重要

    安全設定請至少選中自訂關鍵詞,且關鍵詞至少設定為警示才能收到警示資訊。

  2. 添加通知對象。

    1. 營運中心 > 作業營運頁面,單擊目標作業名稱,單擊警示配置頁簽。

    2. 選擇添加警示規則 > 自訂規則規則模板

    3. 建立規則建立警示規則模板資訊頁面,單擊通知對象管理

      image.png

  3. DingTalk機器人頁簽,單擊添加DingTalk機器人

    輸入DingTalk機器人的名稱地址,單擊提交

  4. 返回步驟2的建立規則建立警示規則模板資訊頁面,通知方式選擇DingTalk通知對象選擇對應的DingTalk機器人。

    警示規則中的其他參數說明請參見單個作業配置(Realtime Compute控制台)

  5. 單擊確定

如何在Realtime Compute開發控制台建立Webhook

  1. 警示模板或者規則資訊頁面,單擊通知對象管理

  2. Webhook頁簽,單擊建立Webhook

  3. 建立Webhook頁面,輸入Webhook資訊。

    參數

    說明

    名稱

    必填,Webhook名稱。

    URL

    必填,網路服務地址。

    Headers

    可選,要求標頭,用來存放cookie和token資訊。格式為key: value

    說明

    請確保key與value的冒號後存在空格分隔字元。

    Params

    可選,請求參數,格式為key: value

    說明

    請確保key與value的冒號後存在空格分隔字元。

    Body

    必填,請求體,用來存放POST的參數和參數資料。

    您可以在Body字串中使用$content預留位置輸出警示內容。

  4. 單擊確定

相關文檔

  • Realtime ComputeFlink版支援選擇CloudMonitor(免費監控服務)或ARMS可觀測監控Prometheus版監控服務為您提供作業監控警示功能,功能、費用等對比詳情請參見CloudMonitor與ARMS警示服務功能對比

  • ARMS支援警示升級及排班等功能配置,詳情請參見升級策略相關實踐教程

  • CloudMonitor支援通過DingTalk群、飛書群等接收警示通知,配置方法詳情請參見警示通知方式

  • 支援的監控指標詳情請參見監控指標說明

  • 您可以關閉監控警示或廢棄具體指標(使用ARMS監控警示時),以節省費用,後續有需要時可以重新恢複指標採集,具體操作請參見廢棄或恢複監控指標