Realtime ComputeFlink版支援使用CloudMonitor(免費監控服務)或ARMS提供監控警示服務,配置作業指標監控警示、作業事件監控警示以及工作流程警示,便於您及時發現並處理異常。本文為您介紹使用不同監控服務時如何配置監控警示。
使用限制
部署時提交至Session叢集的Flink作業不支援配置監控警示。
批作業暫不支援配置監控警示。
ARMS監控不支援工作流程警示,但仍可以使用CloudMonitor(免費監控服務)進行配置。
配置引導
請根據您工作空間使用的監控服務類型(查看監控服務類型),選擇相應配置方式:
免費監控服務(CloudMonitor)
指標警示配置:根據指標數值變化(如CPU,延遲,資料量等)進行警示,支援單作業或批量作業配置。
事件警示配置(含工作流程):根據事件是否發生(如作業失敗等)進行警示,支援作業和工作流程事件配置。
ARMS監控服務
指標警示配置:根據指標數值變化(支援6個核心指標)進行警示,支援單作業或批量作業配置。
事件警示配置:僅支援作業失敗事件,暫不支援其他事件警示配置,可通過CloudMonitor事件警示配置。
切換監控服務類型
支援切換監控服務類型,可以滿足不同業務情境的需求。
在Realtime Compute控制台,單擊目標工作空間操作列下的更多,可以切換到另一個類型的監控服務。
請仔細閱讀切換服務類型的注意事項,勾選確認後,方可進一步配置使用。
CloudMonitor配置監控警示
指標警示配置
僅購買該工作空間的主帳號,以及該主帳號下具有專案空間許可權的RAM使用者和RAM角色,可以在CloudMonitor上配置警示。
在左側導覽列,選擇。
單擊建立警示規則,配置相關參數。
參數
說明
產品
Realtime ComputeFlink版
資源範圍
選擇執行個體,警示規則作用於Realtime ComputeFlink版指定工作空間。
關聯資源
單擊添加執行個體,選擇目標地區下的工作空間後(如何查看工作空間ID等資訊?),單擊確認。
規則描述
單擊添加規則 > 簡單指標或組合指標,進入設定規則描述面板。

其中,在維度部分,您可以配置namespace(Flink專案空間名稱)和deploymentID(對應Flink作業部署詳情頁簽的部署作業ID),指定需要監控的作業。
說明namespace和deploymentID下拉式清單無資料時,您可以手動填寫。
不填寫則監控所有專案空間下的所有作業。
說明在生產環境中,單一指標警示容易誤判或漏報,而組合指標警示更能反映真實業務的異常,詳情請參見監控警示推薦配置樣本與模板。
其他參數詳情請參見建立警示規則。
事件警示配置(含工作流程)
僅購買該工作空間的主帳號,以及該主帳號下具有專案空間許可權的RAM使用者和RAM角色,可以在CloudMonitor上配置警示或訂閱事件。
作業事件警示
通過配置條件來訂閱作業的系統事件警示,支援事件批量警示配置。
在左側導覽列,選擇。
在訂閱策略頁簽,單擊建立訂閱策略。
在建立訂閱策略頁面,配置相關參數,參數詳情請參見管理事件訂閱(推薦)。

訂閱類型:系統事件。
產品:選擇Realtime ComputeFlink版。
事件名稱:支援作業運行失敗(使用ARMS監控服務時不支援)、ECS宕機事後處理和ECS主動營運影響事件。
事件內容:可以在事件內容中通過填寫如下Flink資訊進行指定作業或批量警示。
工作空間ID:對目標工作空間下所有專案空間的所有作業進行事件警示。工作空間ID查看請參見如何查看工作空間ID等資訊?。
專案空間名稱:對目標專案空間下所有作業進行事件警示。
部署作業名稱:對指定作業進行事件警示,多個作業時使用英文逗號(
,)分隔。需要注意帳號下是否存在重名作業,若存在重名作業請使用DeploymentID。DeploymentID:對指定作業進行事件警示,多個作業時使用英文逗號(
,)分隔。可在Flink作業部署詳情頁簽的部署作業ID查看。
說明應用分組、事件內容和事件資源均不設定時,表示訂閱範圍對本帳號內所有工作空間生效。
工作流程事件警示
通過配置條件來訂閱Flink工作流程的系統事件警示,支援事件批量警示配置,工作流程詳情請參見管理工作流程。
擷取工作流程節點的資源ID。
在左側導覽列,選擇。
在事件監控頁簽,產品選擇Realtime ComputeFlink版、事件名稱選擇工作流程工作狀態變化,單擊搜尋。
在下面篩選出工作流程節點的資源ID。

資源格式為
acs:flink:cn-hangzhou:<阿里雲帳號Id>:resourceId/workspaceId/<workspaceId-namespaceId>#workflowDefinitionName/<workflowDefinitionName>#taskDefinitionName/<taskDefinitionName>,您也可以使用這個格式直接拼接您的工作流程節點的資源ID。參數
說明
<workspace阿里雲帳號Id>開通Flink工作空間的阿里雲帳號ID。
<workspaceId-namespaceId>由"-"字元拼接
workspaceId和namespaceId組成。workspaceId:工作空間ID,詳情請參見空間管理與操作。namespaceId: 專案空間名稱。<workflowDefinitionName>工作流程名稱。
<taskDefinitionName>工作流程節點名稱。
說明CloudMonitor中工作流程的狀態變更事件顯示通常會存在幾分鐘的延遲。
訂閱事件通知。
在左側導覽列,選擇。
在訂閱策略頁簽,單擊建立訂閱策略。
在建立訂閱策略頁面,設定訂閱策略的相關參數,參數詳情請參見管理事件訂閱(推薦)。
訂閱類型:系統事件。
產品:選擇Realtime ComputeFlink版。
事件名稱:選擇工作流程工作狀態變化。
事件內容:支援填寫
toState: FAILED(工作流程狀態失敗)、toState: SUCCESS(工作流程狀態成功)、fromState: SCHEDULED, toState: RUNNING(工作流程狀態從等待調度,到運行中的參數)。事件資源:輸入步驟1中擷取到的工作流程的資源ID,多個時使用英文逗號(
,)分隔。事件類型、事件等級、應用分組:均不設定。
ARMS配置監控警示
指標警示配置
ARMS的多指標監控只能通過自訂PromQL支援,如果需要簡易化配置,可以通過CloudMonitor指標警示配置。
單個作業配置(Realtime Compute控制台)
您可以針對目標作業建立新的警示規則,也可以在建立警示規則模板後,直接使用已有規則模板為目標作業建立警示,加快配置監控警示的效率。
Realtime Compute開發控制台僅支援查看近48小時內警示事件,更長時間的警示事件請在ARMS控制台警示管理中查看。
進入警示配置入口。
登入Realtime Compute控制台,單擊目標工作空間操作列下的控制台。
在頁面,單擊目標作業名稱。
單擊警示配置頁簽。
在警示規則頁簽,選擇。
您也可以選擇,通過添加並使用警示模板,可以直接建立警示規則或基於模板進行簡單修改後建立警示規則,加快配置監控警示的效率。
填寫警示規則資訊。
類別
參數
描述
具體規則
規則名稱
以字母開頭,僅包含小寫英文字母、數字、底線(_),長度限制為3~64個字元。
描述
規則的備忘資訊。
內容
配置觸發警示的條件內容,配置完成後會每間隔指定時間,對指定的指標值與閾值進行計算比較,計算結果滿足則自動警示。
指標:
Restart Count in 1 Minute:1分鐘內Job Manager重啟次數,單位為次。
Checkpoint Count in 5 Minutes:5分鐘內Checkpoint成功次數,單位為個。
Emit Delay:業務延時,即資料發生時間與資料離開Source運算元的時間差值,單位為秒。
重要資料發生時間依賴於外部系統中記錄的時間戳記。如果外部系統裡面沒時間戳記,或者資料寫入外部系統時,亂寫時間戳記,則Emit Delay數值不準確,無法反映真實延時。建議多指標配置警示來判斷真實事件,詳情請參見監控警示推薦配置樣本與模板。
IN RPS:每秒輸入記錄數,單位為條/秒。
OUT RPS:每秒輸出記錄數,單位為條/秒。
Source Idle Time:源端未處理資料的時間,單位為毫秒。
Job Failed:作業失敗
時間差:指系統每次檢查時,向前回溯查詢的歷史資料時間視窗長度。單位(分鐘)。
運算子:支援>=和<=兩種。
閾值:與指標進行比較的值。
如果您選擇的運算子是>= ,則取縱軸中的MAX值。如果時間差內最大值>=閾值,則觸發警示規則。
如果您選擇的運算子是<= ,則取縱軸中的MIN值。如果時間差內最小值<= 閾值,則觸發警示規則。
假設監控的是“5分鐘內CP成功次數”指標,時間差設為10分鐘,閾值設為2,運算子選“<=”。
系統就會每分鐘都去翻最近10分鐘的歷史資料,看看在這10分鐘裡,有沒有某一個“5分鐘時間段”的CP成功次數小於等於2。如果有,就觸發警示。
生效時間
警示監控的生效時間,可以指定只在白天(9點~18點)生效,預設全天生效。
警示頻率
連續多少分鐘內只發一次警示。支援1分鐘~1440分鐘(24小時)。
通知方式
通知方式
支援選擇多個通知方式。支援的通知方式如下:
DingTalk:DingTalk。
Email:郵件。
SMS:簡訊。
Webhook:網路服務地址。
Phone:電話。
需確保接收人電話已完成驗證,否則無法生效。您可以單擊下方的通知對象管理,若連絡人頁簽中目標連絡人電話列存在未驗證標識,需單擊完成驗證。

重要請確保已建立並添加可用的通知對象,否則將導致警示通知方式失敗。例如,選擇DingTalk通知方式時,請選中DingTalk並添加DingTalk機器人類型的DingTalk通知對象。
通知對象
支援同時通知多個通知對象,您可以直接選擇或搜尋提醒對象。在選擇通知對象前,您需要單擊右側的通知對象管理建立通知對象,詳情請參見空間管理與操作。
警示降噪
單擊進階配置後,您可以開啟警示降噪開關。
開啟警示降噪開關後,對於作業可以快速恢複的情境(因叢集調度或觸發自動調優等情境觸發的短期的Failover)則不會向您發送警示,只有連續達到您設定的閾值條件時,才會向您發送警示。
無資料警示
單擊進階配置後,您可以開啟無資料警示開關並填寫連續無資料的時間資訊。
開啟該功能後,將監測無監控埋點資料彙報情境,如果資料在選擇時間段內沒有彙報就會觸發警示。通常JobManager異常、作業異常停止或者彙報鏈路異常會導致無監控埋點資料彙報。
單擊確定。
儲存後的警示規則預設已啟用,且出現在警示規則列表中,您可以選擇停止、編輯或刪除。
單作業/多作業配置(ARMS控制台)
單擊目標工作空間操作列下的,進入應用即時監控服務ARMS控制台。
上方展示了工作空間名稱、工作空間ID,以及對應的Prometheus執行個體名稱。

單擊左側的警示規則,建立警示規則。

檢測類型:支援通過靜態閾值和自訂PromQL進行指標警示(Flink已支援的警示指標除外)。
篩選條件:支援批量警示配置。命名空間填寫專案空間名稱,選擇全部時表示工作空間下全部專案空間;部署作業填寫專案空間下目標作業的部署作業ID(在Flink作業部署詳情頁簽查看),選擇全部時表示專案空間下的全部作業。
更多配置參數詳情請參見建立Prometheus警示規則。您也可以建立Prometheus警示規則模板,詳情請參見建立Prometheus警示規則模板。
事件警示配置
僅支援作業失敗事件,在指標警示配置中選擇Job Failed規則配置,暫不支援其他事件警示配置,可通過CloudMonitor事件警示配置。
常見問題
如何在Realtime Compute開發控制台添加DingTalk機器人警示
如何在Realtime Compute開發控制台建立Webhook
相關文檔
Realtime ComputeFlink版支援選擇CloudMonitor(免費監控服務)或ARMS可觀測監控Prometheus版監控服務為您提供作業監控警示功能,功能、費用等對比詳情請參見CloudMonitor與ARMS警示服務功能對比。
CloudMonitor支援通過DingTalk群、飛書群等接收警示通知,配置方法詳情請參見警示通知方式。
支援的監控指標詳情請參見監控指標說明。
您可以關閉監控警示或廢棄具體指標(使用ARMS監控警示時),以節省費用,後續有需要時可以重新恢複指標採集,具體操作請參見廢棄或恢複監控指標。

