自動營運是DataWorks為保障系統持續穩定運行而提供的進階功能。使用者可以將過往處理資料故障的應急經驗,配置為自動營運規則。當滿足規則引發條件時,系統將自動執行營運操作,提升服務穩定性和營運效率,並降低夜間營運頻率。
背景資訊
DataWorks的自動營運功能支援自動終止運行執行個體和自動重跑。
自動終止運行執行個體
當運行在獨享調度資源群組上的任務觸發了資源群組的自訂監控警示時,使用自動營運規則對資源群組上的部分執行個體執行自動終止啟動並執行操作。例如:當獨享調度資源群組的資源使用率達到80%並且持續10分鐘,則自動終止運行在該資源群組上優先順序為1、3的非周期調度執行個體執行。
自動重跑
當任務狀態為失敗,且任務本身未設定失敗自動重跑的情況下;或者任務因執行逾時導致失敗時,按照自動營運的自動重跑規則重跑任務。
使用限制
許可權限制:僅支援阿里雲主帳號、擁有AliyunDataWorksFullAccess許可權RAM帳號和空間管理員管理自動營運規則。
資源群組限制:
自動終止運行執行個體類型的自動營運規則僅對運行在獨享調度資源群組上的任務生效,且僅獨享調度資源群組利用率類型的監控規則可觸發自動營運操作。
建立自動重跑規則類型的自動營運規則僅對運行在Serverless資源群組上的任務生效。
功能限制:
自動終止運行執行個體類型的自動營運規則,多個營運規則支援關聯同一條監控規則。
建立自動重跑規則執行個體類型的自動營運規則,一個空間僅支援建立一條。
目前僅支援查看30天內的自動營運規則執行記錄。
進入自動營運
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入營運中心。
在左側導覽列,選擇,進入自動營運頁面。
建立規則
在頁面,可以建立終止運行執行個體與自動重跑的自動營運規則。自動營運規則需要定義規則引發條件,DataWorks僅對滿足過濾條件的任務執行自動營運操作。您可設定黑名單排除不需要執行營運操作的任務。同時,自動營運規則具體生效邏輯將受到您定義的約束規則限制。您可根據營運需求,建立並啟用不同的自動營運規則。
建立終止運行執行個體規則
在自動營運中可以對符合自訂規則的執行個體配置終止啟動並執行自動營運操作,支援的執行個體包括周期執行個體、補資料執行個體、測試執行個體、手動任務執行個體以及手動協調流程執行個體,終止運行執行個體規則的主要配置參數如下:
類別 | 參數 | 說明 |
觸發條件 | 關聯監控規則 | 選擇需要關聯的監控規則,在滿足監控規則時,將會自動停止運行執行個體。 說明
|
過濾條件 | 工作空間 | 選擇該營運規則生效的工作空間。 |
執行個體類型 | 選擇該營運規則對哪些類型的執行個體生效。 | |
調度周期 | 選擇該營運規則對哪些調度周期的執行個體生效。當執行個體類型選擇周期執行個體或補資料執行個體時,需要配置調度周期。 | |
優先順序 | 選擇該營運規則對哪些優先順序的執行個體生效,數值越大優先順序越高。 | |
狀態 | 選擇該營運規則對處於哪些狀態的執行個體生效。 | |
黑名單 | 配置即使觸發規則也不需要執行自動營運操作的任務。如需添加,請在搜尋方塊中輸入任務名稱或任務ID查詢選擇。 | |
約束規則 | 生效時段 | 設定規則生效的起始時間和結束時間。在生效時段內,自動營運規則滿足規則運行條件時,才會執行自動營運操作。非生效時段,即便滿足自動營運規則引發條件,也不會執行自動營運操作。 |
最大生效次數 | 設定規則引發的最大次數,即最多執行多少次自動營運規則。 說明 每次執行自動營運規則前,都會檢查是否還滿足觸發條件。如果不滿足,將不會執行自動營運規則。 | |
最小生效間隔 | 設定規則引發的最小時間間隔。 | |
建立自動重跑規則
在自動營運中可以對符合觸發條件的任務配置自動重跑,會自動重跑的執行個體包括周期執行個體、補資料執行個體、測試執行個體、手動任務執行個體和手動協調流程執行個體。
當執行個體為周期執行個體時,自動重跑只會檢查業務日期為昨天的執行個體。
例如:若當前日期為2025年6月5日,只有業務日期為2025年6月4日的周期執行個體在滿足自動重跑觸發條件後,才會自動重跑執行個體。
當執行個體為補資料執行個體、測試執行個體、手動任務執行個體和手動協調流程執行個體時,自動重跑會檢查執行個體建立日期為今天、昨天、前天的執行個體。
例如:若當前日期為2025年6月5日,則6月5日、6月4日、6月3日建立的補資料執行個體、測試執行個體、手動任務執行個體和手動協調流程執行個體滿足自動重跑觸發條件後,將自動重跑執行個體。
自動重跑規則的主要配置參數如下:
類別 | 參數 | 說明 |
觸發條件 | 運行狀態 | 在滿足如下條件且執行個體運行失敗時,將自動重跑指定執行個體。
|
過濾條件 | 工作空間 | 選擇該營運規則生效的工作空間。 |
執行個體類型 | 選擇該營運規則對哪些類型的執行個體生效。 | |
調度周期 | 選擇該營運規則對哪些調度周期的執行個體生效。當執行個體類型選擇周期執行個體或補資料執行個體時,可配置調度周期。 | |
優先順序 | 選擇該營運規則對哪些優先順序的執行個體生效,數值越大優先順序越高。 | |
日誌含關鍵字 | 選擇日誌關鍵字,當任務的日誌中包含了此處選擇的關鍵字時,會觸發自動重跑規則。 當前支援選擇 說明 僅運行在Serverless資源群組上的任務日誌包含 | |
黑名單 | 黑名單 | 配置即使觸發規則也不需要執行自動營運操作的任務。如需添加,請在搜尋方塊中輸入任務名稱或任務ID查詢選擇。 |
重跑操作 | 前置操作 | 如果您的任務是Serverless資源群組計算型任務,可選擇在重跑前增加計算型任務CU。 說明 請合理配置每次重跑增加的CU,避免出現資源搶佔而阻塞其他任務運行。 |
增加CU | 在原任務執行消耗CU的基礎上,添加指定CU運行本次重跑執行個體。增加的CU僅用於本執行個體的本次運行。 | |
重跑次數 | 觸發自動重跑時,最大重跑次數,取值範圍1~10,單位:次。 | |
重跑間隔 | 重跑間隔時間,取值範圍3~30,單位:分鐘。 | |
約束規則 | 生效時段 | 設定規則生效的起始時間和結束時間。在生效時段內,自動營運規則滿足規則運行條件時,才會執行自動營運操作。非生效時段,即便滿足自動營運規則引發條件,也不會執行自動營運操作。 |
啟用/停用規則
建立規則後預設立即生效,如需使規則停止生效,請單擊目標規則所在行右側的
,設定是否啟用。
更多操作
管理規則
如需查看規則資訊,請在規則管理頁面,單擊目標規則所在行右側的查看。
如需修改規則定義,請單擊查看規則對話方塊下方的修改。
如需刪除目標規則,請單擊目標規則所在行右側的刪除,在彈出的對話方塊單擊確認。
在規則管理頁面左上方的搜尋欄,可以通過輸入規則名稱進行模糊比對來快速尋找目標規則。
查看規則執行記錄
在執行記錄頁面,為您展示營運規則的執行情況,包括執行時間、規則責任人及涉及任務數等,如需查看詳細資料,請單擊目標執行記錄右側的查看詳情。
滿足自動營運操作條件時,會以規則責任人身份執行營運操作,您可以在執行個體動作記錄中查看執行個體觸發的自動營運操作。
終止運行執行個體的自動營運,執行記錄包含如下內容:
等資源執行個體數/利用率:以水位曲線形式為您展示等資源執行個體數和利用率情況,您還可以將滑鼠移至上方在水位線顯示地區內的任意位置,即可顯示此刻資源執行個體數和利用率情況。
被終止啟動並執行執行個體:為您展示被終止啟動並執行工作清單。
自動重跑的自動營運,執行記錄包含如下內容:
自動重跑的執行個體:為您展示觸發自動重跑的執行個體個數,以及各執行個體的節點名稱、業務日期、執行個體類型、任務類型、責任人等。
監控資源群組
配置好營運規則後,系統會自動根據營運規則對資源群組使用方式進行監控,資源群組監控詳情請參見資源營運。