DataWorks的資料品質監控節點可通過配置資料品質監控規則,監控相關資料來源表的資料品質(例如,是否存在髒資料)。同時,支援您自訂調度策略,周期性執行監控任務進行資料校正。本文為您介紹如何使用資料品質監控節點進行任務監控。
背景資訊
DataWorks的資料品質功能,協助您感知源端資料的變更與ETL(Extract Transformation Load)中產生的髒資料,自動攔截問題任務,有效阻斷髒資料向下遊蔓延。避免任務產出不符合預期的問題資料,影響正常使用和業務決策。同時也能顯著降低問題處理的時間成本,避免任務重新運行帶來的資源費用浪費,詳情請參見資料品質。
使用限制
支援監控的表類型:MaxCompute、E-MapReduce、Hologres、CDH Hive、AnalyticDB PostgreSQL、AnalyticDB MySQL、StarRocks。
支援監控的表範圍:
僅支援監控當前節點(即資料品質監控節點)所在工作空間繫結資料源中的表。
每個節點僅支援監控一張表資料,但支援配置多個監控規則。不同類型的表,其監控範圍如下:
非分區表:預設為全表監控。
分區表:需通過分區運算式指定監控某個分區。
說明若您需要監控多張表,請建立多個節點使用。
支援執行的操作限制:
在Data Studio建立的資料品質監控規則,僅支援在資料開發運行,並執行修改、發布等管理操作。該規則也可在資料品質模組中查看,但不能觸發調度運行,不允許執行相關管理操作。
若修改資料品質監控節點中配置的監控規則,且發布節點,則該節點原來產生的監控規則會被替換。
前提條件
已綁定計算資源,且該計算資源中已建立待監控表。
執行資料品質監控任務前,您需先建立監控節點所要監控的表,詳情請參見綁定計算資源(參加新版資料開發公測)、節點開發。
已建立資源群組。
僅支援使用Serverless資源群組運行資料品質監控節點。詳情請參見資源群組管理。
(可選,RAM帳號需要)進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發或空間管理員(許可權較大,謹慎添加)角色許可權。新增成員並授權,詳情請參見為工作空間增加空間成員。
一、建立資料品質監控節點
進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的,進入Data Studio。
在左側導覽列單擊
,進入資料開發,在專案目錄右側單擊
,選擇,根據介面指引,輸入節點的路徑、名稱資訊,完成節點建立。
二、配置資料品質監控規則
1、選擇待監控表
在資料品質監控節點編輯頁面,單擊添加表,在添加表對話方塊按需選擇需要監控的目標表(可通過更多篩選條件快速尋找)。
如果此處未展示所需目標表,請前往資料地圖手動重新整理表中繼資料。
2、配置監控資料範圍
非分區表:預設為全表監控,可忽略該步驟。
分區表:需選擇要監控的分區資料,支援使用調度參數。單擊預覽即可驗證分區運算式的計算結果是否正確。
3、配置資料品質監控規則
您可建立規則,也可匯入已有規則使用。配置的規則預設為啟用狀態。
品質監控節點建立規則時支援Copilot規則推薦功能,根據您的表資訊智能產生對應品質規則,您可以按需選擇接受或拒絕。
智能助手(DataWorks Copilot)正在部分地區公測中,如您空間所在地區不支援,可參考下文手動建立規則或匯入已有規則。
建立規則
單擊建立規則,即可基於模板或自訂SQL建立資料品質監控規則,不同方式的介紹及配置詳情如下。
方式一:基於系統模板建立
平台內建多種監控規則,您可基於規則模板快速建立資料品質監控規則,操作步驟如下圖。
說明您也可在左側系統模板列表,找到所需規則模板,單擊+使用進行建立。

方式二:基於自訂模板建立
使用該方式之前,您需先前往建立自訂規則模板,才可基於該模板建立資料品質監控規則,詳情請參見建立並管理自訂規則模板。
基於自訂模板建立資料品質規則的操作步驟如下圖。
說明您也可在左側自訂模板列表,找到所需規則模板,單擊+使用進行建立。

方式三:基於自訂SQL建立
該方式支援您自訂表格的資料品質校正邏輯。

匯入已有規則
若待監控表在資料品質功能模組已建立相關監控規則,您可通過匯入方式快速複製相應規則;若未建立,請先前往資料品質建立,詳情請參見配置規則:按表(單表)。
說明該方式支援大量匯入多個規則,支援對錶欄位層級資料配置監控規則。
單擊匯入規則,您可通過規則ID/名稱、規則模板、關聯範圍(即全表或表的某些欄位)搜尋並選擇需匯入的規則。

資料品質監控節點中建立的品質監控規則,在發布該節點後可進入資料品質模組查看規則詳情,但不允許執行修改、刪除等管理操作。
4、配置運行資源
用於選擇執行品質規則檢測所需的運行資源(即在哪個資料來源中運行品質規則監控任務),預設為待監控表所在的資料來源。
如選擇其他資料來源,需確認資料來源是否擁有該表的存取權限。
三、配置檢測結果處理策略
在節點編輯頁面的品質監控處置地區,您可針對資料品質監控規則校正的異常結果配置處理策略及訂閱者式。
異常結果類別
異常結果類別 | 說明 |
強規則 · 校正失敗 |
|
強規則 · 紅色異常 | |
強規則 · 橙色異常 | |
弱規則 · 校正失敗 | |
弱規則 · 紅色異常 | |
弱規則 · 橙色異常 |
異常結果處理策略
對於規則校正產生的異常結果,您可按需配置處理策略:
不忽略:可配置檢測到某異常類別(例如,強規則出現紅色異常)時,停止運行當前節點,並將節點置為失敗狀態。
說明當前節點運行失敗後,下遊節點將不執行,以此阻塞生產鏈路,避免問題資料汙染擴散。
支援添加多種異常結果類別進行檢測。
通常,當異常產生的影響較大,會阻塞下遊任務執行時,可使用該策略。
忽略:忽略異常,繼續執行下遊節點。
異常結果訂閱者式
您可配置異常結果的接收方式(例如,郵件通知),當產生異常結果時,平台會以相應方式推送異常資訊,以便您及時發現並處理異常。
平台支援多種接收方式,具體請以實際介面為準。其中:
郵件、郵件和簡訊、電話僅支援選擇當前帳號下的使用者作為接收人。請確認相關人員的郵箱或手機號配置正確,詳情請參見查看和設定警示連絡人。
其他方式需輸入接收資訊的Webhook地址。擷取方式,請參見擷取Webhook。
四、配置任務調度
如您需要周期性執行建立的節點任務,可單擊節點編輯頁面右側的調度配置,根據業務需求配置該節點任務的調度資訊。配置詳情請參見節點調度配置。
五、調試任務
您可根據需要執行如下調試操作,查看任務是否符合預期。
(可選)選擇運行資源群組、賦值自訂參數取值。
單擊資料品質監控節點右側的調試配置,配置調試運行需使用的調度資源群組。
若您的任務使用了調度參數,可在指令碼參數地區為變數賦值,用於調試。參數賦值邏輯,詳情請參見任務調試流程。

儲存並運行任務。
單擊頂部工具列的
表徵圖,儲存任務;單擊
表徵圖,運行任務。任務運行完成後,您可在節點編輯介面下方查看運行結果。若運行失敗,可根據相應報錯進行排查處理。
六、發布任務
節點任務配置完成後,需執行發佈動作,發布後節點將根據調度配置內容進行周期性運行。
執行發佈動作後,當前資料品質監控節點及節點內配置的品質規則均會被發布。
單擊頂部工具列中的
表徵圖,儲存節點。單擊頂部工具列中的
表徵圖,發布節點。
發布節點的詳細操作,請參見節點/工作流程發布。