本文將以ods_user_info_d_starrocks表為例,示範如何通過資料品質模組的強/弱規則配置(錶行數非0強校正和業務主鍵唯一性弱校正),在每日調度任務中即時攔截來源資料缺失或主鍵重複異常,從而保障使用者資訊同步作業的下遊計算可靠性。您可以參考以下內容,在資料品質模組中完成對錶資料品質的監控操作。
前提條件
已通過Data Integration將儲存於RDS MySQL的使用者基本資料(ods_user_info_d)同步至EMR Serverless StarRocks執行個體的ods_user_info_d_starrocks表。
已通過Data Integration將儲存於OSS的網站訪問日誌(user_log.txt)同步至EMR Serverless StarRocks執行個體的ods_raw_log_d_starrocks表。
已通過資料開發Data Studio將資料加工為使用者畫像的基本資料。
資料品質監控需求分析
本案例通過DataWorks資料品質功能,及時感知使用者Portrait analysis案例源端資料的變更與ETL(Extract Transform Load)過程中產生的髒資料。基於使用者Portrait analysis加工流程,匯總品質監控規則如下:
表名 | 需求明細 |
ods_raw_log_d_starrocks | 對每日同步的原始日誌資料進行表資料非0校正(強規則),以確保每天都能成功擷取到原始日誌資料,避免因資料缺失而影響後續計算。 |
ods_user_info_d_starrocks | 對每日同步的使用者資訊資料進行錶行數非0校正(強規則)和業務主鍵唯一性校正(弱規則),以確保每天都能成功擷取到使用者資訊資料,並且避免資料重複,從而保障後續計算的準確性。 |
dwd_log_info_di_starrocks | 任務正常執行即可,不單獨進行監控。 |
dws_user_info_all_di_starrocks | 任務正常執行即可,不單獨進行監控。 |
ads_user_info_1d_starrocks | 對每日使用者資料進行錶行數波動監測,可以協助您觀察每日唯一訪客(UV)的波動情況,從而及時瞭解應用的動態。 |
以下步驟將以ods_user_info_d_starrocks表為例,為您介紹如何通過資料品質模組對周期性調度產生的表資料進行資料品質監控。
一、進入規則配置頁面
進入資料品質頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料品質。
進入表規則配置頁面。
在資料品質左側導覽列,單擊,根據如下參數定位目標表。
資料庫類型:StarRocks。
表:
ods_user_info_d_starrocks。
在搜尋結果中找到目標表,單擊操作列的規則管理,進入該表的品質詳情頁面。具體配置參考下文操作。
二、配置品質監控規則
以下將以配置ods_user_info_d_starrocks表的指定分區資料非空規則校正為例,為您介紹如何在資料品質模組中設定資料品質規則。具體包括:如何建立規則、如何定義品質規則的觸發方式,以及定義異常規則影響策略。
選擇監控範圍。
在品質監控頁簽,單擊建立品質監控。
配置資料範圍為
dt=$[yyyymmdd-1]。說明若要監控周期性調度產出的表資料,需確保設定的資料範圍參數與表當天產出的分區一致。
建立品質規則。
以下將以配置
ods_user_info_d_starrocks表的行數非空校正為例,為您介紹如何在資料品質模組中設定表的資料品質規則。更多關於品質規則的配置操作,請參見:配置規則:按表(單表)。在建立品質監控頁面,單擊建立規則,進入建立規則頁面。
在建立規則頁面的系統模板中,找到錶行數大於0規則,單擊使用,修改重要程度為強規則。
說明本案例的規則定義為強,即當監控到
ods_user_info_d_starrocks錶行數為0時,會觸發警示,並且阻塞下遊任務執行。在建立規則頁面的系統模板中,找到唯一值個數,固定值規則,單擊使用,修改規則範圍、監控閾值和重要程度如下。
規則範圍:
uid(STRING)監控閾值:
正常閾值 = 0重要程度:
弱規則
單擊確定,儲存配置的監控規則。
指定運行方式。
選擇生產調度觸發,節點選擇同步資料中建立的
ods_user_info_d_starrocks節點。定義品質問題處理策略。
您可在此選擇定義問題處置過程中阻塞和警示策略。
配置完成後,單擊儲存品質監控資訊。
三、測試回合品質監控
配置完成後,您可通過測試回合驗證品質監控中的校正規則配置是否合理。為了確保品質規則的配置無誤且符合預期,您可以在建立規則後進行測試回合,以檢查品質監控的效果。
在規則管理頁簽,選中品質監控視角下已建立的品質監控,然後在右側單擊測試回合,進入測試回合對話方塊。
在測試回合對話方塊選擇調度時間後,單擊測試回合。
啟動成功後,您可單擊測試回合下方的查看詳情,查看品質監控規則是否校正通過。
四、訂閱品質監控警示
配置完品質監控規則後,您可通過以下操作,配置警示訂閱的訂閱者式和接收對象,確保警示能被正常接收。
在規則管理頁簽,選中品質監控視角下已建立的品質監控規則。
在右側單擊警示訂閱。
根據介面提示添加訂閱者式和接收對象,單擊操作列的儲存。
完成訂閱管理設定後,在左側導覽列中,單擊,選中我的訂閱,即可查看和修改已訂閱的任務。
後續操作
資料加工完成後,您可以通過資料分析模組對資料進行資料視覺效果展現。