DataWorks 資料品質(DQC)是一個強大的資料監控和保障平台。它能協助您在資料生產鏈路中主動發現並攔截不符合預期的“髒資料”,避免問題資料向下遊擴散,從而保障業務決策的準確性,並顯著降低問題排查與資源重跑的成本。
核心概念與工作流程
在使用資料品質功能前,理解其核心概念和工作流程至關重要。資料品質的整個體系圍繞以下幾個核心實體構建:
規則模板:定義如何檢查資料。DataWorks 提供豐富的內建模板(如錶行數、欄位唯一值個數),您也可以建立自訂模板來滿足特定業務需求。
監控規則:是規則模板的具體應用。您可以為某張表的某個欄位,應用一個模板並配置具體的閾值(例如:
daily_sales表的order_count欄位不可為空)。品質監控:是一個執行計畫,它將一個或多個監控規則與一個調度任務關聯起來。當該調度任務運行成功後,會自動觸發其關聯的所有品質規則進行校正。
強/弱規則與阻塞:支援將規則設定為強規則或弱規則,可按需設定強弱規則校正失敗時,阻塞下遊任務或僅警示。
典型工作流程如下:
功能介紹
DataWorks 資料品質支援對常見巨量資料儲存(MaxCompute、E-MapReduce、Hologres、AnalyticDB 等)進行品質校正,從完整性、準確性、一致性等多個維度配置監控規則,並與調度任務關聯,實現自動化校正與問題警示、阻塞。
資料品質的主要功能模組及其在控制台的對應頁面如下:
模組名稱 | 模組描述 | |
資料品質大盤為您展示當前工作空間下,需要重點關注的資料品質總覽指標、執行個體運行後觸發的品質規則校正狀態的趨勢及分布情況、TOP品質問題表及品質問題責任人、品質規則覆蓋保障情況等,協助品質負責人快速瞭解工作空間資料品質整體情況,及時處理品質問題提升資料品質。 | ||
品質資產 | 展示已配置的所有品質規則的列表。 | |
資料品質支援自建規則模板庫,對通用的自訂監控規則進行統一管理,形成自建的規則模板庫,協助您提升規則配置的效率。 | ||
規則配置 | 配置監控規則的主要方式之一,可以針對單張表進行精細化配置。 | |
基於已有的規則模板,對合格多張表進行批量規則配置。 | ||
品質營運 | 品質監控列表頁可以查看本工作空間下建立的所有品質監控任務。 | |
展示品質監控任務運行時的規則校正結果。品質監控任務運行後,您可以在運行記錄頁面查看詳情。 | ||
品質分析 | 資料品質支援使用者建立報告模板,自由添加規則配置和規則啟動並執行各項指標。根據設定的統計周期、發送時間和訂閱資訊,定時產生並發送報告。 | |
計費說明
資料品質規則運行產生的費用由兩部分組成:
DataWorks 相關收費:根據資料品質規則執行個體的運行次數進行隨用隨付。詳情請參見:資料品質執行個體計費。
計算引擎費用:資料品質規則校正會產生 SQL 並下發到底層計算引擎執行,此過程會產生相應的引擎計算費用(例如 MaxCompute 計算費用)。此費用由對應引擎方收取,不在 DataWorks 賬單中體現。
注意事項
資料來源支援:僅支援MaxCompute、Hologres、E-MapReduce、DLF、CDH Hive、AnalyticDB PostgreSQL、AnalyticDB MySQL、StarRocks、MySQL、Lindorm、SQL Server。不同資料來源類型支援的地區存在差異,請以引擎本身支援的地區為準。
中繼資料採集:對 E-MapReduce、Hologres、AnalyticDB、CDH 等非 MaxCompute 資料來源配置規則前,需要先完成中繼資料採集。詳情請參見中繼資料採集。
網路連通性:當校正非 MaxCompute 資料來源時,關聯的調度節點需要使用已配置好網路連通方案的資源群組來執行。
配置與使用流程
1. 配置規則
建立規則:資料品質支援您按表建立資料品質規則,同時,也支援您通過內建或自訂的規則模板來快速為一批表大量建立資料品質規則。詳情請參見:配置規則:按表(單表)、配置規則:按模板(批量)。
訂閱警示:規則建立完成後,您可以通過訂閱的方式配置警示,支援郵件、簡訊、DingTalk群機器人、企業微信、飛書、電話和自訂Webhook等多種渠道。
僅 DataWorks 企業版及以上版本支援使用自訂 Webhook 方式。
2. 觸發規則校正
在品質監控中將規則與一個調度節點關聯。當該調度節點在營運中心中運行成功後,將會自動觸發關聯的資料品質規則進行校正。DataWorks 將根據規則的強弱和校正結果,決定是否將任務執行個體置為失敗並阻塞下遊,以防止髒資料擴散。
3. 查看校正結果
您可以在運行記錄頁面,通過表或節點名稱搜尋並查看每一次品質監控的詳細校正結果和日誌。詳情請參見:查看品質監控執行詳情。