全部產品
Search
文件中心

Dataphin:品質規則參數配置

更新時間:Nov 19, 2025

本文為您介紹品質規則的參數配置資訊。

資料表參數配置

資料表規則配置

模板類型

描述

完整性/唯一性

完整性-欄位空值校正/欄位Null 字元串校正

唯一性-欄位唯一性校正/欄位分組個數校正/欄位重複值個數校正

  • 校正欄位:選擇物理表中的需要校正的欄位。

  • 校正表資料過濾:預設關閉,開啟後可配置校正表的過濾條件或分區過濾或普通資料過濾,過濾條件將會直接追加至校正SQL中;如校正表有分區過濾需求,建議在調度配置中配置分區運算式,配置後會以校正分區為最小查看粒度查看品質報告。填寫資料過濾內容,例如:

    id = 12 --單表

    T1.id=12 and T2.name = "張三" --雙表

及時性

  • 時間函數比較

    • 校正欄位、校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 比較項:比較時間的運算式,內建${column}、${bizdate}參數。

      • 基於比較欄位定義運算式,${column}為比較項內建參數,例如:${column}、substr(${column})

      • 日期函數比較選擇${bizdate},則會被識別為業務日期。

    • 時間差:支援選擇校正欄位-(減)比較欄位比較欄位-(減)校正欄位,取單位項小數點前的值,不做四捨五入。例如:發貨日期和下單日期需要在同一天,則校正項- 比較專案可設定為小於1天。如圖所示設定,校正欄位-比較欄位>=1天 and 校正欄位-比較欄位<1天。

      image.png

  • 單表欄位比較

    • 校正欄位、校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 比較欄位:選擇物理表中需要比較的欄位。

    • 時間差:支援選擇校正欄位-(減)比較欄位比較欄位-(減)校正欄位,取單位小數點前的值,不做四捨五入。例如:發貨日期和下單日期需要在同一天,則校正項-比較專案可設定為小於1天。如圖所示設定,校正欄位-比較欄位>=1天 and 校正欄位-比較欄位<1天。

      image.png

  • 兩表時間欄位比較

    • 校正欄位、校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 選擇比較表:選擇物理表中的需要比較的表及該物理表的需要比較的欄位。

    • 關聯運算式:內建資料表參數T1、T2,T1為檢測表,T2為比較表,例如:T1.id = T2.id。

    • 時間差:支援選擇校正欄位-(減)比較欄位比較欄位-(減)校正欄位,取單位項小數點前的值,不做四捨五入。例如:發貨日期和下單日期需要在同一天,則校正項- 比較專案可設定為小於1天。如圖所示設定,校正欄位-比較欄位>=1天 and 校正欄位-比較欄位<1天。

      image.png

有效性

  • 欄位格式校正

    • 校正欄位校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 內容識別形式:可選擇識別運算式Regex字串匹配(%)開頭是中間是結尾是,運算式用於匹配符合規則的資料。

    • 內容識別形式-識別運算式:輸入SQL運算式函數。例如${column1}>0,其中${column}為內建參數。

    • 內容識別形式-Regex:可以輸入Regex,同時可以選擇內建Regex,包括手機號固定電話社會安全號碼郵箱銀行卡號等。

    • 內容識別形式-字串匹配(%):標準的like運算式,使用%代表萬用字元,如匹配a開頭的資料,輸入a%即可。

    • 內容識別形式-開頭是:輸入待匹配字串,會自動按照模式在尾部拼接%,例如:a%。

    • 內容識別形式-中間是:輸入待匹配字串,會自動按照模式在尾部拼接%,例如:%a%。

    • 內容識別形式-結尾是:輸入待匹配字串,會自動按照模式在尾部拼接%,例如:%a。

  • 欄位長度校正

    • 校正欄位校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 欄位長度:用於欄位長度有效性驗證,支援枚舉區間設定。選擇枚舉值的校正樣本:對比3、6、9,產生的校正SQL為x in (3, 6, 9)

  • 欄位範圍校正

    • 校正欄位校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 範圍類型:根據實際業務選擇。

      • 文本:用於對文本有效性進行驗證,需要確保校正欄位為文本類型。需設定範圍範圍,支援枚舉區間設定。選擇枚舉值的校正樣本:對比張三和李四,產生的校正SQL為 x in ("張三", "李四")

      • 數字:用於對數值有效性進行驗證,需要確保校正欄位為數實值型別。需設定範圍範圍,支援枚舉區間設定。選擇枚舉值的校正樣本:對比3、6、9,產生的校正SQL為x in (3, 6, 9)

      • 日期:用於對日期有效性進行驗證,需要確保校正欄位為日期類型(date)。需設定日期格式,支援年月年月日年月日-時分秒設定。例如:年:2021~2022,年月:2022-01~2022-02。

      • 時間戳記:用於對時間戳記有效性進行驗證,需要確保校正欄位為時間戳記類型(timestamp)。

      • 自訂:用於對多種格式進行校正,同時支援使用函數,填寫的內容會直接下發到資料來源執行。

        需設定範圍範圍,支援枚舉區間設定。

        選擇枚舉值的校正樣本:對比3、6、9,產生的校正SQL為x in (3, 6, 9)

        選擇區間設定的校正樣本:範圍範圍為最小值y1~最大值y2;假設被對比欄位是x,則最後校正SQL為 x >= y1 and x <= y2

        說明
        • 自訂時的欄位格式,例如10和"10"在不同資料來源執行可能不同。

        • 需要保證所使用函數在校正品質的資料來源有效。

  • 碼錶參照對比

    • 校正欄位校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 資料來源類型:選擇資料來源類型。

    • 資料來源:選擇對應資料來源類型的資料來源,系統預設填充資料來源的DB/Schema,支援修改;若資料來源和Dataphin叢集無法串連,需手動設定。

      說明
      • 為了效能考慮,跨資料來源最多隻會讀取1000條碼錶資料進行對比,建議碼錶和被檢驗表在同一資料來源。

      • 跨資料來源對比欄位會被自動轉換為string類型, 部分特殊欄位類型可能會出現異常情況。建議碼錶中的欄位類型和校正欄位類型都是string或其他相同類型。

    • 碼錶:選擇目標碼錶。

    • 碼錶名稱:輸入碼錶名稱,作為品質規則配置時的提示資訊。

    • 碼錶參照欄位:選擇碼錶中對應的參照欄位。

      說明

      碼錶參照表是判斷某個欄位是否在碼錶中,需要選擇一個對比的欄位。例如判斷使用者詳情表裡的使用者ID是否都是註冊使用者。

    • 碼錶過濾條件:設定分區表的過濾條件,對資料進行過濾。

  • 資料標準碼錶參照對比(需開通資料標準模組):

    • 校正欄位校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 碼錶:選擇在資料標準下發行狀態的碼錶,如需建立碼錶,請參見建立和管理標準代碼(碼錶)

    • 碼錶參照:根據此處選擇的參照值和欄位值進行比較,可選代碼值代碼名稱代碼英文名

一致性

  • 單表欄位值一致性比較

    • 校正欄位校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 比較欄位:選擇物理表中的需要比較的欄位。

  • 單表欄位統計值一致性比較

    • 統計方式:可統計欄位計數、欄位最大值、字元重複率等,詳情請參見指標穩定性的統計方式描述。

    • 校正欄位校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 比較欄位:選擇物理表中需要比較的欄位。

  • 單欄位商務邏輯一致性比較

    • 校正欄位校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 識別運算式:輸入SQL運算式函數。例如${column1}>0,其中${column}為內建參數。

      說明
      • 識別運算式支援使用函數,但需要注意執行時的資料庫需要支援該函數。

      • 支援多個欄位之間的商務邏輯的校正。如總銷售額=單價*銷售數量,校正總銷售額是否出錯可以用${total_sales}=${unit_price}*${sales_volume}

  • 兩表欄位值一致性比較

    • 校正欄位選擇比較表關聯運算式資料過濾:詳情請參見及時性兩表時間欄位

    • 關聯方式:會影響資料結果的總行數、正常行數、異常行數的計算,可以通過預覽SQL查看具體邏輯。支援left join、right join、inner join、full join四種關聯方式。

      • left join:以校正表為準,計算總行數、正常行數等指標。

      • right join:以對比表為準,計算總行數、正常行數等指標。

      • inner join:以校正表和對比表匹配上的資料為準,計算總行數、正常行數等指標,適用於只針對匹配資料校正的情況。

      • full join:以校正表和對比表的所有資料為準,計算總行數、正常行數等指標,適用於兩表強一致性保障的情境。

  • 兩表欄位統計值一致性比較

    • 統計方式:可統計欄位計數、欄位最大值、字元重複率等,詳情請參見指標穩定性的統計方式描述。

    • 校正欄位選擇比較表校正表資料過濾:詳情請參見及時性兩表時間欄位

    • 對比表資料過濾:填寫資料過濾內容,例如:city='beijing'

  • 跨源兩表欄位統計值一致性比較

    • 統計方式:可統計欄位計數、欄位最大值、字元重複率等,詳情請參見指標穩定性的統計方式描述。

    • 校正欄位:選擇資料表中的需要校正的欄位。

    • 資料來源類型:選擇該資料表的資料來源類型,支援的資料來源類型請參見Dataphin支援的資料來源

    • 資料來源:選擇該資料表所屬資料來源,系統預設填充資料來源的DB/Schema,支援修改;若為外部資料源,需手動設定。

    • 選擇比較表:選擇資料表中需要比較的表及所該表需要比較的欄位。

    • 校正表資料過濾:填寫資料過濾內容,例如:

      id = 12 --單表

      T1.id=12 and T2.name = "張三" --雙表

    • 對比表資料過濾:填寫資料過濾內容,例如:city='beijing'

  • 兩表欄位商務邏輯一致性比較

    • 校正欄位校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 商務邏輯:輸入SQL運算式函數。例如${column1}>0,其中${column}為內建參數。

      說明

      支援多個欄位之間的商務邏輯的校正。如總銷售額=單價*銷售數量,校正總銷售額是否出錯可以用${T1.total_sales}=${T2.unit_price}*${T2.sales_volume}

穩定性

  • 表穩定性校正/表波動性校正

    • 統計方式:可統計欄位計數、欄位最大值、字元重複率等,詳情請參見指標穩定性的統計方式描述。

    • 校正表資料過濾:詳情請參見完整性/唯一性的描述。

  • 欄位穩定性校正/欄位波動性校正

    • 校正欄位校正表資料過濾:詳情請參見完整性/唯一性的描述。

    • 統計方式:可統計欄位計數、欄位最大值、字元重複率等,詳情請參見指標穩定性的統計方式描述。

自訂SQL

  • 自訂統計指標校正

    自訂SQL:支援select查詢語句,查詢對象必須包含主表。例如:

    select sum(sale) from tableA where ds=${bizdate};

  • 自訂資料詳情校正

    • 總行數SQL:填寫總條數的統計SQL。例如:select count(*) from tableA where ds=${bizdate};

    • 異常行數SQL:填寫異常行數的統計SQL。例如:select count(*) from tableA where ds=${bizdate} and age<0;

    • 異常資料SQL:填寫異常資料的統計SQL。例如:select ${t1.c1} as dataphin_quality_error_data from ${t1}  where ds=${bizdate} and ${t1.c1}<0;

說明

當規則模板選擇自訂SQL的自訂規則模板時,規則配置地區將自動解析該規則模板的變數欄位作為屬性值,您可以根據所屬規則模板的模板變數說明進行配置。

資料表校正配置說明

模板類型

配置項

描述

完整性

異常行數/正常行數/異常率/正常率

  • 正常行數:唯一值行數。

  • 正常率:唯一值行數/總行數。

  • 異常行數:總行數-正常行數,即count大於2的sum

  • 異常率:1-正常率或異常行數/總行數。

    說明

    唯一值定義:僅出現一次的記錄。即分組後count=1的組。

唯一性

異常行數/正常行數/異常率/正常率

  • 正常行數:唯一值行數。

  • 正常率:唯一值行數/總行數。

  • 異常行數:總行數-正常行數,即count大於2的sum

  • 異常率:1-正常率或異常行數/總行數。

    說明

    唯一值定義:僅出現一次的記錄。即分組後count=1的組。

統計值

指去重值定義,count distinct後的資料。

統計值(重複行數/重複率)

  • 重複行數用於檢查資料中重複了的行數的多少,僅計算多出來的行數,演算法為總行數-去重行數。

  • 重複率=重複行數/總行數。

  • 如果需要重複資料的全部行數/重複率計算,可以使用唯一值校正模板的異常行數/異常率指標。

及時性、有效性

異常行數/正常行數/異常率/正常率

  • 正常行數:唯一值行數。

  • 正常率:唯一值行數/總行數。

  • 異常行數:總行數-正常行數,即count大於2的sum

  • 異常率:1-正常率或異常行數/總行數。

    說明

    唯一值定義:僅出現一次的記錄。即分組後count=1的組。

一致性

統計差值、統計差異率(%)

統計差值:校正欄位-對比欄位。

統計差異率:校正欄位/對比欄位。

穩定性

統計值(1天波動率、7天波動率、30天波動率)

與1天、7天、30天前採集的錶行數進行比較,對比波動率,再與設定的閾值進行比較,只要有一個不符合規則,則觸發警示。

自訂SQL

異常行數/正常行數/異常率/正常率

  • 正常行數:唯一值行數。

  • 正常率:唯一值行數/總行數。

  • 異常行數:總行數-正常行數,即count大於2的sum

  • 異常率:1-正常率或異常行數/總行數。

    說明

    唯一值定義:僅出現一次的記錄。即分組後count=1的組。

統計值(1天波動率、7天波動率、30天波動率)

與1天、7天、30天前採集的錶行數進行比較,對比波動率,再與設定的閾值進行比較,只要有一個不符合規則,則觸發警示。

指標參數配置

指標規則配置

模板類型

描述

唯一性

欄位分組個數校正/欄位重複值個數校正:需配置資料過濾。

資料過濾:預設關閉,開啟後可配置校正表的過濾條件或分區過濾或普通資料過濾,過濾條件將會直接追加至校正SQL中;如校正表有分區過濾需求,建議在調度配置中配置分區運算式,配置後會以校正分區為最小查看粒度查看品質報告。填寫資料過濾內容,例如:

id = 12 --單表

T1.id=12 and T2.name = "張三" --雙表

穩定性

欄位穩定性校正/欄位波動性校正

  • 資料過濾:與指標規則配置的唯一性描述一致。

  • 統計方式:選擇指標的統計方式。

    • 欄位計數:欄位COUNT數與設定的期望數字進行比較,即固定值校檢。

    • 欄位唯一值計數:去重後的欄位COUNT數與設定的期望數字進行比較,即固定值校檢。

    • 欄位匯總值:欄位匯總值, 取該欄位的SUM值,與固定值進行比較。

    • 欄位平均值:取該欄位的平均值與設定的固定值進行比較。

    • 欄位最大值:欄位最大值,取該欄位的最大值,與閾值進行比較。

    • 欄位最小值:欄位最小值,取該欄位的最小值,與閾值進行比較。

    • 欄位重複行數:重複值個數與固定值進行比較(總行數減去去重後的個數,即欄位重複值的個數)。

    • 欄位重複率%:即欄位重複個數/總行數,重複值個數與總行數的比率與一個固定值進行比較。

    • 欄位分組個數:取該欄位的分組後的個數與設定的固定值進行比較。

    • 欄位空值行數:取該欄位的空值數與設定的固定值進行比較。

    • 欄位空值率:即欄位空值個數/行數,空值的個數與行總數的比率與一個固定值進行比較。

指標校正配置

模板類型

配置項

描述

唯一性

欄位分組個數

取該欄位的分組後的個數與設定的固定值進行比較。

統計值(重複行數/重複率)

  • 重複行數用於檢查資料中重複了的行數的多少,僅計算多出來的行數,演算法為總行數-去重行數。

  • 重複率=重複行數/總行數。

  • 如果需要重複資料的全部行數/重複率計算,可以使用唯一值校正模板的異常行數/異常率指標。

穩定性

統計值

指去重後的值,count distinct後的資料。

統計值(1天波動率、7天波動率、30天波動率)

與1天、7天、30天前採集的錶行數進行比較,對比波動率,再與設定的閾值進行比較,只要有一個不符合規則,則觸發警示。

均值波動檢測(7天波動、30天波動)

基準值是最近7天、30天的錶行數的平均值,對比最近7天、30天平均值的波動率。

統計值(相比當月1號天波動率、相比上月波動率、相比上年波動率)

與本月1號、上月、上年採集的錶行數進行比較,對比波動率,再與設定的閾值進行比較,只要有一個不符合規則,則觸發警示。

即時元表參數配置

離線鏈路對比參數配置

即時資料與離線資料在使用相同統計路邏輯時,即時離線資料核對品質規則可以檢測資料之間的差異。如果差異較大,可能存在資料品質的問題。

參數

描述

校正欄位

選擇需要校正的欄位。

指標運算元

選擇資料的演算法。

對象形式

選擇單值資料多值資料

時間限定條件

選擇時間限定的欄位。

開啟條件限定

選擇開啟關閉條件限定。

離線資料

下拉選擇離線資料表。

離線取數

預設關閉,開啟後通過SQL語句配置離線資料表的取數。

時區設定

下拉選擇時區。

多鏈路對比參數配置

在業務有強保障情境中,可以通過即時雙鏈路或即時三鏈路品質規則監測資料。如果有異常,營運人員能夠及時切換或備份資料。即時多鏈路對比品質規則支援監控資料滯留、統計偏差等問題。

參數

描述

校正欄位

選擇需要校正的欄位。

指標運算元

選擇資料的演算法。

對象形式

選擇單值資料多值資料

時間限定條件

選擇時間限定的欄位。

開啟條件限定

選擇開啟關閉條件限定。

對比鏈路數

選擇品質規則的對比鏈路數。系統支援選擇即時三鏈路對比即時雙鏈路對比

對比鏈路1/對比鏈路2

選擇即時元表作為對比鏈路資料:

  • 如果模板選擇了即時雙鏈路對比,則只需要選擇一個即時元表。

  • 如果模板選擇了即時三鏈路對比,則需要選擇兩個即時元表。

時區設定

下拉選擇時區。