Dataphin は、データテーブルを検証し、データテーブルの品質監視を強化するための品質ルールの作成をサポートしています。このトピックでは、グローバルデータテーブルの品質ルールを設定する方法について説明します。
前提条件
監視対象オブジェクトを追加した後にのみ、品質ルールを設定できます。詳細については、「監視対象オブジェクトを追加する」をご参照ください。
権限の説明
スーパー管理者、品質管理者、および [品質ルール]-[管理] 権限を持つカスタムグローバルロールは、品質ルールのスケジュール、アラート、例外アーカイブテーブル、スコアリングウェイト、および追加設定を構成する権限があります。
品質所有者は、担当する監視対象オブジェクトの品質ルールのスケジューリング、アラート、例外アーカイブテーブル、スコアリングウェイトなどを構成できます。
品質所有者と一般ユーザーは、グローバルデータテーブルが配置されているデータソースに対する追加のリードスルー権限が必要です。申請するには、「データソース権限を申請する」をご参照ください。
サポートされている操作権限は、オブジェクトによって異なります。詳細については、「品質ルールの操作権限」をご参照ください。
検証ルールの説明
データテーブルが品質ルール検証に参加する場合、品質の弱監視ルールがトリガーされると、システムからアラートメッセージが送信され、例外を迅速に特定して処理できます。品質の強監視ルールがトリガーされると、システムはテーブルが配置されているタスクを自動的に中断し、ダーティデータがダウンストリームに流れるのを防ぎます。また、システムからアラートメッセージが送信され、例外を迅速に特定して処理できます。
試行実行と実行の違い
試行実行と実行の違いは、実行方法と表示される結果にあります。試行実行とは、品質ルールを1回シミュレーション実行して、ルールの正しさと動作を確認することです。試行実行の結果は、品質レポートには表示されません。実行とは、特定の時間内に品質ルールを確認することであり、結果は品質レポートに出力され、ユーザーが表示および分析できます。
品質ルールの構成
Dataphin ホームページで、トップメニューバーから [管理] > [データ品質] を選択します。
左側のナビゲーションウィンドウで [品質ルール] をクリックします。[グローバルデータテーブル] ページで、ターゲットオブジェクトの名前をクリックして [品質ルールの詳細] ページに入り、品質ルールを設定します。
[品質ルールの詳細] ページで、[品質ルールの作成] をクリックします。
[品質ルールの作成] ダイアログボックスで、パラメーターを設定します。
パラメーター
説明
基本情報
ルール名
品質ルールにカスタム名を設定します。256 文字以内です。
ルールの強度
[弱ルール] と [強ルール] をサポートしています。
[弱ルール]: [弱ルール] を選択すると、品質ルール検証結果が異常な場合にアラートがトリガーされますが、ダウンストリームタスクノードはブロックされません。
[強ルール]: [強ルール] を選択すると、品質ルール検証結果が異常な場合にアラートがトリガーされます。ダウンストリームタスク (コードチェックスケジューリング、タスクトリガースケジューリング) がある場合は、データの汚染を防ぐためにダウンストリームタスクをブロックします。ダウンストリームタスクがない場合 (定期的な品質スケジューリングなど) は、アラートのみがトリガーされます。
説明
品質ルールのカスタム説明。128 文字以内です。
構成方法
[テンプレート作成]: 一般的なシステムテンプレートとカスタムビジネステンプレートを使用して、品質ルールをすばやく作成します。
[システムテンプレート]: テンプレートに組み込まれているパラメーターを設定できます。一般的なルール作成に適しています。
[カスタムテンプレート]: テンプレートに事前設定されたパラメーターがあり、構成は不要です。一般的にビジネスロジックを持つルールに使用されます。
[SQL]: SQL を使用して品質監視ルールを柔軟にカスタマイズできます。柔軟で複雑なシナリオに適しています。
ルールテンプレート
ルールテンプレートを選択するためのドロップダウン。整合性、一意性、適時性、有効性、一貫性、安定性、カスタム SQL が含まれます。
整合性: フィールドの NULL チェックとフィールドの空文字列チェックが含まれます。
一意性: フィールドの一意性チェック、フィールドグループカウントチェック、フィールド重複カウントチェックが含まれます。
適時性: 時間関数比較、単一テーブル時間フィールド比較、2 つのテーブル時間フィールド比較が含まれます。
有効性: フィールド形式チェック、フィールド長チェック、フィールド範囲チェック、ルックアップテーブル参照比較、データ標準ルックアップテーブル参照比較 (データ標準モジュールの有効化が必要) が含まれます。
一貫性: 単一テーブルフィールド値一貫性比較、単一テーブルフィールド統計値一貫性比較、単一フィールドビジネスロジック一貫性比較、2 つのテーブルフィールド値一貫性比較、2 つのテーブルフィールド統計値一貫性比較、2 つのテーブルフィールドビジネスロジック一貫性比較、クロスソース 2 つのテーブルフィールド統計値一貫性比較が含まれます。
安定性: テーブル安定性チェック、テーブルボラティリティチェック、フィールド安定性チェック、フィールドボラティリティチェックが含まれます。
カスタム SQL: カスタム統計指標チェックとカスタムデータ詳細チェックが含まれます。
詳細については、「テンプレートタイプの説明」をご参照ください。
ルールタイプ
ルールタイプはテンプレートに関連しており、テンプレートの最も基本的な属性です。説明とフィルタリング機能に使用できます。
監視の粒度
構成タイプがカスタム SQL の場合、監視の粒度を設定できます。テーブル全体または特定の監視フィールドを選択できます。
テンプレート構成
テンプレート情報
品質ルールテンプレートを選択すると、テンプレートの構成情報が表示されます。構成情報を変更する必要がある場合は、品質ルールテンプレート で変更できます。
ルール構成
ルール構成
ルール構成は、選択したルールテンプレートによって異なります。詳細については、「データテーブルパラメーター構成」をご参照ください。
検証テーブルのデータフィルタリング: デフォルトでは無効になっています。有効にすると、検証テーブルのフィルター条件、パーティションフィルタリング、または通常のデータフィルタリングを設定できます。フィルター条件は検証 SQL に直接追加されます。検証テーブルでパーティションフィルタリングが必要な場合は、スケジューリング構成でパーティション式を設定することをお勧めします。構成後、検証パーティションは品質レポートの最小表示粒度になります。
ルールテンプレートが一貫性/2 つのテーブルフィールド統計値一貫性比較または一貫性/クロスソース 2 つのテーブルフィールド統計値一貫性比較として選択されている場合、比較テーブルのデータフィルタリングを有効にするかどうかを選択できます。有効にすると、比較テーブルのフィルター条件、パーティションフィルタリング、または通常のデータフィルタリングを設定できます。フィルター条件は検証 SQL に直接追加されます。
検証構成
ルール検証
データ品質ルールの検証後、結果は例外検証の構成と比較されます。条件が満たされると、検証結果は失敗になります。また、アラートやその他の後続プロセスもトリガーされます。
例外検証に使用できる指標は、テンプレートと構成の内容によって決まります。and/or 条件を持つ複数の条件をサポートしています。実際の構成では 3 つ未満にすることをお勧めします。
詳細については、「検証構成の説明」をご参照ください。
アーカイブ構成
例外アーカイブ
デフォルトでは無効になっています。有効にすると、異常データをファイルまたはテーブルにアーカイブできます。品質検証後、アーカイブされた異常データをダウンロードまたは分析できます。
アーカイブモードは、[例外フィールドのみをアーカイブ] と [レコード全体をアーカイブ] をサポートしています。
[例外フィールドのみをアーカイブ]: 現在の監視フィールドのみを重複排除してアーカイブします。単一フィールドで例外データを完全に特定できる場合に適しています。
[レコード全体をアーカイブ]: 例外データが配置されているレコード全体をアーカイブします。例外データを特定するために完全なレコードが必要な場合に適しています。注: レコード全体をアーカイブすると、アーカイブされるデータ量が大幅に増加します。通常の状況では、例外フィールドのみをアーカイブすることをお勧めします。
アーカイブの場所は、[デフォルトのファイルサーバー] と [例外データのアーカイブテーブル] をサポートしています。例外アーカイブテーブルがまだ作成されていない場合は、[例外アーカイブテーブルの管理] をクリックして作成できます。詳細については、「例外アーカイブテーブルを追加する」をご参照ください。
[デフォルトのファイルサーバー]: Dataphin のデプロイ時に構成されたシステムファイルサーバーを指します。検証レコード-検証の詳細ページで例外データを直接ダウンロードするか、デフォルトのファイルサーバーに直接アクセスして例外データを取得できます。 デフォルトのファイルサーバーを使用する場合、検証実行ごとに最大 100 件の例外データをアーカイブできます。小規模データボリューム検証のシナリオに適しています。
[例外データのアーカイブテーブル]: より多くの例外データを保存する場合、または後続の比較と分析のために異なる検証レコードの例外データをまとめて配置する場合は、アーカイブテーブルを自分で指定することをお勧めします。各品質ルールは、実行ごとに最大 10,000 件の検証例外を記録できます。検証レコードページで単一検証から例外データをすばやくダウンロードできるだけでなく、アーカイブテーブルに直接アクセスしてテーブルライフサイクルをカスタマイズすることで、柔軟性を高めることもできます。
説明この実行に含まれるすべてのルールによって生成された例外データを要約してダウンロードします。ダウンロード制限は 1,000 エントリです。より多くのデータを表示する場合は、指定された例外アーカイブテーブルにアーカイブしてから、アーカイブテーブルに直接アクセスして取得することをお勧めします。
例外アーカイブテーブルは、特定の形式要件を満たしている必要があります。そうでない場合、データの書き込み時にエラーが発生し、使用に影響を与える可能性があります。詳細については、「例外アーカイブテーブルを追加する」をご参照ください。
ビジネス属性構成
属性情報
ビジネス属性の入力仕様は、品質ルール属性の構成によって異なります。たとえば、担当部門に対応するフィールド値タイプは列挙値 (複数選択) であり、オプションの列挙値範囲は大規模データ部門、ビジネス部門、技術部門です。したがって、品質ルールを作成する場合、属性値はドロップダウン複数選択ボックスであり、オプションは列挙値 (複数選択) であり、オプションの列挙値範囲は大規模データ部門、ビジネス部門、技術部門です。
ルール所有者に対応するフィールド値タイプはカスタム入力であり、属性フィールドの長さは 256 です。したがって、品質ルールを作成する場合、属性値は 256 文字以内で入力できます。
属性フィールドの入力方法が範囲間隔の場合、構成方法は次のとおりです。
範囲間隔: 値の範囲が連続した数値または日付である場合によく使用されます。4 つの記号から選択できます: [>]、[>=]、[<]、[<=]。その他の属性構成については、「品質ルール属性を作成および管理する」をご参照ください。
スケジューリング属性構成
スケジューリング方法
構成済みのスケジューリングの選択をサポートしています。スケジューリング方法がまだ決定されていない場合は、品質ルールの作成後に構成できます。新規作成するには、「スケジューリングを作成する」をご参照ください。
品質スコアの構成
スコアリング方法
品質検証ステータスとデータコンプライアンス率の 2 つのスコアリング方法をサポートしています。
品質検証ステータス: 現在のルールの最新の成功した検証レコードの検証ステータスに基づいてスコアを付けます。検証に成功した場合は 100 点、検証に失敗した場合は 0 点です。
データコンプライアンス率: 現在のルールの最新の成功した検証レコードの正常データの割合 (つまり、正常率) をスコアとして使用します。たとえば、データ形式の有効性が 80% の場合、品質スコアは 80 点です。
ルールテンプレートによって、サポートされるスコアリング方法が異なります。以下に説明するように、品質検証ステータススコアリング方法のみがサポートされています。
一意性ルールカテゴリのフィールドグループカウントチェックとフィールド重複カウントチェック。
一貫性ルールカテゴリの単一テーブルフィールド統計値一貫性比較とクロスソース 2 つのテーブルフィールド統計値一貫性比較。
安定性ルールカテゴリ。
カスタム SQL ルールカテゴリのカスタム統計指標チェック。
品質スコアのウェイト
品質ルールの品質スコアウェイトは、監視対象オブジェクトの品質スコアを計算するために使用されます。1 から 10 までの整数の選択をサポートしています。
[確認] をクリックして、ルール構成を確定します。
[SQL のプレビュー] をクリックして、現在の構成を最後に保存された構成と比較することで、SQL の変更を簡単に特定できます。
説明重要な情報が完全に入力されていない場合、SQL プレビューは使用できません。
左側には、最後に保存された構成の SQL プレビューが表示されます。構成されていない場合は空です。右側には、現在の構成の SQL プレビューが表示されます。
ルール構成リスト
ルール構成リストページで構成済みのデータテーブルルール情報を表示し、表示、編集、試行実行、実行、削除などの操作を実行できます。
領域 | 説明 |
①フィルターと検索領域 | オブジェクトまたはルール名によるクイック検索をサポートしています。 ルールタイプ、ルールテンプレート、ルールの強度、試行実行ステータス、有効ステータスによるフィルタリングをサポートしています。 説明 品質ルール属性が検索可能でフィルタリング可能なビジネス属性で構成されており、有効になっている場合は、その属性に基づいて検索またはフィルタリングできます。 |
②リスト領域 | ルール構成リストのオブジェクトタイプ/名、ルール名/ID、試行実行ステータス、有効ステータス、ルールタイプ、ルールテンプレート、ルールの強度、スケジューリングタイプ、および関連ナレッジベースドキュメント情報を表示します。
|
③操作エリア | 表示、クローン、編集、試行実行、実行、スケジュール設定、ナレッジベースドキュメントの関連付け、品質スコア設定、削除の操作を実行できます。
|
④一括操作エリア | 一括試行、実行、スケジュールの構成、有効化、無効化、ビジネス属性の変更、ナレッジベースドキュメントの関連付け、品質スコア構成、ルールのエクスポート、および削除操作を実行できます。
|
スケジューリングの作成
ルールのスケジューリングを構成する場合は、既存のスケジューリングに基づいてすばやく構成できます(テーブルごとに最大 20 のスケジューリングルール)。
同じルールに対して最大 10 個のスケジュールを構成できます。
スケジューリング構成が完全に一致する場合、重複排除が自動的にサポートされます。
検証範囲は、品質検証中に品質検証ステートメントのフィルタ条件として発行され、各品質検証の範囲を制御します。 検証範囲は、後続の品質レポートやその他のダウンストリームプロセスの基本単位としても機能します。 品質レポートの表示では、検証範囲が最小表示粒度として使用されます。
[品質ルール詳細] ページで、[スキャン構成] タブをクリックし、[スケジューリングの作成] ボタンをクリックして [スケジューリングの作成] ダイアログボックスを開きます。
[スケジューリングの作成] ダイアログボックスで、パラメーターを構成します。
パラメーター
説明
スケジューリング名
カスタムスケジューリング名。 64 文字を超えないようにしてください。
スケジューリングタイプ
[繰り返しトリガー] と [タスクトリガー] をサポートしています。
[繰り返しトリガー]:設定されたスケジューリング時間に基づいて、データの定期的な品質チェックをサポートします。データの生成時間が比較的固定されているシナリオに適しています。
[繰り返し]:品質ルールの 実行 は、特定の計算リソースを占有します。 本番タスクの通常の操作に影響を与えないように、複数の品質ルールを同時に実行することは避けることをお勧めします。 スケジューリングサイクルには、[日]、[週]、[月]、[時間]、[分] の 5 つのタイプがあります。
システムタイムゾーン(つまり、ユーザーセンターのタイムゾーン)がスケジューリングタイムゾーン(つまり、[管理ハブ] > [システム設定] > [基本設定] で構成されたタイムゾーン)と異なる場合、ルールはシステムタイムゾーンに従って実行されます。
[タスクトリガー]:指定されたタスクが正常に実行された後、または実行される前に、構成された品質ルールを実行します。 エンジン SQL、オフラインパイプライン、Python、Shell、Virtual、Datax、Spark_jar、Hive_MR、データベース SQL ノードなどのタスクタイプを選択して、タスクをトリガーできます。 テーブル変更タスクが固定されている状況に適しています。
説明固定タスクトリガーは、本番環境タスクのみを選択できます。 ルールの強度が強力なルールで構成されている場合、スケジューリングタスクの検証に失敗すると、オンライントピックに影響を与える可能性があります。 ビジネスニーズに応じて慎重に進めてください。
[トリガータイミング]:品質チェックのトリガータイミングを選択します。 [すべてのタスクが正常に実行された後にトリガー]、[各タスクが正常に実行された後にトリガー]、[各タスクの実行前にトリガー] を選択できます。
[トリガータスク]:現在のユーザーが メンテナンス 権限を持っている本番タスクノードを選択できます。 ノードの出力名で検索できます。
説明トリガータイミングがすべてのタスクが正常に実行された後にトリガーとして選択されている場合は、スケジューリングサイクルが異なるためにルールが遅延し、品質チェック結果が遅延することを避けるために、同じスケジューリングサイクルのタスクを選択することをお勧めします。
[スケジュール条件]
デフォルトでは無効になっています。 有効にすると、品質ルールの正式なスケジューリングの前に、最初にスケジューリング条件が満たされているかどうかが判断されます。 条件が満たされた場合にのみ、正式にスケジュールされます。 条件が満たされない場合、このスケジューリングは無視されます。
[営業日]/[実行日]:スケジューリングタイプが [繰り返しトリガー](時間指定スケジューリングは実行日をサポートしていません)または [タスクトリガー] の場合、[通常のカレンダー] または [カスタムカレンダー] を選択して日付を構成できます。 カレンダーのカスタマイズ方法については、「パブリックカレンダーを作成する」をご参照ください。
[通常のカレンダー] を選択した場合、条件には [月]、[週]、[日付] を含めることができます。 たとえば、以下の画像を参照してください。
[カスタムカレンダー] を選択した場合、条件には [日付タイプ] と [タグ] を含めることができます。 たとえば、以下の画像を参照してください。
[インスタンスタイプ]:スケジューリングタイプが [タスクトリガー] の場合、[定期インスタンス]、[データバックフィルインスタンス]、または [ワンタイムインスタンス] を選択してインスタンスタイプを構成できます。 たとえば、以下の画像を参照してください。
説明少なくとも 1 つのルールを構成する必要があります。 ルールを追加するには、[+ ルールの追加] ボタンをクリックします。
最大 10 個のスケジューリング条件を構成できます。
スケジューリング条件間の関係は、and / or として構成できます。
[検証範囲式]
検証する範囲を直接入力できる入力ドロップダウンボックスです(例:
ds='${yyyyMMdd}'
)。 また、組み込みの検証範囲式を選択してから変更して、すばやく構成することもできます。 パーティション式の詳細については、「組み込みパーティション式タイプ」をご参照ください。説明検証に複数の条件がある場合は、and または or を使用して接続できます(例:
province="Zhejiang" and ds<=${yyyyMMdd}.
)。品質ルールでフィルタ条件が構成されている場合、検証範囲式とフィルタ条件は and 関係にあります。 データを検証するときは、両方の条件が一緒にフィルタリングされます。
検証範囲式は、フルテーブルスキャンをサポートしています。
注:フルテーブルスキャンは大量のリソースを消費し、一部はフルテーブルスキャンをサポートしていません。 フルテーブルスキャンを回避するために、パーティション式を構成することをお勧めします。
検証範囲予算
デフォルトは当日の営業日です。
[確認] をクリックして、スケジューリング構成を確定します。
スケジューリング構成リスト
スケジューリングが作成されると、スケジューリング構成リストで表示、編集、クローン作成、および削除操作を実行できます。
領域 | 説明 |
①フィルタおよび検索領域 | スケジューリング名によるクイック検索をサポートしています。 [繰り返しトリガー] と [タスクトリガー] によるフィルタリングをサポートしています。 |
②リスト領域 | ルール構成リストの [スケジューリング名]、[スケジュールタイプ]、[最終更新者]、および [最終更新日時] 情報が表示されます。 |
③操作領域 | スケジューリングで編集、クローン作成、および削除操作を実行できます。
|
アラート構成
異なるルールに対して異なるアラートメソッドを構成し、差別化されたアラートを実現できます。たとえば、重大なルール違反には電話アラートを構成し、軽微なルール違反にはショートメッセージ アラートを構成します。ルールが複数のアラート構成に同時にヒットした場合、アラートの有効ポリシーを設定できます。
1 つの監視対象オブジェクトは、最大 20 個のアラート構成の作成をサポートします。
[品質ルール詳細] ページで、[アラート構成] タブをクリックし、[アラート構成の作成] ボタンをクリックして、[アラート構成の作成] ダイアログボックスを開きます。
[アラート構成の作成] ダイアログボックスで、パラメーターを構成します。
パラメーター
説明
適用範囲
[すべてのルール]、[すべての重大なルール]、[すべての軽微なルール]、および [カスタム] の選択をサポートします。
説明1 つの監視対象オブジェクトでは、すべてのルール、すべての重大なルール、およびすべての軽微なルールの 3 つの範囲で、それぞれ 1 つのアラートを構成できます。新しく追加されたルールは、ルールの強度に基づいて対応するアラートに自動的に一致します。これらのアラート構成のいずれかを変更する必要がある場合は、既存の構成を変更できます。
カスタム範囲では、現在の監視対象オブジェクトで構成されているすべてのルールを選択できます(200 を超えない範囲で)。
アラート構成名
1 つの監視対象オブジェクトのアラート構成名は一意である必要があり、256 文字を超えてはなりません。
アラート受信者
アラート受信者とアラートメソッドを構成します。少なくとも 1 人のアラート受信者とアラートメソッドを選択する必要があります。
アラート受信者: カスタム、シフトスケジュール、品質所有者をアラート受信者として選択できます。
最大 5 人のカスタム アラート受信者と最大 3 つのシフトスケジュールの構成をサポートします。
アラートメソッド: 電話、メール、ショートメッセージ、DingTalk、Lark、WeCom、およびカスタム チャンネル などのさまざまな受信方法の選択をサポートします。 この受信方法は、チャンネル設定の構成 で制御できます。
[確認] をクリックして、アラート構成を完了します。
アラート構成リスト
アラート構成が完了すると、アラート構成リストでソート、編集、および削除操作を実行できます。
番号 | 説明 |
① ソート領域 | 品質ルールが複数のアラート構成を満たす場合、アラート有効ポリシーの構成をサポートします。
|
② リスト領域 | アラート構成の名前、有効範囲、各アラート タイプの特定の受信者、および対応するアラート受信方法が表示されます。 有効範囲: カスタム アラートは、構成されたオブジェクト名とルール名の表示をサポートします。ルールが削除された場合、オブジェクト名は表示できません。アラート構成を更新することをお勧めします。 |
③ 操作領域 | 構成済みのアラートに対して編集および削除操作を実行できます。
|
例外アーカイブテーブルを追加する
例外アーカイブテーブルは、品質ルール検証例外のレコードのアーカイブを実装します。
[品質ルール詳細] ページで、[アーカイブ] タブをクリックし、[+ 例外アーカイブテーブルを追加] ボタンをクリックして、[例外アーカイブテーブルを追加] ダイアログボックスを開きます。
[例外アーカイブテーブルを追加] ダイアログボックスで、パラメーターを構成します。
[追加方法] には、[新規テーブルの作成] または [既存テーブルの選択] の 2 つのオプションがあります。例外データが元のデータテーブルに書き込まれないようにするための特別な品質検証フィールドが含まれています。
[新規テーブルの作成]: アーカイブテーブルに関連付けられたプロジェクトまたはセクション内でテーブル名をカスタマイズできます。提供されるデフォルト名は current_table_name_exception_data です。作成に成功すると、同じデータベースまたはデータソースに新しいテーブルが作成されます。名前には、文字、数字、アンダースコア(_)、ピリオド(.)を含めることができ、128 文字を超えてはなりません。
監視対象のテーブルが物理テーブルの場合、アーカイブテーブルは監視対象のテーブルが配置されているプロジェクトに作成されます。
監視対象のテーブルが論理ディメンションテーブルまたは論理ファクトテーブルの場合、アーカイブテーブルはデフォルトで監視対象のテーブルが配置されているプロジェクトに作成されます。監視対象テーブルのセクション下のプロジェクト(projectA.table_name など)として手動で指定することもできます。
監視対象のテーブルが論理集計テーブルの場合、アーカイブテーブル名と同じセクション下のプロジェクト名を指定することをお勧めします。指定しない場合、監視対象のテーブルが配置されているセクション下のプロジェクトに自動的にアーカイブされます。
アーカイブテーブルには、品質監視テーブルのすべてのフィールドと検証フィールドが含まれている必要があります。スクリプト形式は次のとおりです。
create table current_table_name_exception_data (dataphin_quality_tenant_id varchar(64) comment 'テナントID' , dataphin_quality_rule_id varchar(64) comment '品質ルールID', dataphin_quality_rule_name varchar(256) comment '品質ルール名', dataphin_quality_column_name varchar(1024) comment '検証フィールド名', dataphin_quality_watch_task_id varchar(128) comment '監視対象オブジェクトタスクID', dataphin_quality_rule_task_id varchar(64) comment 'ルールタスクID', dataphin_quality_validate_time varchar(64) comment '品質検証時間', dataphin_quality_archive_mode varchar(32) comment '例外アーカイブモード、ONLY_ERROR_FIELD/FULL_RECORD', dataphin_quality_error_data string comment '例外データ', ljba_id bigint comment 'ljba プライマリキー', ljb_id bigint comment 'ljb プライマリキー', col_tinyint tinyint comment 'フィールドタイプは TINYINT で小文字です', col_tinyint_02 tinyint comment '2', col_smallint smallint comment 'フィールドタイプは SMALLINT で小文字です', col_smallint_02 smallint comment '4', col_int int comment 'フィールドタイプは INT で小文字です', col_int_02 int comment '6', col_bigint bigint comment 'フィールドタイプは BIGINT で小文字です', col_bigint_02 bigint comment '8', col_float float comment 'フィールドタイプは FLOAT で小文字です', col_float_02 float comment '10', col_double double comment 'フィールドタイプは DOUBLE で小文字です', col_double_02 double comment '11', col_decimal decimal(38,18) comment 'フィールドタイプは DECIMAL(38,18) で小文字です', col_decimal_02 decimal(38,18) comment '12', col_varchar varchar(500) comment 'フィールドタイプは VARCHAR(500) で小文字です', col_varchar_02 varchar(500) comment '13', col_char char(10) comment 'フィールドタイプは CHAR(10) で小文字です', col_char_02 char(10) comment '14', col_string string comment 'フィールドタイプは STRING で小文字です', col_string_02 string comment '15', col_date date comment 'フィールドタイプは DATE で小文字です', col_date_02 date comment '16', col_datetime datetime comment 'フィールドタイプは DATETIME で小文字です', col_datetime_02 datetime comment '17', col_timestmap timestamp comment 'フィールドタイプは TIMESTAMP で小文字です', col_timestmap_02 timestamp comment '18', col_boolean boolean comment 'フィールドタイプは BOOLEAN で小文字です', col_boolean_02 boolean comment '19', col_binary binary comment 'フィールドタイプは BINARY で小文字です', col_binary_02 binary comment '20', col_array array<int> comment 'フィールドタイプは ARRAY<int> で小文字です', col_array_02 array<string> comment '21', col_map map<string,string> comment 'フィールドタイプは MAP<string, string> で小文字です', col_map_02 map<string,int> comment 'フィールドタイプは MAP<string, int> で小文字です', ds string comment '日付パーティション、yyyyMMdd' ) partitioned by (dataphin_quality_validate_date string comment '検証日(パーティションフィールド)');
[既存テーブルの選択]: 同じプロジェクトまたはデータソースからテーブルを選択できます。アーカイブテーブルには、品質監視テーブルで必要なすべてのフィールドと検証フィールドが含まれている必要があります。[例外アーカイブテーブル DDL の表示] をクリックして、テーブル作成ステートメントを確認できます。スクリプトは次のようにフォーマットされます。
create table current_table_name_exception_data (dataphin_quality_tenant_id varchar(64) comment 'テナントID' , dataphin_quality_rule_id varchar(64) comment '品質ルールID', dataphin_quality_rule_name varchar(256) comment '品質ルール名', dataphin_quality_column_name varchar(1024) comment '検証フィールド名', dataphin_quality_watch_task_id varchar(128) comment '監視対象オブジェクトタスクID', dataphin_quality_rule_task_id varchar(64) comment 'ルールタスクID', dataphin_quality_validate_time varchar(64) comment '品質検証時間', dataphin_quality_archive_mode varchar(32) comment '例外アーカイブモード、ONLY_ERROR_FIELD/FULL_RECORD', dataphin_quality_error_data string comment '例外データ', ljba_id bigint comment 'ljba プライマリキー', ljb_id bigint comment 'ljb プライマリキー', col_tinyint tinyint comment 'フィールドタイプは TINYINT で小文字です', col_tinyint_02 tinyint comment '2', col_smallint smallint comment 'フィールドタイプは SMALLINT で小文字です', col_smallint_02 smallint comment '4', col_int int comment 'フィールドタイプは INT で小文字です', col_int_02 int comment '6', col_bigint bigint comment 'フィールドタイプは BIGINT で小文字です', col_bigint_02 bigint comment '8', col_float float comment 'フィールドタイプは FLOAT で小文字です', col_float_02 float comment '10', col_double double comment 'フィールドタイプは DOUBLE で小文字です', col_double_02 double comment '11', col_decimal decimal(38,18) comment 'フィールドタイプは DECIMAL(38,18) で小文字です', col_decimal_02 decimal(38,18) comment '12', col_varchar varchar(500) comment 'フィールドタイプは VARCHAR(500) で小文字です', col_varchar_02 varchar(500) comment '13', col_char char(10) comment 'フィールドタイプは CHAR(10) で小文字です', col_char_02 char(10) comment '14', col_string string comment 'フィールドタイプは STRING で小文字です', col_string_02 string comment '15', col_date date comment 'フィールドタイプは DATE で小文字です', col_date_02 date comment '16', col_datetime datetime comment 'フィールドタイプは DATETIME で小文字です', col_datetime_02 datetime comment '17', col_timestmap timestamp comment 'フィールドタイプは TIMESTAMP で小文字です', col_timestmap_02 timestamp comment '18', col_boolean boolean comment 'フィールドタイプは BOOLEAN で小文字です', col_boolean_02 boolean comment '19', col_binary binary comment 'フィールドタイプは BINARY で小文字です', col_binary_02 binary comment '20', col_array array<int> comment 'フィールドタイプは ARRAY<int> で小文字です', col_array_02 array<string> comment '21', col_map map<string,string> comment 'フィールドタイプは MAP<string, string> で小文字です', col_map_02 map<string,int> comment 'フィールドタイプは MAP<string, int> で小文字です', ds string comment '日付パーティション、yyyyMMdd' ) partitioned by (dataphin_quality_validate_date string comment '検証日(パーティションフィールド)');
[確認] をクリックして、例外アーカイブテーブルの追加を完了します。
[作成後に有効なアーカイブテーブルとして自動的に設定] オプションを選択すると、後で品質ルールを作成するときにアーカイブテーブルが自動的に選択されます。
例外アーカイブテーブルリストを表示する
追加に成功すると、デフォルトでは最初のものが現在有効なアーカイブテーブルになります。例外アーカイブテーブルの名前をクリックして、テーブル構造情報を表示します。一方、他のアーカイブテーブルを有効なアーカイブテーブルとして設定したり、削除したりするなどの操作を実行できます。
[有効なアーカイブテーブルとして設定]: このテーブルを有効なアーカイブテーブルとして設定すると、アーカイブ場所の構成がカスタム例外アーカイブテーブルに設定されている場合、監視対象オブジェクトに関連付けられた新しく作成されたすべての品質ルールは、例外データをこの指定されたテーブルに送ります。
[削除]: この操作では、テーブル自体を削除せずに、例外アーカイブテーブルへの参照のみが削除されます。削除後、必要に応じて参照を再確立できます。
品質レポートの表示
[品質レポート] をクリックして、現在の品質ルールの [ルールの検証の概要] と [ルールの検証の詳細] を表示します。
例外結果、パーティション時間、ルール、またはオブジェクト名のキーワードで、検証の詳細をすばやくフィルタリングできます。
ルールの検証詳細リストで、操作列の
アイコンをクリックして、品質ルールのルールの検証詳細を表示します。
ルールの検証詳細リストで、操作列の
アイコンをクリックして、品質ルールの実行ログを表示します。
品質ルール権限管理の設定
[権限管理] をクリックして [詳細の表示] を構成し、指定したメンバーが検証レコード、品質ルール詳細、および品質レポートを表示できるようにします。
[詳細の表示]: [すべてのメンバー] または [現在のオブジェクトに対する品質管理権限を持つメンバーのみ] を選択できます。
[確認] をクリックして、権限管理構成を確定します。
次の手順
上記の品質ルール構成が完了したら、グローバルデータテーブルルールリストページで確認できます。詳細については、「監視対象オブジェクトリストを表示する」をご参照ください。