このトピックでは、リアルタイムメタデータテーブルルールの作成方法について説明します。
前提条件
品質ルールを構成する前に、監視対象オブジェクトを追加する必要があります。 詳細については、「監視対象オブジェクトを追加する」をご参照ください。
権限の説明
スーパー管理者、品質管理者、[品質ルール] - [管理] 権限を持つカスタムグローバルロール、メタデータテーブルが配置されているプロジェクトの [プロジェクト品質管理] - [品質ルール管理] 権限を持つカスタムプロジェクトロール、およびリアルタイムメタデータテーブルの所有者は、品質ルールのスケジューリング、アラート、その他の設定を構成できます。
品質所有者と一般ユーザーは、リアルタイムメタデータテーブルのリードスルー権限も持っている必要があります。 リアルタイムメタデータテーブル権限の要求の詳細については、「テーブル権限の要求」をご参照ください。
サポートされている操作権限は、オブジェクトによって異なります。詳細については、「品質ルールの操作権限」をご参照ください。
試行実行と実行の違い
試行実行と実行の主な違いは、実行方法と表示される結果です。 [試行実行] は、品質ルールの正確性と実行ステータスを確認するための一回限りのシミュレーション実行であり、結果は品質レポートに表示されません。 [実行] は、品質ルールのスケジュールされた検査であり、結果はユーザーのレビューと分析のために品質レポートに出力されます。
メタデータテーブルルールの説明
ルールタイプ | 説明 |
統計的傾向の監視 | データ値とデータの変化傾向を監視します。 |
リアルタイムの複数リンク比較 | ビジネス保証の強いシナリオでは、リアルタイムのデュアルリンクまたはトリプルリンクの品質ルールでデータを監視できます。 例外が発生した場合、O&M エンジニアはデータを迅速に切り替えたりバックアップしたりできます。 リアルタイムのマルチリンク比較品質ルールは、データ保持や統計的ドリフトなどの問題の監視をサポートしています。 |
リアルタイムデータとオフラインデータの比較 | リアルタイムデータとオフラインデータで同じ統計ロジックを使用する場合、リアルタイムデータとオフラインデータの比較品質ルールでデータの差異を検出できます。大きな違いは、データ品質の問題を示している可能性があります。 |
品質ルールの構成
Dataphin ホームページの上部メニューバーで、[管理] > [データ品質] を選択します。
左側のナビゲーションウィンドウで [品質ルール] をクリックします。 [リアルタイムメタデータテーブル] ページで、対象オブジェクトの名前をクリックして [品質ルールの詳細] ページにアクセスし、品質ルールを構成します。
[品質ルールの詳細] ページで、[品質ルールの作成] をクリックします。
[品質ルールの作成] ダイアログボックスで、パラメーターを構成します。
パラメーター
説明
基本情報
[ルール名]
カスタム品質ルール名。
[ルールの強度]
[ソフトルール] と [ストロングルール] をサポートしています。
[ソフトルール] を選択した場合、品質ルール検証結果が異常な場合にアラートがトリガーされます。ただし、ダウンストリームタスクノードはブロックされません。
[ストロングルール] を選択した場合、品質ルール検証結果が異常な場合にアラートがトリガーされます。さらに、ダウンストリームタスク(コード検査スケジューリングやタスクトリガースケジューリングなど)がある場合、データの拡散を防ぐためにダウンストリームタスクがブロックされます。ダウンストリームタスクがない場合(定期的な品質スケジューリングなど)、アラートのみがトリガーされます。
[説明]
カスタム品質ルールの説明。128 文字以内。
[ルールテンプレート]
整合性または安定性のルールテンプレートを選択できます。
[整合性]: [ストリームバッチ比較] と [リアルタイムリンク比較] が含まれます。
[安定性]: [リアルタイム統計値検出] が含まれます。
詳細については、「リアルタイムメタテーブルテンプレートタイプ」をご参照ください。
[ルールタイプ]
ルールタイプはテンプレートに関連しています。これはテンプレートの最も基本的なプロパティであり、説明やフィルタリング機能に使用できます。
ルール構成
[ルール構成]
選択した [ルールテンプレート] に基づいてルール構成を実行します。詳細については、「オフラインリンク比較パラメーター構成」、「複数リンク比較パラメーター構成」をご参照ください。
検証構成
[ルール検証]
データ品質ルールの検証後、結果は異常検証の構成と比較されます。条件が満たされると、検証結果は失敗とみなされます。これにより、アラートなどの後続のプロセスもトリガーされます。
異常検証に使用できる指標は、テンプレートと構成の内容によって決まります。複数の条件付き and/or 条件をサポートしています。実際の構成では 3 つを超えないようにすることをお勧めします。
詳細については、「参照ドキュメント」をご参照ください。
ビジネスプロパティ構成
プロパティ情報
ビジネスプロパティの入力仕様は、品質ルールプロパティの構成によって異なります。たとえば、担当部署に対応するフィールド値タイプは列挙値(複数選択)であり、選択可能な列挙値には、ビッグデータ部門、事業部門、技術部門が含まれます。したがって、品質ルールを作成する場合、このプロパティ値はドロップダウンの複数選択ボックスであり、選択可能なオプションは列挙値(複数選択)であり、選択可能な列挙値の範囲には、ビッグデータ部門、事業部門、技術部門が含まれます。
ルール所有者に対応するフィールド値タイプはカスタム入力であり、プロパティフィールドの長さは 256 です。したがって、品質ルールを作成する場合、このプロパティ値は最大 256 文字まで入力できます。
プロパティフィールドの入力方法が [範囲間隔] の場合、構成方法は次のとおりです。
[範囲間隔]: これは、値の範囲が連続した数値または日付の場合によく使用されます。4 つの記号 [>]、[>=]、[<]、[<=] から選択できます。その他のプロパティ構成については、「品質ルールプロパティの作成と管理」をご参照ください。
スケジュールプロパティ構成
[スケジュール方法]
すでに構成されているスケジュールを選択できます。スケジューリング方法をまだ決定していない場合は、最初に品質ルールを作成してから構成できます。新規作成については、「新しいスケジュールの作成」をご参照ください。
[OK] をクリックして、品質ルールの構成を完了します。
SQL の変更を確認するには、[SQL のプレビュー] をクリックして、現在の構成と以前に保存した構成を比較します。
説明重要な情報が不完全な場合、SQL プレビューは使用できません。
左側には、以前に保存された構成の SQL プレビューが表示されます。構成が存在しない場合は空になります。右側には、現在の構成の SQL プレビューが表示されます。
ルール構成リスト
ルール構成リストページでは、構成済みのメタテーブルルール情報を表示し、ルールの表示、編集、テスト、実行、削除などの操作を実行できます。
領域 | 説明 |
①フィルターと検索領域 | オブジェクトまたはルール名によるクイック検索をサポートしています。 ルールタイプ、ルールテンプレート、ルールの強度、試行実行ステータス、または有効ステータスによるフィルタリングをサポートしています。 説明 品質ルールプロパティが検索可能でフィルタリング可能なビジネス属性で構成されており、有効になっている場合、この属性に基づいて検索またはフィルタリングできます。 |
②リスト領域 | ルール構成リストに、オブジェクトタイプ/名、ルール名/ID、テスト実行ステータス、有効ステータス、ルールタイプ、ルールテンプレート、ルールの強度、スケジュールタイプ、および関連するナレッジベースドキュメント情報が表示されます。更新前の
|
③操作領域 | 表示、複製、編集、試行実行、実行、スケジュールの構成、ナレッジベースドキュメントの関連付け、または削除操作を実行できます。
|
④バッチ操作領域 | バッチ試行実行、実行、スケジュール構成、有効化、無効化、ビジネスプロパティの変更、ナレッジベースドキュメントの関連付け、または削除操作を実行できます。
|
スケジュールの作成
スケジューリングルールを設定する場合、このテーブルの現在のスケジュールを使用して構成をすばやく適用できます。テーブルごとに最大 20 のスケジューリングルールです。
同じルールに対して最大 10 個のスケジュールを構成できます。
スケジュール構成が同一の場合、自動重複排除がサポートされます。
[品質ルールの詳細] ページで、[スキャン構成] タブをクリックし、[スケジュールの作成] をクリックして [スケジュールの作成] ダイアログボックスを開きます。
[スケジュールの作成] ダイアログボックスで、パラメーターを設定します。
パラメーター
説明
スケジュール名
カスタムスケジュール名。
スケジュールタイプ
定時トリガー、データ更新トリガー、およびタスクトリガーをサポートしています。
[定期トリガー]: 設定されたスケジュール時間に基づいて、スケジュールされた定期的なデータ品質チェックをサポートします。データ生成時間が比較的固定されているシナリオに適しています。
[繰り返し]: 品質ルールを実行すると、特定の計算リソースが占有されます。 本番タスクの通常の動作に影響を与えないように、複数の品質ルールを同時に実行することは避けることをお勧めします。 スケジューリングサイクルには、[日]、[週]、[月]、[時間]、[分] の 5 つのタイプがあります。
システムタイムゾーン (つまり、ユーザーセンターのタイムゾーン) がスケジューリングタイムゾーン (つまり、[Management Hub] > [システム設定] > [基本設定] で設定されたタイムゾーン) と異なる場合、ルールはシステムタイムゾーンに従って実行されます。
[データ更新トリガー]: すべてのコードタスクが実行されると、現在のタスク実行が現在のテーブルの指定された検証範囲を更新するかどうかが解析されます。変更タスクが固定されていないテーブル、または綿密に監視する必要があるテーブル、つまりすべての変更を監視する必要があるテーブルに適しています。
説明タスクによって更新されたパーティションを検証範囲として選択することをお勧めします(パーティション化されていないテーブルはテーブル全体を検証します)。システムはすべてのデータ変更を自動的に検出し、検証を実行して漏れを防ぎます。
[タスクトリガー]: 指定されたタスクが正常に実行された後、または実行される前に、構成された品質ルールを実行します。Engine SQL、オフラインパイプライン、Python、Shell、仮想、Datax、Spark_jar、Hive_MR、データベース SQL ノードなどのタスクタイプを選択して、タスクをトリガーできます。テーブル変更タスクが固定されているシナリオに適しています。
説明固定タスクトリガーでは、本番環境タスクのみを選択できます。ルールの強度がストロングルールとして構成されていて、スケジューリングタスク検証が失敗した場合、オンライントピックに影響を与える可能性があります。ビジネスニーズに応じて慎重に操作してください。
[トリガータイミング]: 品質検出のタイミングを選択します。 [すべてのタスクが正常に実行された後にトリガー]、[各タスクが正常に実行された後にトリガー]、[各タスクの実行前にトリガー] を選択できます。
[トリガータスク]: 現在のユーザーが操作とメンテナンスの権限を持っている本番タスクノードを選択でき、ノード出力名で検索できます。
説明トリガータイミングがすべてのタスクが正常に実行された後にトリガーとして選択されている場合は、スケジューリングサイクルが同じタスクを選択して、スケジューリングサイクルの違いによるルールの遅延を回避し、品質検出結果の遅延を防ぐことをお勧めします。
[スケジュール条件]
デフォルトでは無効になっています。有効にすると、品質ルールが正式にスケジュールされる前に、最初にスケジュール条件が満たされているかどうかが判断されます。条件が満たされると、正式にスケジュールされます。満たされない場合、このスケジュールは無視されます。
[データタイムスタンプ]/[実行日]: スケジュールタイプが [定期トリガー](時間指定スケジューリングは実行日をサポートしていません)、[データ更新トリガー]、[タスクトリガー] として選択されている場合、日付構成がサポートされます。 [通常のカレンダー] または [カスタムカレンダー] を選択できます。カレンダーのカスタマイズ方法については、「パブリックカレンダーの作成」をご参照ください。
[通常のカレンダー] を選択した場合、条件は [月]、[週]、[日付] にすることができます。たとえば、以下の画像を参照してください。
[カスタムカレンダー] を選択した場合、条件は [日付タイプ]、[タグ] にすることができます。たとえば、以下の画像を参照してください。
[インスタンスタイプ]: スケジュールタイプが [データ更新トリガー]、[タスクトリガー] として選択されている場合、インスタンスタイプ構成がサポートされます。 [定期インスタンス]、[データバックフィルインスタンス]、[ワンタイムインスタンス] を選択できます。たとえば、以下の画像を参照してください。
説明少なくとも 1 つのルールを構成する必要があります。ルールを追加するには、[+ ルールの追加] ボタンをクリックします。
最大 10 個のスケジュール条件を構成できます。
スケジュール条件間の関係は、and、or として構成できます。
[OK] をクリックして、スケジュールの設定を完了します。
スケジュール構成リスト
スケジュールが作成されると、スケジュール構成リストを使用してスケジュールを管理できます。これには、スケジュールの表示、編集、複製、削除が含まれます。
領域 | 説明 |
① フィルターと検索領域 | スケジュール名によるクイック検索をサポートしています。 [定期トリガー]、[データ更新トリガー]、[タスクトリガー] によるフィルタリングをサポートしています。 |
②リスト領域 | ルール構成リストの [スケジュール名]、[スケジュールタイプ]、[最終更新者]、[最終更新日時] 情報が表示されます。 |
③操作領域 | スケジュールの編集、複製、削除を実行できます。
|
アラート設定
さまざまなルールに異なるアラート方法を構成して、アラートを区別します。たとえば、ストロングルールの異常には電話アラートを設定し、ソフトルールの異常にはショートメッセージアラートを設定します。1 つのルールが複数のアラート構成をトリガーする場合、アラートの有効なポリシーを決定できます。
1 つの監視対象には、最大 20 個のアラート構成を設定できます。
[品質ルールの詳細] ページで、[アラート設定] タブをクリックし、次に [アラート構成の作成] をクリックして [アラート構成の作成] ダイアログボックスを開きます。
[アラート構成の作成] ダイアログボックスで、パラメーターを入力します。
パラメーター
説明
[カバレッジ]
[すべてのルール]、[すべてのストロングルール]、[すべてのソフトルール]、[カスタム] を選択できます。
説明1 つの監視対象について、すべてのルール、すべてのストロングルール、すべてのソフトルールの 3 つの範囲はそれぞれ 1 つのアラートの構成をサポートしています。新しく追加されたルールは、ルールの強度に基づいて対応するアラートに自動的に一致します。アラート構成のいずれかを変更する必要がある場合は、既存の構成を変更できます。
カスタム範囲では、現在の監視対象の下にあるすべての構成済みルールを選択できます。ルールは 200 件以内です。
[アラート構成名]
アラート構成名は、1 つの監視対象で一意であり、256 文字を超えません。
[アラート受信者]
アラート受信者とアラート方法を構成します。少なくとも 1 つのアラート受信者とアラート方法を選択する必要があります。
[アラート受信者]: アラート受信者として、カスタム、勤怠表、品質所有者の選択をサポートしています。
最大 5 人のカスタムアラート受信者と最大 3 つの勤怠表の構成をサポートしています。
[アラート方法]: 電話、メール、ショートメッセージ、DingTalk 、Lark、WeCom、カスタムチャンネル などのさまざまな受信方法を選択できます。 この受信方法は、カスタムチャンネルの構成 で制御できます。
[OK] をクリックして、アラート構成を完了します。
アラート構成リスト
アラートを設定した後、アラート構成リストを使用してアラートを管理できます。これには、ソート、編集、削除が含まれます。
序数 | 説明 |
① ソート領域 | 品質ルールが複数のアラート構成を満たしている場合のアラート有効ポリシーの構成をサポートしています。
|
② リスト領域 | アラート構成の名前、有効範囲、各アラートタイプの特定の受信者、および対応するアラート受信方法が表示されます。 [有効範囲]: カスタムアラートは、構成済みのオブジェクト名とルール名の表示をサポートしています。ルールが削除されると、オブジェクト名を表示できません。アラート構成を更新することをお勧めします。 |
③ 操作領域 | 構成済みのアラートを編集および削除できます。
|
品質レポートの表示
[品質レポート] をクリックして、現在の品質ルールの [ルール検証の概要] と [ルール検証の詳細] にアクセスします。
異常な結果、パーティション時間、ルール、またはオブジェクト名のキーワードに基づいて、検証の詳細をすばやくフィルタリングできます。
ルール検証の詳細リストの操作列で、
アイコンをクリックして、品質ルールの詳細な検証を表示します。
ルール検証の詳細リストの操作列で、
アイコンをクリックして、品質ルールの実行ログを表示します。
品質ルールの権限管理の設定
権限を管理するには、[権限管理] をクリックし、[詳細の表示] を構成します。これは、検証レコード、品質ルールの詳細、および品質レポートを表示できるメンバーを指定します。
[詳細の表示]: [すべてのメンバー] または [現在のオブジェクト品質管理権限を持つメンバーのみ] を選択します。
[OK] をクリックして、権限管理の構成を完了します。
次のステップ
品質ルールの構成が完了したら、リアルタイムメタデータテーブルルールリストページで表示できます。詳細については、「監視対象リスト」をご参照ください。