このトピックでは、リアルタイムメタデータテーブルの品質ルールを作成する方法について説明します。
前提条件
品質ルールを設定する前に、監視対象を追加する必要があります。 詳細については、「監視対象の追加」をご参照ください。
権限
スーパー管理者、品質管理者、[クオリティルール] - [管理] 権限を付与するカスタムグローバルロールを持つユーザー、メタデータテーブルを含むプロジェクトに対して [プロジェクト品質管理] - [品質ルール管理] 権限を付与するカスタムプロジェクトロールを持つユーザー、およびリアルタイムメタデータテーブルのオーナーは、品質ルールのスケジューリングとアラートを設定できます。
品質オーナーと一般ユーザーは、リアルタイムメタデータテーブルに対するリードスルー権限を持っている必要があります。 リアルタイムメタデータテーブルの権限をリクエストするには、「テーブル権限のリクエスト、更新、返却」をご参照ください。
サポートされている操作権限は、オブジェクトによって異なります。 詳細については、「品質ルールの操作権限」をご参照ください。
トライアル実行とスケジュール実行の比較
トライアル実行とスケジュール実行は、実行方法と結果の表示方法が異なります。 トライアル実行は、品質ルールの正確性とパフォーマンスをチェックするための 1 回限りのシミュレートされた実行です。 トライアル実行の結果は、品質レポートには表示されません。 スケジュール実行は、特定の時間に品質ルールをチェックします。 スケジュール実行の結果は、表示および分析のために品質レポートに送信されます。
メタデータテーブルルール
ルールタイプ | 説明 |
統計的傾向の監視 | データ値とデータ変化の傾向をチェックします。 |
リアルタイム複数パイプライン比較 | ビジネスクリティカルなシナリオでは、リアルタイムのデュアルパイプラインまたはトリプルパイプラインの品質ルールを使用してデータを監視できます。 異常が発生した場合、O&M エンジニアは迅速にデータを切り替えたり、バックアップしたりできます。 リアルタイム複数パイプライン比較ルールは、データ遅延や統計的バイアスなどの問題を監視できます。 |
リアルタイムデータとオフラインデータの比較 | リアルタイムデータとオフラインデータが同じ統計ロジックを使用する場合、リアルタイム・オフラインデータ比較ルールはデータセット間の差異を検出できます。 大きな差異は、データ品質の問題を示している可能性があります。 |
品質ルールの設定
Dataphin ホームページの上部のメニューバーで、[管理] > [Data Quality] を選択します。
左側のナビゲーションウィンドウで、[クオリティルール] をクリックします。 [リアルタイムメタデータテーブル] ページで、ターゲットオブジェクトの名前をクリックします。 表示された [品質ルールの詳細] ページで、品質ルールを設定します。
[品質ルールの詳細] ページで、[品質ルールの作成] をクリックします。
[品質ルールの作成] ダイアログボックスで、パラメーターを構成します。
パラメーター
説明
基本情報
[ルール名]
品質ルールのカスタム名を入力します。
[ルールの強度]
[ソフトルール] または [強制ルール] を選択します。
[ソフトルール] を選択した場合、チェック結果が異常であればアラートがトリガーされますが、下流ノードはブロックされません。
[強制ルール] を選択した場合、チェック結果が異常であればアラートがトリガーされます。 下流ノード (コードチェックスケジューリングまたはタスクトリガースケジューリングから) がある場合、データ汚染の拡散を防ぐために下流ノードはブロックされます。 下流ノードがない場合 (定期的な品質スケジューリングから)、アラートのみがトリガーされます。
[説明]
品質ルールのカスタム説明を入力します。 説明は最大 128 文字です。
[ルールテンプレート]
一貫性または安定性のルールテンプレートを選択します。
一貫性: [ストリーム-バッチ比較] と [リアルタイムパイプライン比較] が含まれます。
安定性: [リアルタイム統計値チェック] が含まれます。
詳細については、「リアルタイムメタデータテーブルのテンプレートタイプ」をご参照ください。
[ルールタイプ]
ルールタイプはテンプレートに依存し、その最も基本的なプロパティです。 説明やフィルタリングに使用できます。
ルール構成
[ルール構成]
選択した [ルールテンプレート] に基づいてルールを設定します。 詳細については、「オフラインパイプライン比較のパラメーター設定」、「複数パイプライン比較のパラメーター設定」をご参照ください。
チェック設定
ルールチェック
データ品質ルールが実行された後、システムは結果を異常チェック設定と比較します。 結果が異常条件を満たす場合、チェックは失敗し、アラートなどの後続のアクションをトリガーします。
異常チェックで利用可能なメトリックは、テンプレートとその設定に依存します。 複数の AND または OR 条件を使用できます。 設定には 3 つ以下の条件を使用してください。
詳細については、「チェック設定の説明」をご参照ください。
ビジネスプロパティ構成
プロパティ情報
ビジネスプロパティのフォーマットは、品質ルールプロパティの設定方法に依存します。 たとえば、管理部門のプロパティが `ビッグデータ部門`、`ビジネス部門`、`技術部門` の値を持つ複数選択の列挙である場合、UI にはこれらのオプションを持つ複数選択のドロップダウンリストが表示されます。
ルールオーナーのプロパティが長さ 256 文字のカスタム入力フィールドである場合、ルール作成時にこのプロパティに最大 256 文字を入力できます。
プロパティフィールドが 範囲間隔 の場合、次のように設定します:
範囲間隔: 連続する数値または日付の範囲に使用します。 4 つの記号のいずれかを選択できます: >、>=、<、または <=。 プロパティ設定の詳細については、「品質ルールプロパティの作成と管理」をご参照ください。
スケジューリングプロパティ設定
スケジューリングメソッド
事前に設定されたスケジュールを選択します。 スケジューリングメソッドをまだ決定していない場合は、品質ルールの作成後に設定できます。 新しいスケジュールを作成するには、「スケジュールの作成」をご参照ください。
[OK] をクリックします。
[SQL のプレビュー] をクリックして SQL の変更を表示し、現在の設定を最後に保存されたバージョンと比較します。
説明キー情報が欠落している場合、SQL プレビューは利用できません。
左側のペインには、最後に保存された設定の SQL プレビューが表示されます。 設定が保存されていない場合、このペインは空になります。 右側のペインには、現在の設定の SQL プレビューが表示されます。
ルール構成リスト
ルール設定リストには、設定されたメタデータテーブルルールに関する情報が表示され、表示、編集、トライアル実行、実行、削除などの操作を実行できます。

領域 | 説明 |
①フィルターと検索領域 | オブジェクトまたはルール名で迅速に検索します。 ルールタイプ、ルールテンプレート、ルール強度、トライアル実行ステータス、またはアクティブステータスでフィルタリングします。 説明 品質ルールのビジネスプロパティが検索可能およびフィルタリング可能に設定され、有効になっている場合、そのプロパティで検索またはフィルタリングできます。 |
②リスト領域 | オブジェクトタイプ/名前、ルール名/ID、トライアル実行ステータス、アクティブステータス、ルールタイプ、ルールテンプレート、ルール強度、スケジュールタイプ、および関連するナレッジベースドキュメント情報を表示します。 リフレッシュボタンの前にある
|
③操作領域 | 表示、クローン、編集、トライアル実行、実行、スケジュール設定、ナレッジベースドキュメントの関連付け、および削除の操作を実行できます。
|
④バッチ操作領域 | バッチでのトライアル実行、実行、スケジュール設定、アクティブ化、非アクティブ化、ビジネスプロパティの変更、ナレッジベースドキュメントの関連付け、および削除を実行できます。
|
スケジュールの作成
ルールのスケジュールを設定する際、現在のテーブルの既存のスケジュールを再利用できます。 各テーブルには最大 20 個のスケジューリングルールを設定できます。
単一のルールに対して最大 10 個のスケジュールを設定できます。
スケジュール設定が同一の場合、自動的に重複排除されます。
[品質ルールの詳細] ページの [スケジュール設定] タブで、[スケジュールの作成] をクリックして [スケジュールの作成] ダイアログボックスを開きます。
[スケジュールの作成] ダイアログボックスで、パラメーターを設定します。
パラメーター
説明
スケジュール名
スケジュールのカスタム名を入力します。
スケジュールタイプ
時刻指定スケジューリング、データ更新トリガースケジューリング、または固定タスクトリガースケジューリングを選択します。
時刻指定スケジューリング: 設定されたスケジュールに基づいて定期的なデータ品質チェックを実行します。 これは、データが固定時刻に生成されるシナリオに適しています。
スケジューリング周期: 品質ルールの実行は計算資源を消費します。 本番ノードの通常運用に影響を与えないように、複数の品質ルールを同時に実行することは避けてください。 スケジューリング周期は、[日]、[週]、[月]、[時]、または [分] にすることができます。
システムタイムゾーン (ユーザーセンター内) がスケジューリングタイムゾーン ([管理センター] > [システム設定] > [基本設定] 内) と異なる場合、ルールはシステムタイムゾーンに基づいて実行されます。
データ更新トリガースケジューリング: いずれかのコードタスクが実行されると、システムはその実行が現在のテーブルの指定されたチェック範囲を更新するかどうかをチェックします。 これは、変更タスクが固定されていないテーブルや、すべての変更を監視する必要がある密接な監視が必要なテーブルに適しています。
説明ノードによって更新されるパーティションをチェック範囲として選択します。 非パーティションテーブルの場合、テーブル全体がチェックされます。 システムはすべてのデータ変更を自動的に検出し、見落としを避けるためにチェックを実行します。
固定タスクトリガースケジューリング: 指定されたノードが正常に実行された後または前に、設定された品質ルールを実行します。 ルールをトリガーするために、次のタイプのノードを選択できます: DPI エンジン SQL、オフラインパイプライン、Python、Shell、仮想、Datax、Spark_jar、Hive_MR、およびデータベース SQL。 これは、テーブル変更タスクが固定されているシナリオに適しています。
説明スケジュールをトリガーするために選択できるのは、本番環境のノードのみです。 強制ルールが設定され、スケジュールされたチェックが失敗した場合、オンラインノードが影響を受ける可能性があります。 必要に応じて慎重に進めてください。
トリガー時間: 品質チェックを実行するタイミングを選択します。 [すべてのノードが成功した後にトリガー]、[各ノードが成功した後にトリガー]、または [各ノードが実行される前にトリガー] を選択できます。
トリガータスク: プロジェクト管理者または O&M システムロールを持つユーザーは、本番プロジェクト内のノードを選択できます。 出力名でノードを検索するか、推奨またはすべてのノードリストから選択できます。
説明[すべてのノードが成功した後にトリガー] を選択した場合、ルールと同じスケジューリング周期を持つトリガーノードを選択してください。 これにより、ルールが遅延して実行され、遅延したチェック結果が生成されるのを防ぎます。
[スケジュール条件]
この機能はデフォルトで無効になっています。 有効にすると、品質ルールがスケジュールされる前に、システムはスケジューリング条件が満たされているかどうかをチェックします。 条件が満たされている場合にのみルールがスケジュールされます。 それ以外の場合、スケジュールは無視されます。
データタイムスタンプ/実行日: スケジュールタイプとして [時刻指定スケジューリング] (実行日をサポートしない)、[データ更新トリガースケジューリング]、または [固定タスクトリガースケジューリング] を選択した場合、日付を設定できます。 [通常カレンダー] または [カスタムカレンダー] を選択できます。 カレンダーのカスタマイズ方法の詳細については、「パブリックカレンダーの作成」をご参照ください。
[通常カレンダー] を選択した場合、[月]、[週]、および [日] の条件を設定できます。 例:

[カスタムカレンダー] を選択した場合、[日付タイプ] と [タグ] の条件を設定できます。 例:

インスタンスタイプ: スケジュールタイプとして [データ更新トリガースケジューリング] または [固定タスクトリガースケジューリング] を選択した場合、インスタンスタイプを設定できます。 [定期インスタンス]、[データ補完インスタンス]、または [一時インスタンス] を選択できます。 例:

説明少なくとも 1 つのルールを設定してください。 ルールを追加するには、[+ルールの追加] をクリックします。
最大 10 個のスケジューリング条件を設定できます。
スケジューリング条件間の関係は AND または OR にすることができます。
[OK] をクリックします。
スケジュール構成リスト
スケジュールを作成した後、スケジュール設定リストから表示、編集、クローン、削除できます。

領域 | 説明 |
① フィルターと検索領域 | スケジュール名で迅速に検索します。 [時刻指定スケジューリング]、[データ更新トリガースケジューリング]、または [固定タスクトリガースケジューリング] でフィルタリングします。 |
②リスト領域 | [スケジュール名]、[スケジュールタイプ]、[最終更新者]、および [最終更新日時] を表示します。 |
③操作領域 | スケジュールの編集、複製、削除を実行できます。
|
アラート設定
異なるルールに異なるアラート方式を設定して、アラートを区別できます。 たとえば、強制ルールの例外には電話アラートを設定し、ソフトルールの例外にはショートメッセージアラートを設定できます。 ルールが複数のアラート設定に一致する場合、アラートポリシーを設定して、どのアラートが有効になるかを決定できます。
単一の監視対象オブジェクトに対して、最大 20 個のアラート設定を作成できます。
[品質ルールの詳細] ページの [アラート設定] タブで、[アラート設定の作成] をクリックして [アラート設定の作成] ダイアログボックスを開きます。
[アラート設定の作成] ダイアログボックスでパラメーターを設定します。
パラメーター
説明
[カバレッジ]
[すべてのルール]、[すべての強制ルール]、[すべてのソフトルール]、または [カスタム] を選択します。
説明単一の監視対象オブジェクトに対して、3 つの範囲 (すべてのルール、すべての強制ルール、すべてのソフトルール) ごとに 1 つのアラートを設定できます。 新しいルールは、その強度に基づいて対応するアラートに自動的に一致します。 アラート設定を変更するには、既存のものを変更します。
カスタム範囲の場合、現在の監視対象オブジェクトの下で設定されたルールのいずれかを選択でき、最大 200 ルールまでです。
[アラート構成名]
アラート設定名は、単一の監視対象オブジェクト内で一意である必要があり、最大 256 文字です。
[アラート受信者]
アラート受信者とアラート方式を設定します。 少なくとも 1 人のアラート受信者と 1 つのアラート方式を選択してください。
アラート受信者: カスタム、勤怠表、または品質オーナーを選択できます。
最大 5 人のカスタムアラート受信者と最大 3 つの勤怠表を設定できます。
アラート方式: 電話、メール、ショートメッセージ、DingTalk、Lark、WeCom、またはカスタムチャネルを選択できます。 この方式は、「チャネル設定の構成」で管理できます。
[OK] をクリックします。
アラート構成リスト
アラートを設定した後、アラート設定リストから並べ替え、編集、削除できます。

序数 | 説明 |
① 並べ替えエリア | 品質ルールが複数のアラート設定に一致する場合のアラートポリシーを設定します:
|
② リスト領域 | 名前、有効範囲、各アラートタイプの特定の受信者、および対応するアラート方式を表示します。 有効範囲: カスタムアラートの場合、設定されたオブジェクト名とルール名を表示できます。 ルールが削除された場合、オブジェクト名は表示できません。 アラート設定を更新してください。 |
③ 操作領域 | 構成済みのアラートを編集および削除できます。
|
品質レポートの表示
[品質レポート] をクリックして、現在の品質ルールのルールチェックの概要とルールチェックの詳細を表示します。
例外結果、パーティション時間、またはルールやオブジェクト名のキーワードでチェック詳細を迅速にフィルタリングできます。
ルールチェック詳細リストの [操作] 列で、
アイコンをクリックして、品質ルールのチェック詳細を表示します。ルールチェック詳細リストの [操作] 列で、
アイコンをクリックして、品質ルールの実行ログを表示します。
品質ルールの権限管理の設定
[権限管理] をクリックして、[詳細の表示] 権限を設定します。 この権限により、メンバーはチェックレコードの詳細、品質ルールの詳細、および品質レポートを表示できます。
詳細の表示: [すべてのメンバー] または [現在のオブジェクトの品質管理権限を持つメンバー] を選択できます。
[OK] をクリックします。
次のステップ
品質ルールを設定した後、リアルタイムメタデータテーブルルールリストページでそれらを表示できます。 詳細については、「監視対象リストの表示」をご参照ください。
