DataWorks では、データ品質監視ノードを作成し、ノードに監視ルールを追加して、データソースの特定のテーブルのデータ品質を監視できます。たとえば、データ品質監視ノードを使用して、ダーティデータが存在するかどうかを確認できます。また、データ品質監視ノードのカスタムスケジュールポリシーを構成して、ノードを定期的に実行してデータを確認することもできます。このトピックでは、データ品質監視ノードを作成および使用して、テーブルのデータ品質を監視する方法について説明します。
背景情報
データ品質を確保するために、DataWorks Data Quality はソースデータの変更を検出し、抽出、変換、ロード (ETL) プロセス中に生成されるダーティデータを追跡します。 DataWorks Data Quality は、ダーティデータを含むタスクの実行を自動的にブロックし、ダーティデータが子孫タスクに拡散するのを効果的に阻止します。これにより、タスクが予期しないダーティデータを生成して、タスクのスムーズな実行とビジネス上の意思決定に影響を与えるのを防ぐことができます。また、問題のトラブルシューティングにかかる時間を短縮し、タスクの再実行によるリソースの浪費を防ぐのにも役立ちます。詳細については、「Data Quality の概要」をご参照ください。
制限事項
サポートされているデータソースの種類: MaxCompute、E-MapReduce (EMR)、Hologres、Cloudera's Distribution Including Apache Hadoop (CDH) Hive、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、および StarRocks。
監視可能なテーブルの範囲:
現在のデータ品質監視ノードが属するワークスペースに追加されたデータソースのテーブルのみを監視できます。
各データ品質監視ノードは、1 つのテーブルのデータ品質のみを監視できます。ただし、1 つのデータ品質監視ノードに複数の監視ルールを追加できます。監視範囲は、テーブルの種類によって異なります。
パーティション化されていないテーブル: デフォルトでは、テーブル内のすべてのデータが監視されます。
パーティションテーブル: データ品質を監視するパーティションを決定するために、パーティションフィルタ式を指定する必要があります。
説明複数のテーブルのデータ品質を監視する場合は、複数のデータ品質監視ノードを作成します。
サポートされている操作:
Data Studio でデータ品質監視ルールを作成した後、Data Studio でのみ監視ルールを実行、変更、公開したり、監視ルールに対して他の管理操作を実行したりできます。DataWorks Data Quality では、監視ルールを表示できますが、監視ルールをトリガーして定期的に実行したり、監視ルールに対して管理操作を実行したりすることはできません。
データ品質監視ノードで構成された監視ルールを変更してノードをデプロイすると、元の監視ルールが置き換えられます。
前提条件
必要な計算リソースはワークスペースに関連付けられています。データ品質を監視するテーブルは、計算リソースに作成されます。
データ品質監視ノードを実行する前に、データ品質を監視するテーブルを作成する必要があります。詳細については、「ワークスペースへの計算リソースの関連付け (Data Studio のパブリックプレビューへの参加が有効になっている)」および「ノード開発」をご参照ください。
リソースグループが作成されます。
サーバーレスリソースグループを使用してのみ、データ品質監視ノードを実行できます。詳細については、「リソースグループ管理」をご参照ください。
(RAM ユーザーを使用してタスクを開発する場合に必要) RAM ユーザーは、メンバーとして DataWorks ワークスペースに追加され、[開発] ロールまたは [ワークスペース管理者] ロールが割り当てられます。ワークスペース管理者ロールには広範な権限があります。必要な場合にのみ、ワークスペース管理者ロールをユーザーに割り当てることをお勧めします。メンバーを追加してメンバーにロールを割り当てる方法の詳細については、「ワークスペースメンバーを追加し、ロールを割り当てる」をご参照ください。
ステップ 1: データ品質監視ノードを作成する
DataWorks コンソールの ワークスペース ページに移動します。上部のナビゲーションバーで、目的のリージョンを選択します。目的のワークスペースを見つけ、[アクション] 列で を選択します。
Data Studio ページの左側のナビゲーションウィンドウで、
アイコンをクリックします。 [Workspace Directories] セクションの DATA STUDIO ウィンドウで、
アイコンをクリックし、を選択します。 [ノードの作成] ダイアログボックスで、Path と Name パラメーターを設定し、[OK] をクリックします。
ステップ 2: データ品質監視ルールを構成する
1. データ品質を監視するテーブルを選択する
ノードの構成タブの [監視ルール] セクションで、[テーブルの追加] をクリックします。[テーブルの追加] パネルで、データ品質を監視するテーブルを選択します。[詳細] をクリックしてフィルタ条件を指定し、目的のテーブルをすばやく見つけることができます。
目的のテーブルが表示されない場合は、データマップに移動し、テーブルのメタデータを手動で更新 できます。
2. 監視するデータの範囲を構成する
パーティション化されていないテーブル: デフォルトでは、テーブル内のすべてのデータが監視されます。テーブルがパーティション化されていないテーブルの場合は、この構成をスキップできます。
パーティションテーブル: テーブルがパーティションテーブルの場合は、データ品質を監視するパーティションを選択する必要があります。スケジューリングパラメータ を使用してパーティションを指定できます。[プレビュー] をクリックして、指定したパーティションフィルタ式の計算結果が期待どおりかどうかを確認できます。
3. データ品質監視ルールを構成する
監視ルールを作成するか、既存の監視ルールをインポートできます。デフォルトでは、構成されたルールは有効になっています。
DataWorks は、データ品質監視ノードのデータ品質監視ルールを作成するための [Copilot ベースのルール推奨] 機能を提供します。この機能は、テーブルの情報に基づいてデータ品質監視ルールを自動的に生成できます。ビジネス要件に基づいて、監視ルールを受け入れるか拒否できます。
DataWorks Copilot は、特定のリージョンでのみパブリックプレビューで利用できます。ワークスペースが存在するリージョンで DataWorks Copilot を使用できない場合は、以下の情報を参照して、既存のデータ品質監視ルールをインポートするか、作成できます。
監視ルールを作成する
[ルールの作成] をクリックして、テンプレートまたはカスタム SQL 文に基づいて監視ルールを作成します。
方法 1: 組み込みルールテンプレートに基づいて監視ルールを作成する
DataWorks は、データ品質監視ルールを作成するために使用できるさまざまな組み込みルールテンプレートを提供します。次の図は、手順を示しています。
説明[ルールの作成] パネルの左側にある組み込みルールテンプレートリストで目的のテンプレートを見つけて、[+ 使用] をクリックして監視ルールを作成することもできます。

方法 2: カスタムルールテンプレートに基づいて監視ルールを作成する
この方法を使用する前に、次の手順を実行してカスタムルールテンプレートを作成する必要があります。[データ品質] ページに移動します。左側のナビゲーションウィンドウで、 を選択します。[テンプレート] ページの [カスタムテンプレートカテゴリ] セクションで、プラスアイコンをクリックしてカスタムルールテンプレートを作成します。次に、ルールテンプレートに基づいて監視ルールを作成できます。詳細については、「カスタムルールテンプレートを作成および管理する」をご参照ください。
次の図は、カスタムルールテンプレートに基づいて監視ルールを作成する方法を示しています。
説明[ルールの作成] パネルの左側にあるカスタムルールテンプレートリストで目的のテンプレートを見つけて、[+ 使用] をクリックして監視ルールを作成することもできます。

方法 3: カスタム SQL 文に基づいて監視ルールを作成する
この方法では、テーブルのカスタムデータ品質チェックロジックを構成できます。

既存の監視ルールをインポートする
[データ品質] で選択したテーブルの監視ルールをすでに作成している場合は、ルールをインポートしてルールを複製できます。テーブルの監視ルールを作成していない場合は、Data Quality でテーブルの監視ルールを作成できます。詳細については、「単一テーブルの監視ルールを構成する」をご参照ください。
説明一度に複数のルールをインポートし、テーブルのフィールドの監視ルールを構成できます。
[ルールをインポート] をクリックします。「一括インポート」 パネルで、ルール ID や名前、ルールテンプレート、関連付け範囲などのフィルター条件を指定して、インポートするルールを検索して選択できます。関連付け範囲は、モニタリングするデータの範囲を指定します。この範囲には、テーブル全体、またはテーブル内の特定のフィールドを指定できます。

データ品質監視ノードで監視ルールを追加および構成する場合、ノードを公開した後、データ品質で監視ルールの詳細を表示できます。ただし、ルールの変更や削除などの管理操作は実行できません。
4. ランタイムリソースを構成する
ルールを実行するために必要なリソースを選択します。つまり、関連するデータ品質監視ノードを実行するデータソースを選択する必要があります。デフォルトでは、監視対象のテーブルが属するデータソースが選択されています。
別のデータソースを選択する場合は、データソースが監視するテーブルにアクセスできることを確認してください。
ステップ 3: チェック結果の処理ポリシーを構成する
データ品質監視ノードの構成タブの [処理ポリシー] セクションで、監視ルールに基づいて特定された例外の処理ポリシーとサブスクリプション方法を構成します。
例外カテゴリ
例外カテゴリ | 説明 |
強力なルール - チェック失敗 |
|
強力なルール - クリティカルなしきい値を超えました | |
強力なルール - 警告しきい値を超えました | |
弱いルール - チェック失敗 | |
弱いルール - クリティカルなしきい値を超えました | |
弱いルール - 警告しきい値を超えました |
例外の処理ポリシー
監視ルールに基づいて特定された例外を処理するポリシーを構成できます。
無視しない: ノードで特定の例外が特定されたときに、現在のノードを停止し、ノードのステータスを [失敗] に設定します。たとえば、このポリシーを使用して、強力な監視ルールのクリティカルなしきい値を超えた例外を処理できます。
説明現在のノードの実行に失敗すると、現在のノードに依存するノードは実行されません。これにより、本番リンクがブロックされ、ダーティデータの拡散が防止されます。
検出のために複数の例外カテゴリを追加できます。
例外の影響が大きく、子孫ノードの実行をブロックする場合に、このポリシーを使用できます。
無視する: 例外を無視し、子孫ノードの実行を続けます。
例外のサブスクリプション方法
メールなどで例外に関する情報を受信する方法を指定できます。例外が特定されると、DataWorks は指定された方法を使用して例外に関する情報をプッシュします。これにより、関係者は例外にできるだけ早く対応できます。
DataWorks は、例外に関する情報を受信するための複数の方法をサポートしています。DataWorks コンソールで方法を表示できます。次の項目に注意してください。
メール、メールとショートメッセージ、または電話の方法を使用する場合、現在のアカウントが属するユーザーのみを受信者として構成できます。関連ユーザーのメールアドレスまたは携帯電話番号が正しく構成されていることを確認してください。詳細については、「アラート連絡先を構成および表示する」をご参照ください。
他の方法を使用する場合は、例外情報を受信するために使用される Webhook URL を指定します。Webhook URL の取得方法の詳細については、「Webhook URL を取得する」を参照してください。
ステップ 4: ノードのスケジューリングプロパティを構成する
作成したデータ品質監視ノードを定期的に実行する場合は、ノードの構成タブの右側のナビゲーションウィンドウで [プロパティ] をクリックし、ビジネス要件に基づいてノードのスケジューリングプロパティを構成します。詳細については、「ノードスケジューリング構成」をご参照ください。
ステップ 5: データ品質監視ノードをデバッグする
次の操作を実行して、ノードがビジネス要件に基づいて期待どおりに構成されているかどうかを確認できます。
オプション。リソースグループを選択し、スケジューリングパラメータを変数に割り当てます。
データ品質監視ノードの構成タブの右側のナビゲーションウィンドウで、[デバッグ構成] をクリックします。[デバッグ構成] タブで、スケジューリングのリソースグループを構成します。
ノードのスケジューリングパラメータを構成する場合は、デバッグのために [スクリプトパラメータ] セクションでスケジューリングパラメータに値を割り当てます。スケジューリングパラメータの値割り当てロジックの詳細については、「デバッグ手順」をご参照ください。

ノードを保存して実行します。
構成タブの上部にあるツールバーで、
アイコンをクリックしてノードを保存し、
アイコンをクリックしてノードを実行します。ノードの実行が完了したら、ノードの構成タブの下部で実行結果を表示できます。ノードの実行に失敗した場合は、報告されたエラーに基づいて問題のトラブルシューティングを行います。
ステップ 6: データ品質監視ノードをデプロイする
ノードの構成が完了したら、ノードをデプロイする必要があります。ノードがデプロイされると、システムはノードのスケジューリングプロパティに基づいてノードを定期的に実行します。
ノードをデプロイすると、ノードで構成された監視ルールもデプロイされます。
ノードの構成タブの上部にあるツールバーで、
アイコンをクリックしてノードを保存します。上部のツールバーで、
アイコンをクリックしてノードをデプロイします。
ノードをデプロイする方法の詳細については、「ノードまたはワークフローのデプロイ」をご参照ください。
次のステップ
ノードの O&M を実行する: ノードをデプロイした後、ノードは構成に基づいて定期的に実行されます。ノードの実行ステータスやトリガーされた監視ルールの詳細など、ノードのスケジューリングステータスを表示するには、ノードの構成タブの右上隅にある [O&M] をクリックして、オペレーションセンターに移動します。詳細については、「自動トリガータスクを表示および管理する」をご参照ください。
データ品質を監視する: データ品質監視ルールが公開された後、[データ品質] ページに移動してルールの詳細を表示できます。ただし、ルールの変更や削除などの管理操作は実行できません。詳細については、「データ品質」をご参照ください。