DataWorks のデータ比較ノードを使用すると、さまざまな方法で異なるテーブル間のデータを比較できます。これらのノードはワークフローで使用できます。このトピックでは、データ比較ノードを使用してタスクを開発する方法について説明します。
ノードの概要
データ比較ノードは、単なるデータ統合のためだけに使用されるものではありません。テーブル間のデータ比較をサポートします。また、カスタムの比較範囲とメトリックを指定して、より柔軟なデータ比較を行うこともできます。
制限事項
データ比較ノードは、サーバーレスリソースグループのみをサポートします。サーバーレスリソースグループの詳細については、「リソースグループ管理」をご参照ください。
手順
ステップ 1: データ比較ノードの作成
DataStudio ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ] をクリックします。
アイコンをクリックし、 を選択します。画面の指示に従って、ノードのパスと名前を指定します。
ステップ 2: データ比較ノードの設定
比較するテーブル情報の設定
テーブルの基本情報を設定することで、異なるデータソースのテーブルデータを比較できます。次の表にパラメーターを示します。
パラメーター | 説明 |
リソースグループ | ドロップダウンリストから既存のリソースグループを選択します。 |
タスクリソース使用量 | データ比較ノードが実行時に消費するリソースの量を調整します。 |
データソースタイプ | 比較したいソーステーブルと宛先テーブルのデータソースタイプを選択します。 |
データソース名 | 比較したいソーステーブルと宛先テーブルのデータソースを選択します。 |
接続性 | 設定が完了したら、[テスト] をクリックして、データソースがリソースグループに接続されているかどうかを確認します。 |
テーブル名 | [ドロップダウンリスト] からソーステーブルと宛先テーブルを選択します。 |
WHERE フィルター | 比較したいソーステーブルと宛先テーブルのデータをフィルターします。 |
シャードキー | ソーステーブルにシャードキーを設定します。シャードキーは、データをパーティション分割するために使用される列です。シャードキーとしてプライマリキーまたはインデックス列を使用することをお勧めします。 |
比較ルールの設定
[メトリックベースの比較] または [全文比較] ルールを設定して、ソースデータを宛先データと比較できます。
スケジューリング設定
ルールを設定した後、データ比較ノードのスケジューリングプロパティを設定できます。詳細については、「ノードスケジューling設定」をご参照ください。
ステップ 3: ノードのデプロイとメンテナンス
データ比較ノードのデプロイ
ノードタスクを設定した後、コミットしてデプロイする必要があります。タスクがコミットおよびデプロイされると、スケジューリング設定に基づいて定期的に実行されます。
ツールバーの
アイコンをクリックして、ノードを保存します。ツールバーの
アイコンをクリックして、ノードをコミットします。[コミット] ダイアログボックスで、[変更の説明] を入力します。必要に応じて、ノードのコミット後にコードレビューとスモークテストを実行するかどうかを選択します。
説明ノードをコミットする前に、ノードの [再実行] プロパティと [親ノード] を設定する必要があります。
コードレビューは、タスクコードの品質を管理するのに役立ちます。これにより、レビューなしで不正なコードが本番環境に公開された場合に発生する可能性のあるタスクエラーを防ぐことができます。コードレビューを有効にすると、コミットされたコードは、デプロイされる前にレビュー担当者によって承認される必要があります。詳細については、「コードレビュー」をご参照ください。
スケジュールされたノードタスクが期待どおりに実行されるようにするには、デプロイする前にタスクのスモークテストを実行することをお勧めします。詳細については、「スモークテスト」をご参照ください。
標準モードのワークスペースを使用している場合は、タスクがコミットされた後、ノード編集ページの右上隅にある [デプロイ] をクリックする必要もあります。これにより、タスクが本番環境に公開されます。詳細については、「タスクのデプロイ」をご参照ください。
データ比較ノードのメンテナンス
データ比較ノードがデプロイされた後、オペレーションセンターでノードの運用保守 (O&M) を実行できます。詳細については、「オペレーションセンター」をご参照ください。
データ検証レポートの表示
タスク実行ログでデータ検証レポートを表示できます。レポートは次の方法で表示できます:
オペレーションセンターで表示:
アイコンをクリックし、 を選択してオペレーションセンターに移動します。オペレーションセンターの左側のナビゲーションウィンドウで、 を選択して、データ比較ノード用に生成されたインスタンスを表示します。[操作] 列で、[その他] をクリックし、[ランタイムログの表示] を選択します。
ログページで、[データ比較] タブをクリックしてレポートを表示します。
ランタイムログで表示:
データ開発ページからデータ比較ノードを実行する場合、次の図に示すように、ランタイムログのリンクをクリックしてデータ検証レポートページに移動できます。

