DataWorks のデータ比較ノードを使用すると、さまざまな方法で複数のテーブル間のデータを比較でき、その結果をワークフローに追加できます。本ドキュメントでは、このノードを用いたタスクの作成手順について説明します。
概要
データ比較ノードは、データ統合内に限定されない、直接的なテーブル間比較をサポートします。比較範囲をカスタマイズしたり、独自のメトリックを定義したりすることで、より柔軟なデータ分析が可能です。
制限事項
このノードは、Serverless リソースグループのみをサポートします。Serverless リソースグループの使用方法については、「Serverless リソースグループの使用」をご参照ください。
ステップ 1:データ比較ノードの作成
DataWorks コンソールの ワークスペース ページに移動します。トップナビゲーションバーで、目的のリージョンを選択します。目的のワークスペースを見つけ、[操作] 列で を選択します。
左側のナビゲーションウィンドウで、
をクリックして、「Data Development」に移動します。[プロジェクトディレクトリ] の右側で、
をクリックし、「」を選択します。画面上の指示に従って、ノードのパスと名前を入力し、ノードを作成します。
ステップ 2:データ比較ノードの構成
1. テーブル情報の構成
比較対象のテーブルを指定することで、データ比較ノードを構成できます。以下の表にパラメーターを示します。
パラメーター | 説明 |
リソースグループ | ドロップダウンリストから既存のリソースグループを選択します。 |
タスクのリソース使用量 | データ比較ノード実行時のリソース消費量を調整します。 |
データソースの種類 | 比較対象のソースおよびデスティネーションテーブルのデータソースの種類を選択します。 |
データソース名 | ソースおよびデスティネーションテーブルのデータソースを選択します。 |
接続性 | 構成後に、テスト をクリックして、リソースグループへの接続を確認します。 |
テーブル名 | ドロップダウンリストから、比較対象のソースおよびデスティネーションテーブルを選択します。 説明 MaxCompute データソースの場合、スキーマも選択できます。 |
Where フィルター | 比較対象のソースおよびデスティネーションテーブルのデータをフィルター処理します。 説明
|
シャードキー | ソーステーブルのシャードキーを構成します。ノードはこの列を用いてデータを分割します。プライマリキーまたはインデックス付き列をシャードキーとして使用することを推奨します。 |
2. 比較ルールの構成
ソースおよびデスティネーションテーブル間のデータ比較には、メトリックベース比較 または 全文比較 のいずれかを選択できます。
メトリック比較
全文比較
3. スケジューリング構成
ルールを構成した後、ページ右側の スケジューリング構成 をクリックして、ノードのスケジューリングプロパティを設定します。詳細については、「ノードのスケジューリング構成」をご参照ください。
ステップ 3:デプロイおよび運用保守
1. ノードのデプロイ
ノードを構成した後、コミットしてデプロイします。デプロイ後は、スケジューリング構成に基づき定期的に実行されます。
上部ツールバーの
アイコンをクリックして、ノードを **[保存]** します。上部ツールバーの
アイコンをクリックして、ノードを **[デプロイ]** します。
ノードのデプロイに関する詳細な手順については、「ノードまたはワークフローのデプロイ」をご参照ください。
2. ノードの運用保守
Data Comparison ノードをデプロイした後、オペレーションセンターで O&M 作業を実行できます。詳細については、「オペレーションセンター」をご参照ください。
3. 検証レポートの表示
タスクの実行ログからデータ検証レポートを表示できます。以下のいずれかの方法でアクセスできます:
オペレーションセンターでは:
左上隅の
アイコンをクリックし、 へと移動します。オペレーションセンターの左側にあるナビゲーションウィンドウで、 を選択します。データ比較ノードのインスタンスを見つけ、[その他] をクリックし、[実行ログの表示] を選択します。
ログページで、データ比較 タブをクリックしてレポートを表示します。
実行ログから:
Data Development ページから Data Comparison ノードを実行した場合、実行ログ内のリンク(図参照)をクリックすると、データ検証レポートが開きます。

