すべてのプロダクト
Search
ドキュメントセンター

DataWorks:データ比較ノード

最終更新日:Nov 09, 2025

DataWorks のデータ比較ノードを使用すると、さまざまな方法で異なるテーブル間のデータを比較できます。これらのノードはワークフローで使用できます。このトピックでは、データ比較ノードを使用してタスクを開発する方法について説明します。

ノードの概要

データ比較ノードは、単なるデータ統合のためだけに使用されるものではありません。テーブル間のデータ比較をサポートします。また、カスタムの比較範囲とメトリックを指定して、より柔軟なデータ比較を行うこともできます。

制限事項

データ比較ノードは、サーバーレスリソースグループのみをサポートします。サーバーレスリソースグループの詳細については、「リソースグループ管理」をご参照ください。

手順

ステップ 1: データ比較ノードの作成

  1. DataStudio ページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データ開発とO&M] > [データ開発] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ] をクリックします。

  2. image アイコンをクリックし、[ノードの作成] > [Data Quality] > [データ比較] を選択します。

    画面の指示に従って、ノードのパスと名前を指定します。

ステップ 2: データ比較ノードの設定

比較するテーブル情報の設定

テーブルの基本情報を設定することで、異なるデータソースのテーブルデータを比較できます。次の表にパラメーターを示します。

パラメーター

説明

リソースグループ

ドロップダウンリストから既存のリソースグループを選択します。

タスクリソース使用量

データ比較ノードが実行時に消費するリソースの量を調整します。

データソースタイプ

比較したいソーステーブルと宛先テーブルのデータソースタイプを選択します。

データソース名

比較したいソーステーブルと宛先テーブルのデータソースを選択します。

接続性

設定が完了したら、[テスト] をクリックして、データソースがリソースグループに接続されているかどうかを確認します。

テーブル名

[ドロップダウンリスト] からソーステーブルと宛先テーブルを選択します。

WHERE フィルター

比較したいソーステーブルと宛先テーブルのデータをフィルターします。

シャードキー

ソーステーブルにシャードキーを設定します。シャードキーは、データをパーティション分割するために使用される列です。シャードキーとしてプライマリキーまたはインデックス列を使用することをお勧めします。

比較ルールの設定

[メトリックベースの比較] または [全文比較] ルールを設定して、ソースデータを宛先データと比較できます。

メトリックベースの比較

  • テーブル行数比較:

    メトリックベースの比較は、テーブルレベルの比較をサポートします。テーブルの行数を比較できます。差が指定されたエラーしきい値未満の場合、比較は成功です。

    説明

    エラーしきい値は、[パーセンテージ][絶対値]、または [一致/不一致] として設定できます。

  • フィールドレベルの比較:

    フィールドレベルの比較では、デフォルトで同じ名前のフィールドが比較されます。ソーステーブルと宛先テーブルのフィールド名が異なる場合は、[比較するフィールドを追加] をクリックして、比較するソースフィールドと宛先フィールドを手動で選択します。

    • ソースフィールド: 比較するソーステーブルからフィールドを選択します。

    • 宛先フィールド: 比較する宛先テーブルからフィールドを選択します。

    • 比較メトリック: 比較メトリックを選択します。有効な値は [MAX][AVG][MIN][SUM] です。

      • ソースフィールドと宛先フィールドのペアに対して、複数の比較メトリックを設定できます。

      • 比較メトリックごとに、異なるエラーしきい値と無視設定を構成できます。

    • エラーしきい値: 比較からの差がこのしきい値と比較されます。差がエラーしきい値未満の場合、比較は成功です。しきい値は [パーセンテージ][絶対値]、または [一致/不一致] として設定できます。

      説明
      • 絶対差 = |ソーステーブルのメトリック値 - 宛先テーブルのメトリック値|

      • パーセンテージ差 = (|ソーステーブルのメトリック値 - 宛先テーブルのメトリック値|) / (ソーステーブルのメトリック値) × 100%

    • 無視: フィールドタイプが異なると、サポートされる無視設定も異なります:

      比較のフィールドタイプ

      サポートされている無視オプション

      整数型フィールド (INTBIGINT など)

      [NULL と 0 の値の差] を無視できます。

      文字列型のフィールド(STRINGVARCHARTEXT など)

      [NULL と空文字列の差] を無視できます。

      数値型フィールド (整数型および浮動小数点型を含む)

      • 比較のために [浮動小数点精度] を設定できます。

      • [NULL 値と 0 値の差異] を無視できます。

      • [小数部分の末尾のゼロを無視する] ことができます。

      整数型と文字列型の比較

      [小数部の末尾のゼロを無視] できます。

      整数型と浮動小数点型の比較

      • [小数部の末尾のゼロを無視] できます。

      • [NULL と 0 の値の差] を無視できます。

      浮動小数点型と文字列型の比較

      [小数部の末尾のゼロを無視] できます。

    • 操作: フィールド比較から冗長または不要なフィールドを削除します。

  • カスタム比較:

    カスタム SQL (Structured Query Language) 比較メトリックを追加して、ソーステーブルと宛先テーブルを比較できます。次の手順を実行します:

    1. [カスタム SQL 比較メトリックの追加] をクリックして、必要なメトリックを追加します。メトリックを手動で変更したり、名前を変更したりできます。

      image

    2. 必要に応じて [エラーしきい値] を調整します。[パーセンテージ][絶対値]、または [一致/不一致] に設定できます。

    3. エラーしきい値を設定した後、[カスタム SQL] 列の [設定] をクリックします。ソーステーブルと宛先テーブルの SQL 文を設定して、カスタム比較メトリックを定義します。

    4. 設定が完了したら、[確認] をクリックしてカスタム比較の設定を完了します。

全文比較

  1. 全文比較を選択すると、全文比較タイプを選択してさまざまな結果を得ることができます。

    • 宛先データにソースデータが含まれる: ソースデータのすべての行が宛先データに存在する場合、比較は成功です。この場合、宛先データにはソースデータよりも多くの行が含まれる可能性があります。

    • 行ごとの比較: ソースデータと宛先データを一行ずつ比較して、行数と内容の違いを見つけます。

      行ごとの比較を設定する場合、エラーしきい値を設定する必要があります。[パーセンテージ][絶対値]、または [一致/不一致] に設定できます。

      説明
      • 絶対差 = |ソーステーブルのメトリック値 - 宛先テーブルのメトリック値|

      • パーセンテージ差 = (|ソーステーブルのメトリック値 - 宛先テーブルのメトリック値|) / (ソーステーブルのメトリック値) × 100%

  2. 全文比較タイプを設定した後、比較するフィールドを選択します。デフォルトでは、同じ名前のフィールドが比較されます。異なる名前のフィールドを比較するには、[比較するフィールドを追加] をクリックして、ソースフィールドと宛先フィールドを選択します。

    • ソースフィールド: 比較するソーステーブルからフィールドを選択します。

    • 宛先フィールド: 比較する宛先テーブルからフィールドを選択します。

    • 比較プライマリキー: 全文比較の場合、プライマリキーが他のフィールドの内容を比較するための基準として使用されます。

    • 無視: フィールドタイプが異なると、サポートされる無視設定も異なります:

      比較のフィールドタイプ

      サポートされている無視オプション

      整数型フィールド(INTBIGINT など)

      [NULL と 0 の値の差] を無視できます。

      文字列型のフィールド (STRINGVARCHARTEXT など)

      [NULL と空文字列の差] を無視できます。

      数値型フィールド (整数型および浮動小数点型を含む)

      • 比較のために [浮動小数点精度] を設定できます。

      • [NULL と 0 の値の差異] を無視できます。

      • [小数部分の末尾のゼロを無視] することができます。

      整数型と文字列型の比較

      [小数部の末尾のゼロを無視] できます。

      整数型と浮動小数点型の比較

      • [小数部の末尾のゼロを無視] できます。

      • [NULL と 0 の値の差] を無視できます。

      浮動小数点型と文字列型の比較

      [小数部の末尾のゼロを無視] できます。

    • 操作: [削除] を使用して、フィールド比較から冗長または不要なフィールドを削除します。

  3. 全文比較の結果は、比較完了後に詳細を表示できるように保存する必要があります。結果を保存するデータソースを設定できます。

    • データソースタイプ: MaxCompute データソースのみがサポートされています。

    • データソース名: ドロップダウンリストから、ワークスペースに関連付けられている MaxCompute データソースを選択します。

    • 接続性: 選択した MaxCompute データソースが、テーブル比較用に設定したリソースグループに接続できることを確認してください。

    • ストレージテーブル: [ストレージテーブルの生成] をクリックすると、data_comparison_xxxxxx フォーマットの名前のストレージテーブルが生成されます。

    • トンネルクォータ: ドロップダウンリストから MaxCompute データ転送リソースを選択します。詳細については、「Data Transmission Service の専用リソースグループの購入と使用」をご参照ください。

スケジューリング設定

ルールを設定した後、データ比較ノードのスケジューリングプロパティを設定できます。詳細については、「ノードスケジューling設定」をご参照ください。

ステップ 3: ノードのデプロイとメンテナンス

データ比較ノードのデプロイ

ノードタスクを設定した後、コミットしてデプロイする必要があります。タスクがコミットおよびデプロイされると、スケジューリング設定に基づいて定期的に実行されます。

  1. ツールバーの image アイコンをクリックして、ノードを保存します。

  2. ツールバーの image アイコンをクリックして、ノードをコミットします。

    [コミット] ダイアログボックスで、[変更の説明] を入力します。必要に応じて、ノードのコミット後にコードレビューとスモークテストを実行するかどうかを選択します。

    説明
    • ノードをコミットする前に、ノードの [再実行] プロパティと [親ノード] を設定する必要があります。

    • コードレビューは、タスクコードの品質を管理するのに役立ちます。これにより、レビューなしで不正なコードが本番環境に公開された場合に発生する可能性のあるタスクエラーを防ぐことができます。コードレビューを有効にすると、コミットされたコードは、デプロイされる前にレビュー担当者によって承認される必要があります。詳細については、「コードレビュー」をご参照ください。

    • スケジュールされたノードタスクが期待どおりに実行されるようにするには、デプロイする前にタスクのスモークテストを実行することをお勧めします。詳細については、「スモークテスト」をご参照ください。

標準モードのワークスペースを使用している場合は、タスクがコミットされた後、ノード編集ページの右上隅にある [デプロイ] をクリックする必要もあります。これにより、タスクが本番環境に公開されます。詳細については、「タスクのデプロイ」をご参照ください。

データ比較ノードのメンテナンス

データ比較ノードがデプロイされた後、オペレーションセンターでノードの運用保守 (O&M) を実行できます。詳細については、「オペレーションセンター」をご参照ください。

データ検証レポートの表示

タスク実行ログでデータ検証レポートを表示できます。レポートは次の方法で表示できます:

  • オペレーションセンターで表示:

    1. image アイコンをクリックし、[すべてのプロダクト] > [データ開発とO&M] > [オペレーションセンター (ワークフロー)] を選択してオペレーションセンターに移動します。

    2. オペレーションセンターの左側のナビゲーションウィンドウで、[自動トリガー タスク O&M] > [定期的なインスタンス] を選択して、データ比較ノード用に生成されたインスタンスを表示します。[操作] 列で、[その他] をクリックし、[ランタイムログの表示] を選択します。

    3. ログページで、[データ比較] タブをクリックしてレポートを表示します。

  • ランタイムログで表示:

    データ開発ページからデータ比較ノードを実行する場合、次の図に示すように、ランタイムログのリンクをクリックしてデータ検証レポートページに移動できます。

    image