すべてのプロダクト
Search
ドキュメントセンター

DataWorks:データ比較ノード

最終更新日:Jun 22, 2026

DataWorks のデータ比較ノードは、テーブル間のデータを比較する機能で、ワークフローで使用できます。このトピックでは、データ比較ノードを使用したタスクの開発方法について説明します。

概要

データ比較ノードは、テーブル間の比較に対応しており、さまざまなシナリオに合わせて比較範囲とメトリックをカスタマイズできます。データ統合に限定されるものではありません。

制限事項

この機能は、サーバーレスリソースグループでのみ利用できます。使用方法の詳細については、「リソースグループ管理」をご参照ください。

操作手順

ステップ1:データ比較ノードの作成

  1. DataStudioページに移動します。

    DataWorks コンソールにログインします。 左側のナビゲーションウィンドウで、[データモデリングと開発] > [DataStudio] を選択します。 表示されるページで、ドロップダウンリストから目的のワークスペースを選択し、[DataStudioに移動] をクリックします。

  2. image アイコンをクリックし、Create Node > Data Quality > Data Comparison を選択します。

    画面の指示に従って、ノードのパス、名前、その他の情報を入力します。

ステップ2:データ比較ノードの設定

テーブル情報の設定

データ比較ノードのテーブル情報を設定して、異なるデータソースのデータを比較します。次の表で各パラメーターについて説明します。

パラメーター

説明

[Resource Group]

ドロップダウンリストから既存のリソースグループを選択します。

[Task Resource Usage]

データ比較ノードが実行時に消費するリソースの量を調整します。

[Data Source Type]

比較対象のソーステーブルと宛先テーブルのデータソースタイプを選択します。

[Data Source Name]

比較対象のソーステーブルと宛先テーブルのデータソースを選択します。

[Connection Status]

設定完了後、[テスト] をクリックしてデータソースとリソースグループ間の接続を確認します。

[Table Name]

ドロップダウンリストからソーステーブルと宛先テーブルを選択します。

[WHERE Condition]

ソーステーブルと宛先テーブルから比較するデータをフィルタリングします。

[Sharding Key]

ソーステーブルにシャードキーを設定して、特定の列でデータをパーティション分割します。シャードキーにはプライマリキーまたはインデックスが設定された列を使用します。

比較ルールの設定

[Metric-based Comparison] または [Full-text Comparison] を実行し、さまざまなルールに基づいてソーステーブルと宛先テーブルのデータを比較できます。

メトリックベースの比較

  • [Table Row Comparison]:

    メトリックベースの比較では、行数を確認することでテーブルレベルの比較が可能です。差が指定されたエラーしきい値内であれば、比較が成功したと見なされます。

    説明

    エラーしきい値は、PercentageAbsolute Value、または Consistent or Not として設定できます。

  • [Field-level Comparison]:

    フィールドレベルの比較では、デフォルトで同じ名前のフィールドが照合されます。ソーステーブルと宛先テーブルのフィールド名が異なる場合は、[比較用のフィールドを追加] をクリックして、ソースフィールドと宛先フィールドを手動で選択し、比較ペアを作成します。

    • [Source field]:比較対象の ソーステーブル からフィールドを選択します。

    • [宛先フィールド]:比較対象の 宛先テーブル からフィールドを選択します。

    • [Comparison Metric]:MAXAVGMINSUM などの一般的なメトリックが含まれます。

      • 1 組のソースフィールドと宛先フィールドに対して、複数の比較メトリックを設定できます。

      • 各比較メトリックに対して、異なるエラーしきい値と無視オプションを設定できます。

    • [Error Threshold]:ソーステーブルと宛先テーブル間で計算された差が、このしきい値と比較されます。差がしきい値未満の場合、比較が成功したと見なされます。しきい値は、PercentageAbsolute Value、または Consistent or Not として設定できます。

      説明
      • エラーしきい値の絶対値 = |ソーステーブルのメトリック値 - 宛先テーブルのメトリック値|

      • エラーしきい値のパーセンテージ = (|ソーステーブルのメトリック値 - 宛先テーブルのメトリック値|) / ソーステーブルのメトリック値 × 100%

    • 無視オプション:無視可能なオプションは、比較対象のカラムのデータの型によって異なります:

      カラムの型

      サポートされる無視オプション

      整数型(例:INTBIGINT

      NULL 値と値 0 の差異 を無視できます。

      文字列型(例:STRINGVARCHARTEXT

      NULL 値と空文字列の差異 を無視できます。

      数値型(整数および浮動小数点を含む)

      • 比較時に 浮動小数点精度 を設定できます。

      • NULL 値と値 0 の差異 を無視できます。

      • 小数部の末尾ゼロを無視 できます。

      整数と文字列の比較

      小数部の末尾ゼロを無視 できます。

      整数と浮動小数点の比較

      • 小数部の末尾ゼロを無視 できます。

      • NULL 値と値 0 の差異 を無視できます。

      浮動小数点と文字列の比較

      小数部の末尾ゼロを無視 できます。

    • [操作]:フィールド比較から冗長または不要なフィールドを削除できます。

  • [Configure Custom Comparison Rules]:

    カスタム SQL 比較メトリックを追加して、ソーステーブルと宛先テーブルを比較できます。手順は次のとおりです。

    1. Add Custom SQL Comparison Metric をクリックしてメトリックを追加します。メトリックの名前は手動で変更できます。

      メトリックを追加した後、エラーしきい値 (パーセンテージと絶対値をサポート) を設定したり、[設定] をクリックしてカスタム SQL コンテンツを編集したり、[削除] をクリックしてメトリックを削除したりできます。

    2. 必要に応じて [Error Threshold] を調整します。利用可能なオプションは、PercentageAbsolute ValueConsistent or Not です。

    3. エラーしきい値を設定した後、Custom SQL 列の [設定] をクリックして、ソーステーブルと宛先テーブルの SQL を記述し、カスタムメトリックを計算します。

    4. 設定が完了したら、OK をクリックします。

全文比較

  1. 全文比較には、次の方法があります。

    • [Source Data Contained in Destination]:宛先テーブルにソーステーブルのすべての行が含まれている場合、比較が成功したと見なされます。宛先テーブルには追加のデータが含まれている場合もあります。

    • [Comparison by Row]:ソーステーブルと宛先テーブルの行数と内容を行ごとに比較します。

      行ごとの比較を設定する際には、エラーしきい値を設定する必要があります。利用可能なオプションは、PercentageAbsolute ValueConsistent or Not です。

      説明
      • エラーしきい値の絶対値 = |ソーステーブルのメトリック値 - 宛先テーブルのメトリック値|

      • エラーしきい値のパーセンテージ = (|ソーステーブルのメトリック値 - 宛先テーブルのメトリック値|) / ソーステーブルのメトリック値 × 100%

  2. 全文比較の方法を設定した後、比較するフィールドを選択できます。デフォルトでは、同じ名前のフィールドが比較されます。異なる名前のフィールドを比較するには、[比較用のフィールドを追加] をクリックし、ソースフィールドと宛先フィールドを選択します。

    • [Source field]:比較対象のソーステーブルからフィールドを選択します。

    • [宛先フィールド]:比較対象の宛先テーブルからフィールドを選択します。

    • [Full-text Comparison Based on Primary Keys]:全文比較では、行の内容を比較する前に行を照合するためにプライマリキーが必要です。

    • 無視オプション:無視可能なオプションは、比較対象のカラムのデータの型によって異なります:

      カラムの型

      サポートされる無視オプション

      整数型(例:INTBIGINT

      NULL 値と値 0 の差異 を無視できます。

      文字列型(例:STRINGVARCHARTEXT

      NULL 値と空文字列の差異 を無視できます。

      数値型(整数および浮動小数点を含む)

      • 比較時に 浮動小数点精度 を設定できます。

      • NULL 値と値 0 の差異 を無視できます。

      • 小数部の末尾ゼロを無視 できます。

      整数と文字列の比較

      小数部の末尾ゼロを無視 できます。

      整数と浮動小数点の比較

      • 小数部の末尾ゼロを無視 できます。

      • NULL 値と値 0 の差異 を無視できます。

      浮動小数点と文字列の比較

      小数部の末尾ゼロを無視 できます。

    • [操作]:フィールド比較から冗長または不要なフィールドを Delete できます。

  3. 全文比較の結果は、後で確認できるよう、設定したデータソースに保存する必要があります。

    • [Data Source Type]:MaxCompute データソースのみ対応しています。

    • [Data Source Name]:ドロップダウンリストから、ワークスペースにバインドされている MaxCompute データソースを選択します。

    • [Connection Status]:選択した MaxCompute データソースが、テーブル比較用に設定されたリソースグループに接続できることを確認します。

    • [Table for Storage]:Table for Storage をクリックして、data_comparison_xxxxxx という名前のテーブルを作成します。

    • トンネルクォータ:Data Transmission Service の MaxCompute データ転送リソースを選択します。詳細については、「Data Transmission Service の専用リソースグループの購入と使用」をご参照ください。

スケジューリング設定

ルールを設定した後、データ比較ノードのスケジューリングプロパティを設定できます。詳細については、「ノードのスケジューリングプロパティの設定」をご参照ください。

ステップ3:デプロイと管理

ノードのデプロイ

ノードを設定した後、送信してデプロイします。デプロイされたノードは、スケジューリング設定に基づいて定期的に実行されます。

  1. ツールバーで、image アイコンをクリックしてノードを [保存] します。

  2. ツールバーで、image アイコンをクリックしてノードを [送信] します。

    Submission ダイアログボックスで、Change Description を入力します。必要に応じて、ノードの送信後にコードレビューとスモークテストを実行するかどうかを選択します。

    説明
    • ノードを送信する前に、Rerun attributeParent Nodes の依存関係を設定する必要があります。

    • コードレビューはコードの品質を保証し、欠陥のあるコードを含むタスクが本番環境にデプロイされるのを防ぎます。コードレビューが有効になっている場合、送信されたノードコードは、デプロイされる前にレビュー担当者によって承認される必要があります。詳細については、「コードレビュー」をご参照ください。

    • スケジュールされたノードが期待どおりに実行されることを保証するために、デプロイ前にスモークテストを実行することを推奨します。詳細については、「スモークテスト」をご参照ください。

標準モードのワークスペースを使用している場合は、タスクを送信した後、ノード編集ページの右上隅にある Deploy をクリックする必要もあります。この操作により、タスクが本番環境に公開されます。詳細については、「タスクのデプロイ」をご参照ください。

ノードの管理

データ比較ノードがデプロイされた後、オペレーションセンターでその運用を管理できます。詳細については、「オペレーションセンター」をご参照ください。

データ検証レポート

タスクのランタイムログでデータ検証レポートを表示できます。レポートには次の方法でアクセスできます。

  • オペレーションセンターで表示:

    1. image アイコンをクリックし、[すべての製品] > [データ開発・運用保守] > Operation and Maintenance Center (Workflow) を選択してオペレーションセンターに移動します。

    2. オペレーションセンターの左側メニューで、Auto Triggered Task O&M > Auto Triggered Instances に移動して、ノードのインスタンスを表示します。操作 列で More をクリックし、実行ログの表示 を選択します。

    3. ログページで、Data Comparison タブをクリックしてレポートを表示します。

  • ランタイムログから表示:

    データ開発ページからデータ比較ノードを実行すると、データ検証レポートへのリンクが表示されます。このリンクをクリックしてレポートを表示します。

    Click url below to view more details: xxx