All Products
Search
Document Center

DataWorks:Perbandingan data

Last Updated:Feb 25, 2026

Node Perbandingan Data DataWorks memungkinkan Anda membandingkan data antar tabel dengan berbagai metode dan menambahkannya ke alur kerja. Dokumen ini menjelaskan cara membuat tugas menggunakan node ini.

Ikhtisar

Node Perbandingan Data mendukung perbandingan langsung antar tabel, tidak hanya yang terdapat dalam integrasi data. Anda dapat menyesuaikan cakupan perbandingan dan menentukan metrik kustom untuk analisis data yang lebih fleksibel.

Batasan

Node ini hanya mendukung kelompok sumber daya Serverless. Untuk informasi selengkapnya tentang penggunaan kelompok sumber daya Serverless, lihat Use a Serverless resource group.

Langkah 1: Buat node perbandingan data

    1. Buka halaman Workspaces di Konsol DataWorks. Pada bilah navigasi atas, pilih Wilayah yang diinginkan. Temukan ruang kerja yang dituju, lalu pilih Shortcuts > Data Studio di kolom Actions.

  1. Pada panel navigasi di sebelah kiri, klik image untuk membuka Data Development. Di sebelah kanan Project Directory, klik image dan pilih Create Node > Data Quality > Data Comparison. Ikuti petunjuk di layar untuk memasukkan path dan nama node guna membuatnya.

Langkah 2: Konfigurasikan node perbandingan data

1. Konfigurasikan informasi tabel

Anda dapat mengonfigurasi node Perbandingan Data dengan menentukan tabel-tabel yang akan dibandingkan. Tabel berikut menjelaskan parameter-parameternya.

Parameter

Deskripsi

Resource Group

Pilih Resource Group yang sudah ada dari daftar drop-down.

Task resource usage

Sesuaikan jumlah sumber daya yang dikonsumsi oleh node Perbandingan Data saat dijalankan.

Data Source Type

Pilih tipe sumber data untuk tabel Source dan Destination yang ingin Anda bandingkan.

Data Source Name

Pilih sumber data untuk tabel Source dan Destination.

Connectivity

Setelah dikonfigurasi, klik Test untuk memverifikasi koneksi ke Resource Group.

Table name

Pilih tabel Source dan Destination yang akan dibandingkan dari daftar drop-down.

Catatan

Untuk Sumber data MaxCompute, Anda juga dapat memilih skema.

Where filter

Filter data pada tabel Source dan Destination untuk perbandingan.

Catatan
  • Anda tidak perlu memasukkan kata kunci WHERE.

  • Untuk tabel partisi, Anda harus menentukan partisi untuk menghindari pemindaian tabel penuh. Jika tidak, tugas akan gagal dengan error berikut: Semantic analysis exception - physical plan generation failed: Table(<MaxCompute Project Name>,<Table Name>) is full scan with all partitions, please specify partition predicates.

Shard Key

Konfigurasikan Shard Key untuk tabel Source. Node ini menggunakan kolom tersebut untuk memisahkan data. Disarankan menggunakan primary key atau kolom yang memiliki indeks sebagai Shard Key.

2. Konfigurasikan aturan perbandingan

Anda dapat memilih antara Metric-based Comparison atau Full-text Comparison untuk membandingkan data antara tabel Source dan Destination.

Perbandingan metrik

  • Table-level Comparison:

    Table Row Count Comparison: Membandingkan jumlah total baris antar tabel. Perbandingan berhasil jika selisihnya berada dalam ambang kesalahan yang ditentukan.

    Catatan

    Error Threshold dapat diatur sebagai Percentage, Absolute Value, atau Exact Match.

  • Column-level Comparison:

    Secara default, kolom dengan nama yang sama akan dibandingkan. Jika nama kolom Source dan Destination berbeda, klik Add Comparison Field untuk memetakan secara manual Source Field ke Destination Field.

    • Source Field: Pilih kolom dari tabel Source untuk dibandingkan.

    • Destination Field: Pilih kolom dari tabel Destination untuk dibandingkan.

    • Comparison Metric: Termasuk metrik umum seperti MAX, AVG, MIN, dan SUM.

      • Anda dapat mengonfigurasi beberapa metrik perbandingan untuk satu pasangan kolom Source dan Destination.

      • Setiap metrik perbandingan dapat memiliki ambang kesalahan dan opsi ignore yang berbeda.

    • Error Threshold: Perbandingan berhasil jika selisih yang dihitung berada dalam ambang batas ini. Anda dapat mengatur ambang batas sebagai Percentage, Absolute Value, atau Exact Match.

      Catatan
      • Error Threshold Absolute Value = |Source Metric Value - Destination Metric Value|

      • Error Threshold Percentage = (|Source Metric Value - Destination Metric Value|) / Source Metric Value × 100%

    • Ignore Options: Opsi ignore yang tersedia bervariasi tergantung pada tipe data kolom yang dibandingkan:

      Tipe kolom

      Opsi ignore yang didukung

      Tipe integer (seperti INT, BIGINT)

      Anda dapat mengabaikan Difference Between Null Value and Value 0.

      Tipe string (seperti STRING, VARCHAR, TEXT)

      Anda dapat mengabaikan Difference Between Null Value and Empty String.

      Tipe numerik (termasuk integer dan floating-point)

      • Anda dapat mengatur Floating Precision untuk perbandingan.

      • Anda dapat mengabaikan Difference Between Null Value and Value 0.

      • Anda dapat Ignore trailing zeros in the decimal part.

      Integer dibandingkan dengan string

      Anda dapat Ignore trailing zeros in the decimal part.

      Integer dibandingkan dengan floating-point

      • Anda dapat Ignore trailing zeros in the decimal part.

      • Anda dapat mengabaikan Difference Between Null Value and Value 0.

      Floating-point dibandingkan dengan string

      Anda dapat Ignore trailing zeros in the decimal part.

    • Operation: Anda dapat menghapus pemetaan kolom yang tidak diperlukan.

  • Custom Comparison:

    Anda dapat menambahkan metrik perbandingan SQL kustom untuk membandingkan tabel Source dan Destination. Ikuti langkah-langkah berikut:

    1. Klik Add Custom SQL Comparison Metric untuk menambahkan metrik. Anda dapat mengganti nama metrik tersebut.

      image

    2. Konfigurasikan Error Threshold sesuai kebutuhan. Anda dapat mengaturnya sebagai Percentage, Absolute Value, atau Exact Match.

    3. Setelah mengatur ambang batas, klik Configure pada kolom Custom SQL untuk menulis kueri SQL yang menghitung metrik kustom untuk tabel Source dan Destination.

    4. Setelah selesai mengonfigurasi, klik OK.

Perbandingan teks lengkap

  1. Saat Anda mengatur metode perbandingan ke Full-text Comparison, Anda dapat menyesuaikan Full-text Comparison Method untuk mendapatkan hasil yang berbeda.

    • Destination Data Contains Source Data: Perbandingan berhasil jika setiap baris dari tabel Source ada di tabel Destination. Dalam kasus ini, tabel Destination mungkin berisi lebih banyak baris daripada tabel Source.

    • Row-by-Row Comparison: Membandingkan tabel Source dan Destination baris demi baris untuk memeriksa perbedaan jumlah baris dan konten.

      Saat mengonfigurasi perbandingan baris demi baris, Anda harus mengatur Error Threshold. Ambang batas dapat berupa Percentage, Absolute Value, atau Exact Match.

      Catatan
      • Error Threshold Absolute Value = |Source Metric Value - Destination Metric Value|

      • Error Threshold Percentage = (|Source Metric Value - Destination Metric Value|) / Source Metric Value × 100%

  2. Setelah mengonfigurasi Full-text Comparison Method, pilih kolom yang akan dibandingkan. Secara default, kolom dengan nama yang sama akan dipetakan secara otomatis. Jika perlu membandingkan kolom dengan nama berbeda, klik Add Comparison Field untuk memilih secara manual Source Field dan Destination Field.

    • Source Field: Pilih kolom dari tabel Source untuk dibandingkan.

    • Destination Field: Pilih kolom dari tabel Destination untuk dibandingkan.

    • Comparison Primary Key: Untuk perbandingan teks lengkap, diperlukan primary key untuk mencocokkan baris sebelum membandingkan konten kolom lainnya.

    • Ignore Options: Opsi ignore yang tersedia bervariasi tergantung pada tipe data kolom yang dibandingkan:

      Tipe kolom

      Opsi ignore yang didukung

      Tipe integer (seperti INT, BIGINT)

      Anda dapat mengabaikan Difference Between Null Value and Value 0.

      Tipe string (seperti STRING, VARCHAR, TEXT)

      Anda dapat mengabaikan Difference Between Null Value and Empty String.

      Tipe numerik (termasuk integer dan floating-point)

      • Anda dapat mengatur Floating Precision untuk perbandingan.

      • Anda dapat mengabaikan Difference Between Null Value and Value 0.

      • Anda dapat Ignore trailing zeros in the decimal part.

      Integer dibandingkan dengan string

      Anda dapat Ignore trailing zeros in the decimal part.

      Integer dibandingkan dengan floating-point

      • Anda dapat Ignore trailing zeros in the decimal part.

      • Anda dapat mengabaikan Difference Between Null Value and Value 0.

      Floating-point dibandingkan dengan string

      Anda dapat Ignore trailing zeros in the decimal part.

    • Operation: Anda dapat Delete pemetaan kolom yang tidak diperlukan.

  3. Hasil Full-text Comparison disimpan di Sumber data yang Anda konfigurasi. Hal ini memungkinkan Anda melihat perbedaan tingkat baris secara detail setelah tugas selesai.

    • Data Source Type: Hanya sumber data MaxCompute yang didukung.

    • Data Source Name: Dari daftar drop-down, pilih Sumber data MaxCompute yang terikat ke ruang kerja.

    • Connectivity: Pastikan Sumber data MaxCompute yang dipilih dapat terhubung ke Resource Group yang telah Anda konfigurasi untuk perbandingan tabel.

    • Storage Table: Klik Generate Storage Table untuk membuat tabel dalam format data_comparison_xxxxxx.

    • Tunnel Quota: Pilih sumber daya transmisi data MaxCompute. Untuk informasi selengkapnya, lihat Membeli dan menggunakan kelompok sumber daya layanan transmisi data eksklusif.

3. Konfigurasi penjadwalan

Setelah mengonfigurasi aturan, klik Scheduling Configuration di sisi kanan halaman untuk mengatur properti penjadwalan node. Untuk informasi selengkapnya, lihat Node scheduling configuration.

Langkah 3: Menerapkan dan Memelihara

1. Deploy node

Setelah mengonfigurasi node, commit dan deploy node tersebut. Setelah dideploy, node akan berjalan secara berkala sesuai konfigurasi penjadwalannya.

  1. Klik ikon image di bilah alat atas untuk Save node.

  2. Klik ikon image di bilah alat atas untuk Deploy node.

Untuk petunjuk detail tentang deployment node, lihat Deploy a node or workflow.

2. Pertahankan node

Setelah node Perbandingan Data dideploy, Anda dapat melakukan tugas O&M terhadapnya di Operation Center. Untuk informasi selengkapnya, lihat Operation Center.

3. Lihat laporan validasi

Anda dapat melihat laporan validasi data di log eksekusi tugas. Anda dapat mengaksesnya dengan cara berikut:

  • Di Operation Center:

    1. Di pojok kiri atas, klik ikon image dan navigasikan ke All Products > Data Development And Operations > Operation Center (Workflow).

    2. Di panel navigasi kiri Operation Center, pilih Cycle Task Maintenance > Cycle Instance. Temukan instans untuk node Perbandingan Data Anda, klik More di kolom Operation, lalu pilih View Running Log.

    3. Di halaman log, klik tab Data Comparison untuk melihat laporan.

  • Dari log eksekusi:

    Saat Anda menjalankan node Perbandingan Data dari halaman Data Development, klik tautan di log eksekusi, seperti yang ditunjukkan pada gambar, untuk membuka laporan validasi data.

    image