全部产品
Search
文档中心

DataWorks:Data comparison node

更新时间:Nov 10, 2025

Node perbandingan data DataWorks memungkinkan Anda membandingkan data antar tabel yang berbeda dengan berbagai cara. Node ini dapat digunakan dalam alur kerja. Topik ini menjelaskan cara menggunakan node perbandingan data untuk mengembangkan suatu tugas.

Pengenalan node

Node perbandingan data tidak hanya digunakan untuk integrasi data, tetapi juga mendukung perbandingan data antar tabel. Anda dapat menentukan rentang dan metrik perbandingan kustom untuk perbandingan data yang lebih fleksibel.

Batasan

Node perbandingan data hanya mendukung kelompok sumber daya arsitektur tanpa server. Untuk informasi selengkapnya tentang kelompok sumber daya arsitektur tanpa server, lihat Manajemen kelompok sumber daya.

Prosedur

Langkah 1: Membuat node perbandingan data

  1. Buka halaman DataStudio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down, lalu klik Go to Data Development.

  2. Klik ikon image dan pilih Create Node > Data Quality > Data Comparison.

    Ikuti petunjuk di layar untuk menentukan path dan nama node.

Langkah 2: Mengonfigurasi node perbandingan data

Mengonfigurasi informasi tabel untuk perbandingan

Anda dapat membandingkan data tabel dari sumber data yang berbeda dengan mengonfigurasi informasi dasar tabel tersebut. Tabel berikut menjelaskan parameter-parameternya.

Parameter

Deskripsi

Resource Group

Pilih kelompok sumber daya yang sudah ada dari daftar drop-down.

Task Resource Usage

Sesuaikan jumlah sumber daya yang dikonsumsi oleh node perbandingan data saat dijalankan.

Data Source Type

Pilih jenis sumber data untuk tabel sumber dan tabel tujuan yang ingin Anda bandingkan.

Data Source Name

Pilih sumber data untuk tabel sumber dan tabel tujuan yang ingin Anda bandingkan.

Connectivity

Setelah menyelesaikan konfigurasi, klik Test untuk memeriksa apakah sumber data terhubung ke kelompok sumber daya.

Table Name

Pilih tabel sumber dan tabel tujuan dari daftar drop-down.

WHERE Filter

Filter data pada tabel sumber dan tabel tujuan yang ingin Anda bandingkan.

Shard Key

Konfigurasikan kunci shard untuk tabel sumber. Kunci shard adalah kolom yang digunakan untuk mempartisi data. Disarankan untuk menggunakan kunci primer atau kolom terindeks sebagai kunci shard.

Mengonfigurasi aturan perbandingan

Anda dapat mengonfigurasi aturan Metric-based Comparison atau Full-text Comparison untuk membandingkan data sumber dengan data tujuan.

Perbandingan berbasis metrik

  • Table Row Count Comparison:

    Perbandingan berbasis metrik mendukung perbandingan tingkat tabel. Anda dapat membandingkan jumlah baris dalam tabel. Perbandingan berhasil jika selisihnya kurang dari ambang kesalahan yang ditentukan.

    Catatan

    Ambang kesalahan dapat diatur sebagai Percentage, Absolute Value, atau Consistent Or Not.

  • Field-level Comparison:

    Untuk perbandingan tingkat bidang, bidang dengan nama yang sama dibandingkan secara default. Jika tabel sumber dan tabel tujuan memiliki nama bidang yang berbeda, klik Add Field for Comparison untuk memilih secara manual bidang sumber dan bidang tujuan yang akan dibandingkan.

    • Source Field: Pilih bidang dari tabel sumber yang akan dibandingkan.

    • Destination Field: Pilih bidang dari tabel tujuan untuk dibandingkan.

    • Comparison Metric: Pilih metrik perbandingan. Nilai yang valid meliputi MAX, AVG, MIN, dan SUM.

      • Anda dapat mengonfigurasi beberapa metrik perbandingan untuk sepasang bidang sumber dan tujuan.

      • Anda dapat mengonfigurasi ambang kesalahan dan pengaturan abaikan yang berbeda untuk metrik perbandingan yang berbeda.

    • Error Threshold: Selisih dari hasil perbandingan dibandingkan dengan ambang batas ini. Perbandingan berhasil jika selisihnya kurang dari ambang kesalahan. Anda dapat mengatur ambang batas sebagai Percentage, Absolute Value, atau Consistent Or Not.

      Catatan
      • Absolute difference = |Metric value of source table - Metric value of destination table|

      • Percentage difference = (|Metric value of source table - Metric value of destination table|) / (Metric value of source table) × 100%

    • Ignore: Jenis bidang yang berbeda mendukung konfigurasi abaikan yang berbeda:

      Jenis bidang untuk perbandingan

      Opsi abaikan yang didukung

      Bidang tipe integer (seperti INT, BIGINT, dll.)

      Anda dapat mengabaikan Differences Between NULL And 0 Values.

      Bidang tipe string (seperti STRING, VARCHAR, TEXT, dll.)

      Anda dapat mengabaikan Differences Between NULL And Empty Strings.

      Bidang tipe numerik (termasuk tipe integer dan floating-point)

      • Anda dapat mengatur Floating-point Precision untuk perbandingan.

      • Anda dapat mengabaikan Differences Between NULL And 0 Values.

      • Anda dapat Ignore Trailing Zeros In Decimal Parts.

      Perbandingan tipe integer dan string

      Anda dapat Ignore Trailing Zeros In Decimal Parts.

      Perbandingan tipe integer dan floating-point

      • Anda dapat Ignore Trailing Zeros In Decimal Parts.

      • Anda dapat mengabaikan Differences Between NULL And 0 Values.

      Perbandingan tipe floating-point dan string

      Anda dapat Ignore Trailing Zeros In Decimal Parts.

    • Operation: Hapus bidang yang berlebihan atau tidak diperlukan dari perbandingan bidang.

  • Custom Comparison:

    Anda dapat menambahkan metrik perbandingan SQL (Structured Query Language) kustom untuk membandingkan tabel sumber dan tabel tujuan. Lakukan langkah-langkah berikut:

    1. Klik Add Custom SQL Comparison Metric untuk menambahkan metrik yang Anda butuhkan. Anda dapat memodifikasi dan mengganti nama metrik secara manual.

      image

    2. Sesuaikan Error Threshold sesuai kebutuhan. Anda dapat mengaturnya sebagai Percentage, Absolute Value, atau Consistent Or Not.

    3. Setelah mengonfigurasi ambang kesalahan, klik Configure pada kolom Custom SQL. Konfigurasikan pernyataan SQL untuk tabel sumber dan tabel tujuan guna menentukan metrik perbandingan kustom.

    4. Setelah menyelesaikan konfigurasi, klik Confirm untuk menyelesaikan konfigurasi perbandingan kustom.

Perbandingan teks lengkap

  1. Saat memilih perbandingan teks lengkap, Anda dapat memilih jenis perbandingan teks lengkap untuk mencapai hasil yang berbeda.

    • Destination Data Contains Source Data: Perbandingan berhasil jika setiap baris dari data sumber ada di data tujuan. Dalam kasus ini, data tujuan mungkin berisi lebih banyak baris daripada data sumber.

    • Row-by-row Comparison: Bandingkan data sumber dan data tujuan baris demi baris untuk menemukan perbedaan dalam jumlah baris dan konten.

      Saat mengonfigurasi perbandingan baris demi baris, Anda harus mengonfigurasi ambang kesalahan. Anda dapat mengaturnya sebagai Percentage, Absolute Value, atau Consistent Or Not.

      Catatan
      • Absolute difference = |Metric value of source table - Metric value of destination table|

      • Percentage difference = (|Metric value of source table - Metric value of destination table|) / (Metric value of source table) × 100%

  2. Setelah mengonfigurasi jenis perbandingan teks lengkap, pilih bidang yang akan dibandingkan. Secara default, bidang dengan nama yang sama dibandingkan. Untuk membandingkan bidang dengan nama berbeda, klik Add Field for Comparison dan pilih bidang sumber serta bidang tujuan.

    • Source Field: Pilih bidang dari tabel sumber yang akan dibandingkan.

    • Destination Field: Pilih bidang dari tabel tujuan untuk dibandingkan.

    • Comparison Primary Key: Untuk perbandingan teks lengkap, kunci primer digunakan sebagai dasar untuk membandingkan konten bidang lainnya.

    • Ignore: Jenis bidang yang berbeda mendukung konfigurasi abaikan yang berbeda:

      Jenis bidang untuk perbandingan

      Opsi abaikan yang didukung

      Bidang tipe integer (seperti INT, BIGINT, dll.)

      Anda dapat mengabaikan Differences Between NULL And 0 Values.

      Bidang tipe string (seperti STRING, VARCHAR, TEXT, dll.)

      Anda dapat mengabaikan Differences Between NULL And Empty Strings.

      Bidang tipe numerik (termasuk tipe integer dan floating-point)

      • Anda dapat mengatur Floating-point Precision untuk perbandingan.

      • Anda dapat mengabaikan Differences Between NULL And 0 Values.

      • Anda dapat Ignore Trailing Zeros In Decimal Parts.

      Perbandingan tipe integer dan string

      Anda dapat Ignore Trailing Zeros In Decimal Parts.

      Perbandingan tipe integer dan floating-point

      • Anda dapat Ignore Trailing Zeros In Decimal Parts.

      • Anda dapat mengabaikan Differences Between NULL And 0 Values.

      Perbandingan tipe floating-point dan string

      Anda dapat Ignore Trailing Zeros In Decimal Parts.

    • Operation: Delete bidang yang berlebihan atau tidak diperlukan dari perbandingan bidang.

  3. Hasil perbandingan teks lengkap harus disimpan agar Anda dapat melihat detailnya setelah perbandingan selesai. Anda dapat mengonfigurasi sumber data untuk menyimpan hasilnya.

    • Data Source Type: Hanya sumber data MaxCompute yang didukung.

    • Data Source Name: Pilih sumber data MaxCompute yang terkait dengan ruang kerja dari daftar drop-down.

    • Connectivity: Pastikan sumber data MaxCompute yang dipilih dapat terhubung ke kelompok sumber daya yang telah Anda konfigurasi untuk perbandingan tabel.

    • Storage Table: Klik Generate Storage Table untuk membuat tabel penyimpanan dengan nama dalam format data_comparison_xxxxxx.

    • Tunnel Quota: Pilih sumber daya transmisi data MaxCompute dari daftar drop-down. Untuk informasi selengkapnya, lihat Pembelian dan penggunaan kelompok sumber daya eksklusif untuk Data Transmission Service.

Konfigurasi penjadwalan

Setelah mengonfigurasi aturan, Anda dapat mengonfigurasi properti penjadwalan untuk node perbandingan data. Untuk informasi selengkapnya, lihat Konfigurasi penjadwalan node.

Langkah 3: Men-deploy dan memelihara node

Men-deploy node perbandingan data

Setelah mengonfigurasi tugas node, Anda harus melakukan commit dan deploy. Setelah tugas di-commit dan di-deploy, tugas tersebut akan berjalan secara berkala berdasarkan konfigurasi penjadwalan.

  1. Klik ikon image di bilah alat untuk menyimpan node.

  2. Klik ikon image di bilah alat untuk melakukan commit node.

    Pada kotak dialog Commit, masukkan Change Description. Jika diperlukan, pilih apakah akan melakukan tinjauan kode dan pengujian asap setelah node di-commit.

    Catatan
    • Anda harus mengatur properti Rerun dan Parent Nodes untuk node sebelum dapat melakukan commit.

    • Tinjauan kode membantu mengontrol kualitas kode tugas Anda. Ini mencegah kesalahan tugas yang dapat terjadi jika kode yang salah dipublikasikan ke lingkungan produksi tanpa ditinjau. Jika Anda mengaktifkan tinjauan kode, kode yang di-commit harus disetujui oleh peninjau sebelum dapat di-deploy. Untuk informasi selengkapnya, lihat Tinjauan kode.

    • Untuk memastikan tugas node terjadwal berjalan sesuai harapan, kami sarankan Anda melakukan pengujian asap pada tugas sebelum men-deploy-nya. Untuk informasi selengkapnya, lihat Pengujian asap.

Jika Anda menggunakan ruang kerja dalam mode standar, Anda juga harus mengklik Deploy di pojok kanan atas halaman pengeditan node setelah tugas di-commit. Ini akan mempublikasikan tugas ke lingkungan produksi. Untuk informasi selengkapnya, lihat Men-deploy tugas.

Memelihara node perbandingan data

Setelah node perbandingan data di-deploy, Anda dapat melakukan operasi dan pemeliharaan (O&M) pada node tersebut di Pusat Operasi. Untuk informasi selengkapnya, lihat Pusat Operasi.

Menampilkan laporan validasi data

Anda dapat melihat laporan validasi data di log eksekusi tugas. Anda dapat melihat laporan dengan cara berikut:

  • Lihat di Pusat Operasi:

    1. Klik ikon image dan pilih All Products > Data Development and O&M > Operation Center (Workflow) untuk membuka Pusat Operasi.

    2. Di panel navigasi kiri Pusat Operasi, pilih Auto Triggered Task O&M > Recurring Instances untuk melihat instans yang dihasilkan untuk node perbandingan data. Di kolom Operation, klik More lalu pilih View Runtime Log.

    3. Di halaman log, klik tab Data Comparison untuk melihat laporan.

  • Lihat di log waktu proses:

    Jika Anda menjalankan node perbandingan data dari halaman Data Development, Anda dapat mengklik tautan di log waktu proses, seperti yang ditunjukkan pada gambar berikut, untuk membuka halaman laporan validasi data.

    image