全部产品
Search
文档中心

DataWorks:Perbandingan Data

更新时间:Oct 29, 2025

DataWorks menyediakan node perbandingan data yang memungkinkan Anda membandingkan data antar tabel dengan berbagai cara. Node ini dapat digunakan dalam alur kerja untuk mengembangkan tugas.

Pengenalan Node

Node perbandingan data mendukung integrasi data serta perbandingan antar tabel. Mereka juga mendukung ruang lingkup dan metrik perbandingan kustom, memungkinkan analisis data yang lebih komprehensif.

Keterbatasan

Hanya kelompok sumber daya Serverless yang didukung. Untuk informasi lebih lanjut tentang cara menambahkan dan menggunakan kelompok sumber daya Serverless, lihat Tambah dan gunakan kelompok sumber daya Serverless.

I. Buat node perbandingan data

    1. Buka halaman Workspaces di Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih Shortcuts > Data Studio di kolom Actions.

  1. Di panel navigasi sebelah kiri, klik image untuk mengakses Pengembangan Data. Di sebelah kanan Project Directory, klik image dan pilih Create Node > Data Quality > Data Comparison. Ikuti petunjuk antarmuka untuk memasukkan jalur node dan nama untuk menyelesaikan pembuatan node.

II. Konfigurasikan node perbandingan data

1. Konfigurasikan informasi tabel perbandingan

Node perbandingan data hanya memerlukan konfigurasi sederhana dari informasi tabel perbandingan untuk membandingkan data dari sumber data yang berbeda. Detail konfigurasi adalah sebagai berikut:

Parameter

Deskripsi

Resource Group

Pilih kelompok sumber daya yang ada dari daftar drop-down.

Task Resource Usage

Jumlah unit komputasi (CUs) yang dialokasikan untuk menjalankan node perbandingan data. Anda dapat mengonfigurasi parameter ini sesuai kebutuhan.

Data Source Type

Pilih jenis sumber data tempat tabel sumber dan tujuan masing-masing termasuk.

Data Source Name

Pilih sumber data tempat tabel sumber dan tujuan masing-masing termasuk.

Connectivity

Setelah konfigurasi selesai, klik Test untuk memeriksa apakah sumber data terhubung ke kelompok sumber daya.

Table Name

Pilih tabel sumber dan tujuan yang akan dibandingkan dari daftar drop-down.

Where Filter

Masukkan kondisi WHERE untuk menyaring data di tabel sumber dan tujuan.

Catatan
  • Anda tidak perlu memasukkan kata kunci WHERE saat mengonfigurasi.

  • Saat membandingkan tabel partisi, kami sarankan Anda menentukan partisi sebelum eksekusi. Jika tidak, kesalahan berikut akan terjadi: Semantic analysis exception - physical plan generation failed: Table(<MaxCompute project name>,<table name>) is full scan with all partitions, please specify partition predicates.

Shard Key

Tentukan kolom di tabel sumber sebagai kunci shard. Kami sarankan Anda menggunakan kunci utama atau kolom terindeks sebagai kunci shard.

2. Konfigurasikan aturan perbandingan

Aturan perbandingan dapat diatur untuk Metric-based Comparison atau Full-text Comparison, memungkinkan Anda membandingkan sumber data dan target menggunakan aturan perbandingan yang berbeda.

Perbandingan berbasis metrik

  • Table-level Comparison:

    Table Row Count Comparison: Perbandingan berbasis metrik mendukung perbandingan tingkat tabel, seperti jumlah baris dalam tabel. Jika laju perbedaan hasil perbandingan kurang dari ambang batas perbedaan yang ditentukan oleh parameter Ambang Kesalahan, perbandingan berhasil.

    Catatan

    Ambang kesalahan mendukung metode penilaian Percentage, Absolute Value, dan Exact Match.

  • Field-level Comparison:

    Untuk perbandingan tingkat bidang, bidang dengan nama yang sama dibandingkan secara default. Jika nama bidang di tabel sumber dan tujuan berbeda, Anda dapat mengklik tombol Add Comparison Field untuk secara manual memilih bidang sumber dan tujuan untuk perbandingan.

    • Source Field: Pilih bidang dari tabel sumber yang ingin Anda bandingkan.

    • Destination Field: Pilih bidang dari tabel tujuan yang ingin Anda bandingkan.

    • Comparison Metric: Metrik perbandingan mencakup MAX, AVG, MIN, dan SUM, yaitu empat metrik umum untuk perbandingan.

      • Anda dapat mengonfigurasi beberapa metrik perbandingan untuk sepasang bidang tabel sumber dan tujuan.

      • Anda dapat menetapkan parameter Ambang Kesalahan dan Objek Diabaikan ke nilai yang berbeda untuk metrik perbandingan yang berbeda.

    • Error Threshold: Laju perbedaan yang dihasilkan saat membandingkan tabel sumber dan tujuan akan dibandingkan dengan laju perbedaan yang dikonfigurasi. Jika laju perbedaan hasil perbandingan kurang dari ambang kesalahan, perbandingan dianggap berhasil. Anda dapat membandingkan menggunakan tiga jenis ambang batas: Percentage, Absolute Value, dan Exact Match.

      Catatan
      • Error Threshold Absolute Value = |Source Table Metric Value - Destination Table Metric Value|

      • Error Threshold persentase = (|Nilai metrik tabel sumber - Nilai metrik tabel tujuan|) / Nilai metrik tabel sumber × 100%

    • Ignore: Jenis bidang yang berbeda mendukung konfigurasi abaikan yang berbeda:

      Jenis bidang untuk perbandingan

      Opsi abaikan yang didukung

      Bidang tipe integer (seperti INT, BIGINT, dll.)

      Anda dapat mengabaikan Differences Between NULL And 0 Values.

      Bidang tipe string (seperti STRING, VARCHAR, TEXT, dll.)

      Anda dapat mengabaikan Differences Between NULL And Empty Strings.

      Bidang tipe numerik (termasuk tipe integer dan floating-point)

      • Anda dapat menetapkan Floating-point Precision untuk perbandingan.

      • Anda dapat mengabaikan Differences Between NULL And 0 Values.

      • Anda dapat Ignore Trailing Zeros In Decimal Parts.

      Perbandingan tipe integer dan string

      Anda dapat Ignore Trailing Zeros In Decimal Parts.

      Perbandingan tipe integer dan floating-point

      • Anda dapat Ignore Trailing Zeros In Decimal Parts.

      • Anda dapat mengabaikan Differences Between NULL And 0 Values.

      Perbandingan tipe floating-point dan string

      Anda dapat Ignore Trailing Zeros In Decimal Parts.

    • Operation: Anda dapat menghapus bidang perbandingan tambahan atau bidang yang tidak perlu dibandingkan dari perbandingan bidang.

  • Custom Comparison:

    Anda dapat melakukan operasi berikut untuk menambahkan metrik perbandingan SQL kustom untuk membandingkan data di tabel sumber dan tujuan:

    1. Klik tombol Add Custom SQL Comparison Metric untuk menambahkan metrik yang ingin Anda bandingkan. Anda dapat secara manual mengubah nama metrik.

      image

    2. Atur ulang Error Threshold sesuai kebutuhan. Anda dapat mengonfigurasi Percentage, Absolute Value, dan Exact Match.

    3. Setelah mengonfigurasi ambang kesalahan, Anda dapat mengklik konfigurasi di kolom Custom SQL untuk mengonfigurasi SQL untuk tabel sumber dan tujuan untuk menyesuaikan metrik perhitungan.

    4. Setelah konfigurasi selesai, klik OK untuk menyelesaikan konfigurasi perbandingan kustom.

Perbandingan teks penuh

  1. Saat mengonfigurasi metode perbandingan sebagai perbandingan teks penuh, Anda dapat menyesuaikan Full-text Comparison Method untuk mencapai efek perbandingan yang berbeda.

    • Destination Data Contains Source Data: Selama setiap baris data sumber ada di tujuan, perbandingan dianggap berhasil. Dalam hal ini, data tujuan mungkin berisi lebih banyak data daripada sumber.

    • Row-by-Row Comparison: Bandingkan perbedaan jumlah baris dan isi antara sumber dan tujuan baris-per-baris.

      Saat mengonfigurasi perbandingan baris-per-baris, Anda perlu mengonfigurasi Error Threshold yang sesuai, yang mendukung Percentage, Absolute Value, dan Exact Match.

      Catatan
      • Error Threshold Absolute Value = |Source Table Metric Value - Destination Table Metric Value|

      • Error Threshold persentase = (|Nilai metrik tabel sumber - Nilai metrik tabel tujuan|) / Nilai metrik tabel sumber × 100%

  2. Setelah menyelesaikan konfigurasi Full-text Comparison Method, Anda dapat memilih dan mengonfigurasi bidang yang akan dibandingkan. Secara default, bidang dengan nama yang sama akan dibandingkan. Untuk membandingkan bidang dengan nama yang berbeda, Anda perlu secara manual mengklik Tambah Bidang Perbandingan dan memilih bidang sumber dan tujuan. Anda dapat merujuk pada konten berikut:

    • Source Field: Pilih bidang tabel sumber yang akan dibandingkan.

    • Destination Field: Pilih bidang tabel tujuan yang akan dibandingkan.

    • Comparison Primary Key: Perbandingan teks penuh harus didasarkan pada kunci utama untuk membandingkan apakah sisanya dari konten sama.

    • Ignore: Jenis bidang yang berbeda mendukung konfigurasi abaikan yang berbeda:

      Jenis bidang untuk perbandingan

      Opsi abaikan yang didukung

      Bidang tipe integer (seperti INT, BIGINT, dll.)

      Anda dapat mengabaikan Differences Between NULL And 0 Values.

      Bidang tipe string (seperti STRING, VARCHAR, TEXT, dll.)

      Anda dapat mengabaikan Differences Between NULL And Empty Strings.

      Bidang tipe numerik (termasuk tipe integer dan floating-point)

      • Anda dapat menetapkan Floating-point Precision untuk perbandingan.

      • Anda dapat mengabaikan Differences Between NULL And 0 Values.

      • Anda dapat Ignore Trailing Zeros In Decimal Parts.

      Perbandingan tipe integer dan string

      Anda dapat Ignore Trailing Zeros In Decimal Parts.

      Perbandingan tipe integer dan floating-point

      • Anda dapat Ignore Trailing Zeros In Decimal Parts.

      • Anda dapat mengabaikan Differences Between NULL And 0 Values.

      Perbandingan tipe floating-point dan string

      Anda dapat Ignore Trailing Zeros In Decimal Parts.

    • Operation: Anda dapat Delete bidang perbandingan tambahan atau bidang yang tidak perlu dibandingkan dari perbandingan bidang.

  3. Hasil perbandingan teks penuh perlu disimpan sehingga Anda dapat melihat detail perbandingan data setelah perbandingan selesai. Anda dapat mengonfigurasi sumber data untuk menyimpan hasil perbandingan.

    • Data Source Type: Hanya sumber data MaxCompute yang didukung.

    • Data Source Name: Pilih sumber data MaxCompute yang terikat ke ruang kerja ini dari daftar drop-down.

    • Connectivity: Pastikan bahwa sumber data MaxCompute yang dipilih memiliki konektivitas normal dengan kelompok sumber daya yang dikonfigurasi saat mengonfigurasi informasi tabel perbandingan.

    • Storage Table: Klik Generate Storage Table untuk menghasilkan tabel penyimpanan dalam format data_comparison_xxxxxx.

    • Tunnel Quota: Pilih sumber daya transmisi data untuk MaxCompute dari daftar drop-down. Untuk informasi lebih lanjut, lihat Beli dan gunakan kelompok sumber daya eksklusif untuk Integrasi Data.

3. Konfigurasi penjadwalan

Setelah menyelesaikan konfigurasi aturan, Anda dapat mengklik Scheduling Configuration di sebelah kanan halaman untuk mengonfigurasi penjadwalan untuk node perbandingan data. Untuk detail konfigurasi, lihat Konfigurasikan penjadwalan untuk sebuah node.

III. Penyebaran dan operasi

1. Terapkan node perbandingan data

Setelah tugas pada node perbandingan data dikonfigurasi, Anda harus mengirimkan dan menyebarkan node tersebut. Setelah Anda mengirimkan dan menyebarkan node, sistem akan menjalankan node secara berkala berdasarkan konfigurasi penjadwalan.

  1. Klik ikon image di bilah alat atas untuk menyimpan node.

  2. Klik ikon image di bilah alat atas untuk menyebarkan node.

Untuk detail operasi dalam menyebarkan node, lihat Sebarkan sebuah node atau alur kerja.

2. Operasikan node perbandingan data

Setelah node perbandingan data berhasil disebarkan, Anda dapat melakukan operasi pada node di Pusat Operasi. Untuk informasi lebih lanjut, lihat Pusat Operasi.

3. Lihat laporan validasi data

Anda dapat melihat laporan validasi data di log eksekusi tugas melalui metode berikut:

  • Lihat di Pusat Operasi:

    1. Klik tombol image di pojok kiri atas halaman dan pilih All Products > Data Development And Operations > Operation Center (Workflow) untuk masuk ke Pusat Operasi.

    2. Di panel navigasi kiri Pusat Operasi, klik Cycle Task Maintenance > Cycle Instance untuk melihat instansi yang dihasilkan oleh node perbandingan data. Klik kolom Operation dengan nama More dan pilih View Running Log.

    3. Di halaman log, klik tab Data Comparison untuk melihat.

  • Lihat di tab Log:

    Jika Anda hanya menjalankan node perbandingan data di halaman Pengembangan Data, Anda dapat mengklik tautan yang ditunjukkan pada gambar di bawah ini di halaman Pengembangan Data, yang akan mengarahkan Anda ke halaman laporan validasi data.

    image