All Products
Search
Document Center

DataWorks:Konfigurasikan aturan untuk memantau kualitas data

Last Updated:Apr 21, 2026

Gunakan Data Quality untuk mendeteksi data kotor dan perubahan pada data sumber dalam pipeline profil pengguna sebelum mencapai pemrosesan downstream.

Prasyarat

Sebelum memulai, pastikan Anda telah menyelesaikan tutorial berikut secara berurutan:

  • Sinkronisasi data — menyinkronkan ods_user_info_d dari ApsaraDB RDS for MySQL dan user_log.txt dari Object Storage Service (OSS) ke tabel MaxCompute menggunakan Data Integration

  • Proses data — memproses data yang telah disinkronkan menjadi data profil pengguna dasar di DataStudio

Latar Belakang

Data Quality memantau tabel MaxCompute berdasarkan aturan yang dikonfigurasi dan membantu Anda menjawab pertanyaan seperti:

  • Apakah pekerjaan sinkronisasi hari ini menulis data ke partisi yang diharapkan?

  • Apakah fluktuasi jumlah baris di tabel hasil mengindikasikan adanya anomali lalu lintas?

  • Apakah terdapat primary key duplikat yang dapat merusak agregasi downstream?

Saat pelanggaran aturan terdeteksi, Data Quality akan memblokir penjadwalan node—mencegah penyebaran data kotor—atau mengirim notifikasi peringatan, tergantung pada jenis aturan yang Anda konfigurasi.

Jenis aturan dan respons terhadap pelanggaran:

Jenis aturanAmbang batas kritis terlampauiPengecualian lainnya
Strong ruleNode ditandai sebagai Failed; node turunan diblokirPemberitahuan peringatan dikirim
Weak rulePeringatan kritis dikirim; node turunan tidak diblokirPemberitahuan peringatan dikirim

Tutorial ini mengonfigurasi aturan pemantauan untuk tiga tabel dalam pipeline profil pengguna:

TabelKebutuhan pemantauan
ods_raw_log_d_odpsPemeriksaan jumlah baris harian tidak nol (strong rule)
ods_user_info_d_odpsPemeriksaan jumlah baris harian tidak nol (strong rule) + pemeriksaan keunikan primary key (weak rule)
dwd_log_info_di_odpsTidak memerlukan aturan
dws_user_info_all_di_odpsTidak memerlukan aturan
ads_user_info_1d_odpsPemeriksaan volatilitas jumlah baris selama 7 hari (weak rule) + pemeriksaan jumlah baris tidak nol (strong rule)

Buka halaman Configure by table

  1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah target. Di panel navigasi kiri, pilih Data Governance > Data Quality. Pilih ruang kerja target dari daftar drop-down, lalu klik Go to Data Quality.

  2. Di panel navigasi kiri halaman Data Quality, pilih Configure Rules > Configure by Table.

  3. Di halaman Configure by Table, filter tabel menggunakan pengaturan berikut:

    • Connection: MaxCompute

    • MaxCompute category: pilih proyek saat ini di lingkungan produksi (tutorial ini menggunakan workshop2024_01)

  4. Di sisi kanan, cari tabel ods_raw_log_d_odps, ods_user_info_d_odps, dan ads_user_info_1d_odps. Untuk setiap tabel, klik Create Monitor di kolom Actions untuk membuka halaman Table Quality Details.

Konfigurasikan aturan pemantauan untuk ods_raw_log_d_odps

Tabel ods_raw_log_d_odps menyimpan log akses website yang disinkronkan dari OSS. Pemeriksaan jumlah baris tidak nol memastikan pekerjaan sinkronisasi telah menulis data sebelum pemrosesan downstream dimulai.

Langkah 1: Buat monitor

Monitor menentukan partisi mana yang akan diperiksa dan apa yang memicu pemeriksaan tersebut.

  1. Di tab Monitor, klik Create Monitor.

  2. Atur parameter berikut:

    Untuk detail lengkap parameter, lihat Configure a monitoring rule for a single table.
    ParameterNilai
    Data Rangedt=$[yyyymmdd-1]
    Trigger MethodDipicu oleh Node Scheduling di Lingkungan Produksi — pilih node ods_raw_log_d_odps yang dibuat selama sinkronisasi data
    Monitoring RuleBiarkan kosong. Aturan akan dilampirkan pada langkah berikutnya.

Langkah 2: Buat aturan pemantauan

  1. Di tab Rule Management, pada bagian Monitor Perspective, pilih monitor raw_log_number_of_table_rows_not_0. Klik Create Rule.

  2. Di tab System Template, temukan aturan Table is not empty lalu klik Use.

  3. Di sisi kanan panel, atur Degree of Importance menjadi Strong Rule.

    Dengan strong rule, jika jumlah baris di partisi target adalah 0, Data Quality akan memicu peringatan, menetapkan node ods_raw_log_d_odps sebagai Failed, dan memblokir semua node turunan.
  4. Klik Determine.

    Untuk parameter aturan lainnya, lihat Configure a monitoring rule for a single table.

Langkah 3: Jalankan pengujian

Jalankan pengujian untuk memverifikasi konfigurasi aturan berfungsi sesuai harapan.

  1. Di bagian Monitor Perspective, pilih monitor raw_log_number_of_table_rows_not_0 lalu klik Test Run.

  2. Di kotak dialog Test Run, atur Scheduling Time lalu klik Test Run.

  3. Setelah pengujian selesai, klik View Details untuk memeriksa apakah data lolos.

Langkah 4: Berlangganan peringatan

Berlangganan monitor untuk menerima notifikasi peringatan saat terjadi pelanggaran aturan.

  1. Di bagian Monitor Perspective, pilih monitor raw_log_number_of_table_rows_not_0 lalu klik Alert Subscription.

  2. Di kotak dialog Alert Subscription, konfigurasi Notification Method dan Recipient, lalu klik Save.

  3. Untuk melihat semua monitor yang telah Anda langgani, pilih Quality O&M > Monitor di panel navigasi kiri, lalu pilih My Subscriptions.

Konfigurasikan aturan pemantauan untuk ods_user_info_d_odps

Tabel ods_user_info_d_odps menyimpan informasi pengguna dasar yang disinkronkan dari ApsaraDB RDS for MySQL. Dua aturan diterapkan: strong rule untuk mendeteksi partisi kosong dan weak rule untuk memeriksa keunikan primary key.

Langkah 1: Buat monitor

  1. Di tab Monitor, klik Create Monitor.

  2. Atur parameter berikut:

    Untuk detail lengkap parameter, lihat Configure a monitoring rule for a single table.
    ParameterNilai
    Data Rangedt=$[yyyymmdd-1]
    Trigger MethodDipicu oleh Node Scheduling di Lingkungan Produksi — pilih node ods_user_info_d_odps yang dibuat selama sinkronisasi data
    Monitoring RuleBiarkan kosong. Aturan akan dilampirkan pada langkah berikutnya.

Langkah 2: Buat aturan pemantauan

  1. Di tab Rule Management, pada bagian Monitor Perspective, pilih monitor user_info_quality_control. Klik Create Rule.

  2. Di tab System Template, temukan aturan Table is not empty lalu klik Use. Atur Degree of Importance menjadi Strong Rule.

    Jika jumlah baris di partisi target adalah 0, Data Quality akan memicu peringatan, menetapkan node ods_user_info_d_odps sebagai Failed, dan memblokir semua node turunan.
  3. Di tab System Template, temukan aturan Unique value. fixed value lalu klik Use. Konfigurasi hal berikut:

    • Rule Scope: uid(STRING)

    • Monitoring Threshold: Untuk ambang batas Normal, atur operator perbandingan menjadi = dan nilai menjadi 0

    • Degree of Importance: Weak rules

  4. Klik Determine.

    Untuk parameter aturan lainnya, lihat Configure a monitoring rule for a single table.

Langkah 3: Jalankan pengujian dan berlangganan peringatan

Ikuti langkah-langkah yang sama seperti pada Langkah 3: Jalankan pengujian dan Langkah 4: Berlangganan peringatan untuk ods_raw_log_d_odps, menggunakan monitor user_info_quality_control.

Konfigurasikan aturan pemantauan untuk ads_user_info_1d_odps

Tabel ads_user_info_1d_odps merupakan tabel hasil akhir untuk analisis profil pengguna. Dua aturan diterapkan: weak rule yang memantau volatilitas jumlah baris selama 7 hari untuk mendeteksi perubahan lalu lintas yang tidak terduga, dan strong rule untuk memastikan tabel tidak kosong.

Apa yang dideteksi oleh aturan volatilitas:

Tingkat peringatanKondisiRespons
NormalPerubahan jumlah baris ≤ 10% selama 7 hariTidak ada tindakan
Orange alertPerubahan jumlah baris > 10% selama 7 hariPemberitahuan peringatan dikirim
Red alertPerubahan jumlah baris > 50% selama 7 hariPemberitahuan peringatan dikirim
Aturan volatilitas merupakan weak rule, sehingga meskipun ambang batas merah terlampaui, hanya peringatan kritis yang dikirim—node turunan tidak diblokir.

Langkah 1: Buat monitor

  1. Di tab Monitor, klik Create Monitor.

  2. Atur parameter berikut:

    Untuk detail lengkap parameter, lihat Configure a monitoring rule for a single table.
    ParameterNilai
    Data Rangedt=$[yyyymmdd-1]
    Trigger MethodDipicu oleh Node Scheduling di Lingkungan Produksi — pilih node ads_user_info_1d_odps yang dibuat selama sinkronisasi data
    Monitoring RuleBiarkan kosong. Aturan akan dilampirkan pada langkah berikutnya.

Langkah 2: Buat aturan pemantauan

  1. Di tab Rule Management, pada bagian Monitor Perspective, pilih monitor ads_user_info_quality_control. Klik Create Rule.

  2. Di tab System Template, temukan aturan Number of rows. 7-day volatility lalu klik Use. Konfigurasi hal berikut:

    • Monitoring Threshold:

      • Ambang batas Merah: operator perbandingan >, nilai 50%

      • Ambang batas Orange: operator perbandingan >, nilai 10%

      • Ambang batas Normal: operator perbandingan <=, nilai 10%

    • Degree of Importance: Weak rules

  3. Di tab System Template, temukan aturan Table is not empty lalu klik Use. Atur Degree of Importance menjadi Strong Rule.

  4. Klik Determine.

    Untuk parameter aturan lainnya, lihat Configure a monitoring rule for a single table.

Langkah 3: Jalankan pengujian dan berlangganan peringatan

Ikuti langkah-langkah yang sama seperti pada Langkah 3: Jalankan pengujian dan Langkah 4: Berlangganan peringatan untuk ods_raw_log_d_odps, menggunakan monitor ads_user_info_quality_control.

Langkah berikutnya

Dengan pemantauan kualitas data yang telah diterapkan, visualisasikan data profil pengguna yang telah diproses menggunakan DataAnalysis. Untuk informasi lebih lanjut, lihat Visualize data.