全部产品
Search
文档中心

DataWorks:Pantau kualitas data

更新时间:Jul 06, 2025

Topik ini menjelaskan cara menggunakan Data Quality untuk memantau kualitas data tabel.

Prasyarat

Data telah disinkronkan dan diproses. Untuk informasi lebih lanjut, lihat Sinkronkan Data dan Proses Data.

  • Informasi pengguna dasar dalam tabel ApsaraDB RDS for MySQL ods_user_info_d disinkronkan ke tabel MaxCompute ods_user_info_d_odps menggunakan Data Integration.

  • Log akses situs web pengguna dalam user_log.txt di Object Storage Service (OSS) disinkronkan ke tabel MaxCompute ods_raw_log_d_odps menggunakan Data Integration.

  • Data yang dikumpulkan diproses menjadi data profil pengguna dasar di DataStudio.

Informasi latar belakang

Data Quality adalah platform ujung ke ujung yang memungkinkan Anda memeriksa kualitas data dari sumber data heterogen, mengonfigurasi notifikasi peringatan, dan mengelola sumber data. Data Quality memantau data dalam dataset. Anda dapat menggunakan Data Quality untuk memantau tabel MaxCompute. Saat data MaxCompute offline berubah, Data Quality memeriksa data dan memblokir node yang menggunakan data tersebut. Ini mencegah data hilir terpengaruh oleh data kotor. Selain itu, Data Quality memungkinkan Anda mengelola riwayat hasil pemeriksaan. Dengan cara ini, Anda dapat menganalisis dan menilai kualitas data.

Dalam contoh ini, Data Quality digunakan untuk mendeteksi perubahan pada data sumber dalam kasus analisis profil pengguna dan data kotor yang dihasilkan saat operasi ekstraksi, transformasi, dan pemuatan (ETL) dilakukan pada data sumber secepat mungkin. Tabel berikut menjelaskan persyaratan pemantauan untuk prosedur analisis dan pemrosesan data profil pengguna.

Nama tabel

Persyaratan detail

ods_raw_log_d_odps

Konfigurasikan aturan yang memantau apakah jumlah baris yang disinkronkan ke tabel log mentah adalah 0 setiap hari. Aturan ini membantu mencegah pemrosesan data tidak valid.

ods_user_info_d_odps

Konfigurasikan aturan kuat yang memantau apakah jumlah baris yang disinkronkan ke tabel informasi pengguna adalah 0 setiap hari, dan aturan lemah yang memantau apakah kunci utama bisnis dalam tabel unik setiap hari. Aturan ini membantu mencegah pemrosesan data tidak valid.

dwd_log_info_di_odps

Tidak diperlukan aturan terpisah.

dws_user_info_all_di_odps

Tidak diperlukan aturan terpisah.

ads_user_info_1d_odps

Konfigurasikan aturan yang memantau fluktuasi jumlah baris dalam tabel informasi pengguna setiap hari. Aturan ini digunakan untuk mengamati fluktuasi pengunjung unik harian (UV) dan membantu Anda mempelajari status aplikasi secepat mungkin.

Pergi ke halaman Konfigurasi berdasarkan Tabel

  1. Pergi ke halaman Data Quality.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi di sebelah kiri, pilih Data Governance > Data Quality. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Quality.

  2. Pergi ke halaman Konfigurasi Berdasarkan Tabel.

    Di panel navigasi di sebelah kiri halaman Data Quality, pilih Configure Rules > Configure by Table. Pada halaman Konfigurasi Berdasarkan Tabel, temukan tabel yang diinginkan berdasarkan kondisi filter berikut:

    • Di bagian Koneksi, pilih MaxCompute.

    • Di kategori MaxCompute, pilih proyek saat ini di lingkungan produksi. Dalam contoh ini, workshop2024_01 digunakan.

    • Di sebelah kanan halaman Konfigurasi Berdasarkan Tabel, tentukan kondisi filter untuk menemukan tabel ods_raw_log_d_odps, ods_user_info_d_odps, dan ads_user_info_1d_odps yang ingin Anda konfigurasikan monitor.

  3. Temukan tabel yang diinginkan di hasil pencarian dan klik Create Monitor di kolom Tindakan. Halaman Detail Kualitas Tabel tabel muncul. Bagian berikutnya menjelaskan konfigurasi setiap tabel.

Konfigurasikan aturan pemantauan

Konfigurasikan aturan pemantauan untuk tabel ods_raw_log_d_odps

Tabel ods_raw_log_d_odps digunakan untuk menyimpan log akses situs web pengguna yang disinkronkan dari OSS. Anda dapat mengonfigurasi aturan pemantauan yang memantau apakah jumlah baris dalam tabel adalah 0 untuk tabel berdasarkan properti bisnis tabel. Kemudian, Anda dapat mengaitkan aturan pemantauan dengan monitor untuk memicu pemeriksaan kualitas untuk tabel.

1. Konfigurasikan monitor

Anda dapat menggunakan monitor untuk memeriksa apakah kualitas data dalam rentang tertentu (partisi) tabel memenuhi harapan Anda.

Dalam langkah ini, Anda harus mengatur parameter Data Range monitor ke dt=$[yyyymmdd-1]. Saat monitor dijalankan, monitor mencari partisi data yang sesuai dengan nilai parameter dan memeriksa apakah kualitas data memenuhi harapan Anda.

Dalam kasus ini, setiap kali node penjadwalan yang digunakan untuk menulis data ke tabel ods_raw_log_d_odps dijalankan, monitor dipicu dan aturan yang terkait dengan monitor digunakan untuk memeriksa apakah kualitas data dalam rentang tertentu memenuhi harapan Anda.

Langkah-langkah yang perlu dilakukan:

  1. Di tab Monitor, klik Create Monitor.

  2. Konfigurasikan parameter monitor.

    Tabel berikut menjelaskan parameter utama.

    Parameter

    Deskripsi

    Data Range

    dt=$[yyyymmdd-1]

    Trigger Method

    Metode pemicu. Atur parameter ini ke Dipicu oleh Penjadwalan Node di Lingkungan Produksi dan pilih node ods_raw_log_d_odps yang dibuat selama sinkronisasi data.

    Monitoring Rule

    Anda tidak perlu mengonfigurasi parameter ini. Aturan pemantauan dikonfigurasi di bagian Konfigurasikan aturan pemantauan.

    Catatan

    Untuk informasi lebih lanjut tentang cara mengonfigurasi monitor, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.

Dalam contoh ini, aturan pemantauan dikonfigurasikan untuk memantau apakah data tabel yang dihasilkan oleh node penjadwalan setiap hari sesuai harapan. Tabel selalu menghasilkan data dengan cap waktu data adalah hari sebelumnya. Di kotak dialog Tambah Partisi, jika nilai parameter Waktu Penjadwalan adalah hari saat ini dan nilai parameter Hasil adalah hari sebelumnya, data tabel sesuai harapan.

2. Konfigurasikan aturan pemantauan

Tabel ods_raw_log_d_odps digunakan untuk menyimpan log akses situs web pengguna yang disinkronkan dari OSS. Tabel digunakan sebagai tabel sumber dalam skenario analisis profil pengguna. Untuk mencegah pemrosesan data tidak valid dan masalah kualitas data, Anda perlu membuat dan mengonfigurasi aturan kuat yang memantau apakah jumlah baris dalam tabel lebih besar dari 0. Aturan ini membantu Anda menentukan apakah tugas sinkronisasi menulis data ke partisi terkait dalam tabel.

Jika jumlah baris dalam partisi terkait tabel ods_raw_log_d_odps adalah 0, peringatan dipicu, node ods_raw_log_d_odps gagal dan keluar, dan node turunan dari node ods_raw_log_d_odps diblokir agar tidak berjalan.

Langkah-langkah yang perlu dilakukan:

  1. Di bagian Monitor Perspective tab Rule Management, pilih monitor. Dalam contoh ini, monitor raw_log_number_of_table_rows_not_0 dipilih. Lalu, klik Create Rule di sebelah kanan tab. Panel Buat Aturan muncul.

  2. Di tab System Template panel Buat Aturan, temukan aturan Table is not empty dan klik Use. Di sebelah kanan panel, atur parameter Degree of Importance ke Strong Rule.

    Catatan

    Dalam contoh ini, aturan didefinisikan sebagai aturan kuat. Ini menunjukkan bahwa ketika jumlah baris dalam tabel ods_raw_log_d_odps ditemukan 0, peringatan dipicu dan node turunan diblokir agar tidak berjalan.

  3. Klik Determine.

    Catatan

    Untuk informasi tentang parameter lain yang dikonfigurasikan untuk aturan pemantauan, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.

3. Lakukan uji coba pada monitor

Anda dapat melakukan uji coba untuk memverifikasi apakah konfigurasi aturan pemantauan yang terkait dengan monitor bekerja sesuai harapan. Untuk memastikan bahwa konfigurasi aturan benar dan memenuhi harapan Anda, lakukan uji coba pada monitor setelah Anda membuat aturan yang terkait dengan monitor.

  1. Di bagian Monitor Perspective tab Rule Management, pilih monitor. Dalam contoh ini, monitor raw_log_number_of_table_rows_not_0 dipilih. Lalu, klik Test Run di sebelah kanan tab. Kotak dialog Test Run muncul.

  2. Di kotak dialog Test Run, konfigurasikan parameter Scheduling Time dan klik Test Run.

  3. Setelah uji coba selesai, klik View Details untuk memeriksa apakah data lulus uji.

4. Berlangganan ke monitor

Data Quality menyediakan fitur pemantauan dan peringatan. Anda dapat berlangganan ke monitor untuk menerima notifikasi peringatan tentang masalah kualitas data. Dengan cara ini, Anda dapat menyelesaikan masalah kualitas data secepat mungkin dan memastikan keamanan data, stabilitas data, dan ketepatan waktu pembuatan data.

  1. Di bagian Monitor Perspective tab Rule Management, pilih monitor. Dalam contoh ini, monitor raw_log_number_of_table_rows_not_0 dipilih. Lalu, klik Alert Subscription di sebelah kanan tab.

  2. Di kotak dialog Langganan Peringatan, konfigurasikan parameter Notification Method dan Recipient, dan klik Save di kolom Actions.

  3. Setelah konfigurasi langganan selesai, pilih Quality O&M > Monitor di panel navigasi di sebelah kiri. Lalu, pilih My Subscriptions di halaman Monitor untuk melihat dan mengubah monitor yang dilanggan.

Konfigurasikan aturan pemantauan untuk tabel ods_user_info_d_odps

Tabel ods_user_info_d_odps digunakan untuk menyimpan informasi pengguna dasar yang disinkronkan dari ApsaraDB RDS for MySQL. Anda dapat mengonfigurasi aturan yang memantau apakah jumlah baris dalam tabel adalah 0 dan aturan yang memantau apakah nilai kunci utama unik untuk tabel berdasarkan properti bisnis tabel. Lalu, Anda dapat mengaitkan aturan dengan monitor untuk memicu pemeriksaan kualitas untuk tabel.

1. Konfigurasikan monitor

Anda dapat menggunakan monitor untuk memeriksa apakah kualitas data dalam rentang tertentu (partisi) tabel memenuhi harapan Anda.

Dalam langkah ini, Anda harus mengatur parameter Data Range monitor ke dt=$[yyyymmdd-1]. Saat monitor dijalankan, monitor mencari partisi data yang sesuai dengan nilai parameter dan memeriksa apakah kualitas data memenuhi harapan Anda.

Dalam kasus ini, setiap kali node penjadwalan yang digunakan untuk menulis data ke tabel ods_user_info_d_odps dijalankan, monitor dipicu dan aturan yang terkait dengan monitor digunakan untuk memeriksa apakah kualitas data dalam rentang tertentu memenuhi harapan Anda.

Langkah-langkah yang perlu dilakukan:

  1. Di tab Monitor, klik Create Monitor.

  2. Konfigurasikan parameter monitor.

    Tabel berikut menjelaskan parameter utama.

    Parameter

    Deskripsi

    Data Range

    dt=$[yyyymmdd-1]

    Trigger Method

    Metode pemicu. Atur parameter ini ke Dipicu oleh Penjadwalan Node di Lingkungan Produksi dan pilih node ods_user_info_d_odps yang dibuat selama sinkronisasi data.

    Monitoring Rule

    Anda tidak perlu mengonfigurasi parameter ini. Aturan pemantauan dikonfigurasi di bagian Konfigurasikan aturan pemantauan.

    Catatan

    Untuk informasi lebih lanjut tentang cara mengonfigurasi monitor, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.

2. Konfigurasikan aturan pemantauan

Tabel ods_user_info_d_odps digunakan untuk menyimpan informasi pengguna dasar yang disinkronkan dari ApsaraDB RDS for MySQL. Tabel digunakan sebagai tabel sumber dalam skenario analisis profil pengguna. Untuk mencegah pemrosesan data tidak valid dan masalah kualitas data, Anda perlu membuat dan mengonfigurasi aturan kuat yang memantau apakah jumlah baris dalam tabel lebih besar dari 0. Aturan ini membantu Anda menentukan apakah tugas sinkronisasi menulis data ke partisi terkait dalam tabel.

Setelah aturan pemantauan berlaku, jika jumlah baris dalam partisi terkait tabel ods_user_info_d_odps adalah 0, peringatan dipicu, node ods_user_info_d_odps gagal dan keluar, dan node turunan dari node ods_user_info_d_odps diblokir agar tidak berjalan.

Langkah-langkah yang perlu dilakukan:

  1. Di bagian Monitor Perspective tab Rule Management, pilih monitor. Dalam contoh ini, monitor user_info_quality_control dipilih. Lalu, klik Create Rule di sebelah kanan tab. Panel Buat Aturan muncul.

  2. Di tab System Template panel Buat Aturan, temukan aturan Table is not empty dan klik Use. Di sebelah kanan panel, atur parameter Degree of Importance ke Strong Rule.

    Catatan

    Dalam contoh ini, aturan didefinisikan sebagai aturan kuat. Ini menunjukkan bahwa ketika jumlah baris dalam tabel ods_user_info_d_odps ditemukan 0, peringatan dipicu dan node turunan diblokir agar tidak berjalan.

  3. Di tab System Template panel Buat Aturan, temukan aturan Unique value. fixed value dan klik Use. Di sebelah kanan panel, konfigurasikan parameter Rule Scope, Monitoring Threshold, dan Degree of Importance.

    • Rule Scope: Atur ke uid(STRING).

    • Monitoring Threshold: Untuk parameter Ambang Normal, atur operator perbandingan ke = dan nilai ke 0.

    • Degree of Importance: Atur ke Aturan Lemah.

  4. Klik Determine.

    Catatan

    Untuk informasi tentang parameter lain yang dikonfigurasikan untuk aturan pemantauan, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.

3. Konfigurasi lainnya

Operasi untuk melakukan uji coba pada monitor dan berlangganan ke monitor sama dengan operasi yang dijelaskan di bagian Konfigurasikan Aturan Pemantauan untuk Tabel ods_raw_log_d_odps.

Konfigurasikan aturan pemantauan untuk tabel ads_user_info_1d_odps

Tabel ads_user_info_1d_odps adalah tabel hasil akhir. Anda dapat mengonfigurasi aturan yang memantau fluktuasi jumlah baris dalam tabel dan aturan yang memantau apakah nilai kunci utama unik untuk tabel hasil akhir berdasarkan properti bisnis tabel. Dengan cara ini, Anda dapat mengamati fluktuasi UV harian dan mempelajari fluktuasi lalu lintas online secepat mungkin. Lalu, Anda dapat mengaitkan aturan dengan monitor untuk memicu pemeriksaan kualitas untuk tabel.

1. Konfigurasikan ekspresi filter partisi

Anda dapat menggunakan monitor untuk memeriksa apakah kualitas data dalam rentang tertentu (partisi) tabel memenuhi harapan Anda.

Dalam langkah ini, Anda harus mengatur parameter Data Range monitor ke dt=$[yyyymmdd-1]. Saat monitor dijalankan, monitor mencari partisi data yang sesuai dengan nilai parameter dan memeriksa apakah kualitas data memenuhi harapan Anda.

Dalam kasus ini, setiap kali node penjadwalan yang digunakan untuk menulis data ke tabel ads_user_info_1d_odps dijalankan, monitor dipicu dan aturan yang terkait dengan monitor digunakan untuk memeriksa apakah kualitas data dalam rentang tertentu memenuhi harapan Anda.

Langkah-langkah yang perlu dilakukan:

  1. Di tab Monitor, klik Create Monitor.

  2. Konfigurasikan parameter monitor.

    Tabel berikut menjelaskan parameter utama.

    Parameter

    Deskripsi

    Data Range

    dt=$[yyyymmdd-1]

    Trigger Method

    Metode pemicu. Atur parameter ini ke Dipicu oleh Penjadwalan Node di Lingkungan Produksi dan pilih node ads_user_info_1d_odps yang dibuat selama sinkronisasi data.

    Monitoring Rule

    Anda tidak perlu mengonfigurasi parameter ini. Aturan pemantauan dikonfigurasi di bagian Konfigurasikan aturan pemantauan.

    Catatan

    Untuk informasi lebih lanjut tentang cara mengonfigurasi monitor, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.

2. Konfigurasikan aturan pemantauan

Tabel ads_user_info_1d_odps digunakan untuk analisis profil pengguna. Untuk mendeteksi fluktuasi UV harian, Anda perlu membuat dan mengonfigurasi aturan yang memantau fluktuasi jumlah baris dalam data agregat di tabel dan aturan yang memantau apakah nilai kunci utama unik untuk tabel. Ini membantu Anda mengamati fluktuasi UV harian dan mempelajari fluktuasi lalu lintas online secepat mungkin.

Setelah aturan pemantauan berlaku, jika kunci utama berulang ada di tabel ads_user_info_1d_odps, peringatan dipicu. Jika tingkat fluktuasi jumlah baris dalam tabel ads_user_info_1d_odps dalam tujuh hari lebih besar dari 10% dan kurang dari 50%, peringatan peringatan dipicu. Jika tingkat fluktuasi jumlah baris dalam tabel ads_user_info_1d_odps dalam tujuh hari lebih besar atau sama dengan 50%, peringatan kritis dipicu.

Catatan

handling policy dikonfigurasi dalam monitor.

  • Jika aturan didefinisikan sebagai aturan kuat dan ambang batas kritis terlampaui, kebijakan penanganan adalah block. Ini menunjukkan bahwa jika masalah kualitas data terdeteksi dalam tabel, node penjadwalan di lingkungan produksi yang digunakan untuk menulis data ke tabel diidentifikasi, dan sistem mengatur status berjalan node menjadi Gagal. Dalam hal ini, node turunan dari node tersebut tidak dapat dijalankan, yang memblokir rantai produksi dan mencegah penyebaran data kotor.

  • Jika pengecualian lain terdeteksi, kebijakan penanganan adalah alert. Ini menunjukkan bahwa jika masalah kualitas data terdeteksi dalam tabel, sistem mengirim notifikasi peringatan kepada penerima peringatan menggunakan metode notifikasi yang dikonfigurasi dalam monitor.

Catat hal-hal berikut saat Anda mengonfigurasi aturan pemantauan:

  • Jika aturan didefinisikan sebagai aturan kuat dan ambang batas kritis terlampaui, peringatan kritis dilaporkan dan node turunan diblokir. Jika pengecualian lain terjadi, peringatan dilaporkan tetapi node turunan tidak diblokir.

  • Jika aturan didefinisikan sebagai aturan lemah dan ambang batas kritis terlampaui, peringatan kritis dilaporkan tetapi node turunan tidak diblokir. Jika pengecualian lain terjadi, peringatan dilaporkan tetapi node turunan tidak diblokir.

Langkah-langkah yang perlu dilakukan:

  1. Di bagian Monitor Perspective tab Rule Management, pilih monitor. Dalam contoh ini, monitor ads_user_info_quality_control dipilih. Lalu, klik Create Rule di sebelah kanan tab. Panel Buat Aturan muncul.

  2. Di tab System Template panel Buat Aturan, temukan aturan Number of rows. 7-day volatility dan klik Use. Di sebelah kanan panel, konfigurasikan parameter Monitoring Threshold dan Degree of Importance.

    • Monitoring Threshold:

      • Untuk parameter Ambang Merah, atur operator perbandingan ke > dan nilai ke 50%.

      • Untuk parameter Ambang Jingga, atur operator perbandingan ke > dan nilai ke 10%.

      • Untuk parameter Ambang Normal, atur operator perbandingan ke <= dan nilai ke 10%.

    • Degree of Importance: Atur ke Aturan Lemah.

  3. Di tab System Template panel Buat Aturan, temukan aturan Table is not empty dan klik Use. Di sebelah kanan panel, atur parameter Degree of Importance ke Strong Rule.

  4. Klik Determine.

    Catatan

    Untuk informasi tentang parameter lain yang dikonfigurasikan untuk aturan pemantauan, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.

3. Konfigurasi lainnya

Operasi untuk melakukan uji coba pada monitor dan berlangganan ke monitor sama dengan operasi yang dijelaskan di bagian Konfigurasikan Aturan Pemantauan untuk Tabel ods_raw_log_d_odps.

Apa yang harus dilakukan selanjutnya

Setelah data diproses, Anda dapat menggunakan DataAnalysis untuk memvisualisasikan data. Untuk informasi lebih lanjut, lihat Visualisasikan Data pada Dasbor.