Topik ini menjelaskan cara menggunakan Data Quality untuk memantau kualitas data tabel.
Prasyarat
Sebelum memulai, selesaikan tugas-tugas yang dijelaskan dalam Sinkronisasi data dan Proses data.
Menggunakan integrasi data untuk menyinkronkan informasi pengguna dasar dari tabel ApsaraDB RDS for MySQL ods_user_info_d ke tabel MaxCompute ods_user_info_d.
Menggunakan integrasi data untuk menyinkronkan log akses website dari file user_log.txt di OSS ke tabel MaxCompute ods_raw_log_d.
Menggunakan Data Studio untuk mentransformasi data yang dikumpulkan menjadi data persona pengguna dasar.
Informasi latar belakang
Data Quality adalah platform terpadu yang menyediakan layanan pemeriksaan kualitas, notifikasi, dan manajemen untuk berbagai sumber data. Data Quality memantau data dalam set data dan saat ini mendukung tabel MaxCompute. Ketika data MaxCompute offline berubah, Data Quality memeriksa data tersebut dan memblokir pipeline produksi untuk mencegah penyebaran data kotor. Data Quality juga menyediakan manajemen hasil pemeriksaan historis, yang memungkinkan Anda menganalisis dan mengklasifikasikan kualitas data.
Dalam tutorial ini, Anda menggunakan fitur Data Quality dari DataWorks untuk segera mendeteksi perubahan pada data sumber dan mengidentifikasi data kotor yang dihasilkan selama proses ekstrak, transformasi, dan muat (ETL) untuk kasus analisis persona pengguna. Berdasarkan alur analisis dan pemrosesan persona pengguna, aturan pemantauan kualitas dirangkum sebagai berikut:
Nama tabel | Rincian kebutuhan |
ods_raw_log_d | Pantau data log mentah harian yang disinkronkan untuk memastikan tabel tidak kosong. Hal ini mencegah pemrosesan tidak valid dan menangani masalah secara cepat. |
ods_user_info_d | Periksa data informasi pengguna yang disinkronkan setiap hari. Pastikan jumlah baris tidak nol (aturan kuat) dan kunci primer bisnis bersifat unik (aturan lunak). Hal ini mencegah pemrosesan tidak valid dan menghentikan masalah data sedini mungkin. |
dwd_log_info_di | Tidak dipantau secara terpisah. |
dws_user_info_all_di | Tidak dipantau secara terpisah. |
ads_user_info_1d | Konfigurasikan aturan untuk memantau jumlah baris harian tabel data pengguna Anda. Hal ini memungkinkan Anda melacak perubahan pengunjung unik harian (UV) dan segera memahami status aplikasi Anda. |
Buka halaman konfigurasi aturan
Login ke Konsol DataWorks. Di wilayah target, klik di panel navigasi kiri. Pilih ruang kerja dari daftar drop-down dan klik Go to Data Quality.
Buka halaman konfigurasi aturan untuk tabel tersebut.
Di bilah navigasi kiri Data Quality, klik , lalu temukan tabel target berdasarkan parameter berikut.
Data Source: MaxCompute
Database: Proyek produksi Anda saat ini (workshop2024_01).
Tabel: Dalam tutorial ini, Anda perlu mengonfigurasi pemantauan kualitas untuk tabel
ods_raw_log_d,ods_user_info_d, danads_user_info_1d.
Di hasil pencarian, temukan tabel target dan klik Rule Management di kolom Actions untuk membuka halaman detail kualitas tabel. Bagian berikut menjelaskan konfigurasi spesifiknya.
Konfigurasikan aturan pemantauan kualitas
Konfigurasikan aturan pemantauan kualitas untuk ods_raw_log_d
Tabel ods_raw_log_d digunakan untuk menerima catatan akses website pengguna yang disinkronkan dari OSS. Berdasarkan properti bisnis tabel ini, konfigurasikan aturan untuk memeriksa bahwa jumlah baris tabel tidak 0. Kemudian, asosiasikan aturan tersebut dengan monitor kualitas untuk memicu pemeriksaan kualitas data.
1. Konfigurasikan monitor kualitas
Monitor kualitas memeriksa apakah data dalam rentang data (partisi) tertentu dari tabel target sesuai dengan ekspektasi.
Pada langkah ini, atur Data Range untuk monitor kualitas menjadi dt=$[yyyymmdd-1]. Saat monitor dijalankan, ia akan memeriksa data dalam partisi ini.
Setiap kali tugas penjadwalan untuk tabel ods_raw_log_d dijalankan, monitor kualitas akan dipicu. Monitor tersebut menggunakan aturan kualitas yang terkait untuk memeriksa data dalam rentang data yang sesuai dan menentukan apakah data tersebut memenuhi aturan pemeriksaan kualitas data.
Lakukan langkah-langkah berikut:
Di halaman detail kualitas untuk tabel tersebut, klik tab Monitor, lalu klik Create Monitor.
Konfigurasikan monitor kualitas.
Parameter utama:
Parameter
Contoh konfigurasi
Data Range
dt=$[yyyymmdd-1]
Trigger Method
Triggered by production scheduling. Pilih node
ods_raw_log_dyang dibuat di Sinkronisasi data.Monitoring Rule
Jangan konfigurasikan sekarang. Konfigurasikan di bagian berikutnya.
CatatanUntuk informasi lebih lanjut tentang cara mengonfigurasi monitor kualitas, lihat Konfigurasikan aturan untuk satu tabel.
Dalam tutorial ini, tujuannya adalah memantau apakah data tabel yang dihasilkan oleh tugas penjadwalan harian sesuai dengan ekspektasi. Karena tabel menghasilkan data untuk hari sebelumnya, data tersebut dianggap sesuai ekspektasi jika waktu penjadwalan adalah hari ini dan waktu bisnis adalah hari sebelumnya.
2. Konfigurasikan aturan pemantauan
Tabel ods_raw_log_d digunakan untuk menerima catatan akses website yang disinkronkan dari OSS dan berfungsi sebagai tabel sumber untuk analisis persona pengguna. Untuk mencegah pemrosesan tidak valid dan masalah kualitas, konfigurasikan aturan kuat untuk tabel ini guna memeriksa apakah jumlah baris lebih besar dari 0. Aturan ini menentukan apakah tugas sinkronisasi telah menulis data ke partisi tabel.
Jika monitor mendeteksi bahwa jumlah baris dalam partisi yang sesuai dari tabel ods_raw_log_d adalah 0, peringatan akan dipicu. Node ods_raw_log_d kemudian gagal dan memblokir downstream tasks-nya agar tidak berjalan.
Lakukan langkah-langkah berikut:
Di halaman detail kualitas untuk tabel tersebut, klik tab Rule Management. Di Monitor Perspective, pilih monitor kualitas yang telah Anda buat (misalnya,
raw_log_number_of_table_rows_not_0). Lalu, di sisi kanan halaman, klik Create Rule untuk membuka halaman Create Rule.Di bagian System Template, temukan aturan The number of rows is greater than 0., klik Use, lalu ubah Degree of importance menjadi Strong rules.
CatatanDalam tutorial ini, aturan didefinisikan sebagai strong rule. Jika jumlah baris tabel
ods_raw_log_dadalah 0, peringatan akan dipicu dan eksekusi downstream tasks akan diblokir.Klik Determine.
CatatanUntuk informasi lebih lanjut tentang item konfigurasi, lihat Konfigurasikan aturan untuk satu tabel.
3. Jalankan uji coba pemantauan kualitas
Jalankan uji coba untuk memverifikasi apakah aturan pemeriksaan dalam monitor kualitas dikonfigurasi dengan benar. Untuk memastikan aturan kualitas benar dan sesuai ekspektasi, jalankan uji coba monitor kualitas setelah membuat aturan.
Di tab Rule Management, di Monitor Perspective, pilih monitor kualitas yang telah Anda buat (misalnya,
raw_log_number_of_table_rows_not_0). Di sisi kanan, klik ikon
, lalu klik Test Run untuk membuka kotak dialog Test Run.Di kotak dialog Test Run, pilih Data Timestamp dan klik Test Run.
Setelah uji coba selesai, ikuti petunjuk di layar dan klik View Details untuk meninjau hasil uji coba.
4. Berlangganan Pemantauan Kualitas
Data Quality menyediakan fitur pemantauan dan peringatan. Berlangganan monitor kualitas untuk segera menerima notifikasi tentang pengecualian pemeriksaan kualitas dan menanganinya. Hal ini memastikan keamanan data, stabilitas, dan output tepat waktu.
Di tab Rule Management, di Monitor Perspective, pilih monitor kualitas yang telah Anda buat (misalnya,
raw_log_number_of_table_rows_not_0). Di sisi kanan, klik ikon
, lalu klik Subscribe to Alerts.Ikuti petunjuk di layar untuk menambahkan Notification Method dan Recipient. Lalu, di kolom Actions, klik Save.
Setelah mengonfigurasi langganan, di panel navigasi kiri, klik . Pilih My Subscriptions untuk melihat dan mengubah tugas yang telah Anda langgani.
Konfigurasikan aturan pemantauan kualitas untuk ods_user_info_d
Tabel ods_user_info_d digunakan untuk menerima informasi pengguna dasar yang disinkronkan dari ApsaraDB RDS for MySQL. Berdasarkan properti bisnis tabel ini, konfigurasikan aturan untuk memeriksa bahwa jumlah baris tabel tidak 0 dan kunci primer bisnis bersifat unik. Kemudian, asosiasikan aturan tersebut dengan monitor kualitas untuk memicu pemeriksaan kualitas data.
1. Konfigurasikan monitor kualitas
Monitor kualitas memeriksa apakah data dalam rentang data (partisi) tertentu dari tabel target sesuai dengan ekspektasi.
Atur Data Range menjadi dt=$[yyyymmdd-1] agar monitor memeriksa partisi hari sebelumnya.
Setiap kali tugas penjadwalan untuk tabel ods_user_info_d dijalankan, monitor kualitas akan dipicu. Monitor tersebut menggunakan aturan kualitas yang terkait untuk memeriksa data dalam rentang data yang sesuai dan menentukan apakah data tersebut memenuhi aturan pemeriksaan kualitas data.
Lakukan langkah-langkah berikut:
Di tab Monitor, klik Create Monitor.
Konfigurasikan monitor kualitas.
Parameter utama:
Parameter
Contoh Konfigurasi
Data Range
dt=$[yyyymmdd-1]
Trigger Method
Dipicu oleh penjadwalan produksi. Pilih node
ods_user_info_dyang dibuat di Synchronize data.Monitoring Rule
Jangan konfigurasikan sekarang. Konfigurasikan pada bagian berikutnya.
CatatanUntuk informasi lebih lanjut tentang cara mengonfigurasi monitor kualitas, lihat Konfigurasikan aturan untuk satu tabel.
2. Konfigurasikan aturan pemantauan
Tabel ods_user_info_d digunakan untuk menerima informasi pengguna dasar yang disinkronkan dari ApsaraDB RDS for MySQL dan berfungsi sebagai tabel sumber untuk analisis persona pengguna. Untuk mencegah pemrosesan tidak valid dan masalah kualitas, konfigurasikan aturan kuat untuk tabel ini guna memeriksa apakah jumlah baris lebih besar dari 0. Aturan ini menentukan apakah tugas sinkronisasi telah menulis data ke partisi tabel.
Setelah aturan berlaku, jika monitor mendeteksi bahwa jumlah baris dalam partisi yang sesuai dari tabel ods_user_info_d adalah 0, peringatan akan dipicu. Node ods_user_info_d kemudian gagal dan memblokir downstream tasks-nya agar tidak berjalan.
Lakukan langkah-langkah berikut:
Di tab Rule Management, di Monitor Perspective, pilih monitor kualitas yang telah Anda buat (misalnya,
user_info_quality_control). Lalu, klik Create Rule untuk membuka halaman Create Rule.Di bagian System Template, temukan aturan The number of rows is greater than 0., klik Use, lalu ubah Degree of importance menjadi Strong rules.
CatatanDalam tutorial ini, aturan didefinisikan sebagai strong rule. Jika jumlah baris tabel
ods_user_info_dadalah 0, peringatan akan dipicu dan eksekusi downstream tasks akan diblokir.Di bagian System Template, temukan aturan Unique Value Count, Fixed Value dan klik Use. Lalu, konfigurasikan parameter Rule Scope, Monitoring Threshold, dan Degree of importance sebagai berikut:
Rule Scope:
uid(STRING)Monitoring Threshold:
Normal threshold = 0Degree of importance:
soft rule
Klik Determine.
CatatanUntuk informasi lebih lanjut tentang item konfigurasi, lihat Konfigurasikan aturan untuk satu tabel.
3. Konfigurasi lainnya
Prosedur untuk menjalankan uji coba monitor kualitas dan berlangganan monitor kualitas sama seperti yang dijelaskan dalam Konfigurasikan aturan pemantauan kualitas untuk ods_raw_log_d.
Konfigurasikan aturan pemantauan kualitas untuk ads_user_info_1d
Tabel ads_user_info_1d adalah tabel sink akhir. Berdasarkan properti bisnisnya, pantau fluktuasi jumlah baris tabel dan periksa keunikan kunci primer bisnis. Hal ini memungkinkan Anda mengamati fluktuasi UV harian dan tetap mengetahui perubahan trafik online. Asosiasikan aturan tersebut dengan monitor kualitas untuk memicu pemeriksaan kualitas data.
1. Konfigurasikan ekspresi filter partisi
Monitor kualitas memeriksa apakah data dalam rentang data (partisi) tertentu dari tabel target sesuai dengan ekspektasi.
Seperti sebelumnya, atur Data Range menjadi dt=$[yyyymmdd-1] untuk memeriksa partisi hari sebelumnya.
Setiap kali tugas penjadwalan untuk tabel ads_user_info_1d dijalankan, monitor kualitas akan dipicu. Monitor tersebut menggunakan aturan kualitas yang terkait untuk memeriksa data dalam rentang data yang sesuai dan menentukan apakah data tersebut memenuhi aturan pemeriksaan kualitas data.
Lakukan langkah-langkah berikut:
Di tab Monitor, klik Create Monitor.
Konfigurasikan monitor kualitas.
Parameter utama:
Parameter
Contoh konfigurasi
Data Range
dt=$[yyyymmdd-1]
Trigger Method
Triggered by production scheduling. Pilih node
ads_user_info_1dyang dibuat di Proses data.Monitoring Rule
Jangan konfigurasikan sekarang. Konfigurasikan di bagian berikutnya.
CatatanUntuk informasi lebih lanjut tentang cara mengonfigurasi monitor kualitas, lihat Konfigurasikan aturan untuk satu tabel.
2. Buat aturan pemantauan
Tabel ads_user_info_1d digunakan untuk analisis persona pengguna. Untuk mendeteksi fluktuasi UV harian, pantau fluktuasi jumlah baris data agregat dan periksa keunikan kunci primer. Hal ini membantu Anda mengamati fluktuasi UV harian dan tetap mengetahui perubahan trafik online.
Saat aturan berlaku, peringatan akan dipicu jika mendeteksi bahwa kunci primer dalam tabel ads_user_info_1d tidak unik. Peringatan warning akan dipicu jika laju fluktuasi jumlah baris dalam 7 hari lebih besar dari 10% dan kurang dari 50%. Peringatan error akan dipicu jika laju fluktuasi jumlah baris dalam 7 hari lebih besar dari 50%.
Pemantauan kualitas data memiliki Handling Policies yang dikonfigurasi:
strong rule - Error: Kebijakan penanganannya adalah Blocks. Jika masalah kualitas data terdeteksi, sistem akan menggagalkan node penjadwalan produksi yang memicu pemeriksaan tersebut. Tindakan ini memblokir node downstream dan menghentikan penyebaran data kotor.Pengecualian lainnya: Kebijakan penanganannya adalah Alert. Jika masalah kualitas data terdeteksi, sistem akan mengirim peringatan ke saluran yang telah dilanggan.
Oleh karena itu, saat Anda mengonfigurasi aturan kualitas:
Jika Anda menetapkan aturan kuat, peringatan error akan memblokir node downstream. Peringatan lainnya tidak.
Jika Anda menetapkan aturan lunak, baik peringatan abnormal merah maupun peringatan abnormal lainnya tidak akan memblokir node tugas downstream.
Lakukan langkah-langkah berikut:
Di tab Rule Management, di Monitor Perspective, pilih monitor kualitas yang telah Anda buat (misalnya,
ads_user_info_quality_control). Lalu, klik Create Rule untuk membuka halaman Create Rule.Di bagian System Template, temukan aturan Number Of Rows, 7-day Volatility, klik Use, lalu konfigurasikan Monitoring Threshold dan Degree of importance sebagai berikut:
Monitoring Threshold:
Error threshold > 50%Warning threshold > 10%Normal threshold <= 10%
Degree of importance:
soft rule
Di bagian System Template, temukan aturan The number of rows is greater than 0., klik Use, lalu ubah Degree of importance menjadi Strong rules.
Klik Determine.
CatatanUntuk informasi lebih lanjut tentang item konfigurasi, lihat Konfigurasikan aturan untuk satu tabel.
3. Konfigurasi lainnya
Prosedur untuk menjalankan pengujian pemantau kualitas dan berlangganan ke pemantau kualitas sama dengan yang dijelaskan dalam Mengonfigurasi aturan pemantauan kualitas untuk ods_raw_log_d.
Langkah selanjutnya
Setelah data ditransformasi, Anda dapat menggunakan modul DataAnalysis untuk memvisualisasikan data tersebut. Untuk informasi lebih lanjut, lihat Visualisasi data.