Topik ini menjelaskan cara menggunakan Kualitas Data untuk memantau kualitas data tabel.
Prasyarat
Sebelum memulai, selesaikan tugas yang dijelaskan dalam Sinkronisasi data dan Transformasi data.
Gunakan integrasi data untuk menyinkronkan informasi dasar pengguna dari tabel ApsaraDB RDS for MySQL ods_user_info_d ke tabel MaxCompute ods_user_info_d.
Gunakan integrasi data untuk menyinkronkan log akses website dari file user_log.txt di OSS ke tabel MaxCompute ods_raw_log_d.
Gunakan Data Studio untuk mentransformasi data yang dikumpulkan menjadi data persona pengguna dasar.
Informasi latar belakang
Kualitas Data adalah platform terpadu yang menyediakan layanan pemeriksaan kualitas, notifikasi, dan manajemen untuk berbagai sumber data. Kualitas Data memantau data dalam set data dan saat ini mendukung tabel MaxCompute. Ketika data MaxCompute offline berubah, Kualitas Data memeriksa data tersebut dan memblokir pipeline produksi untuk mencegah penyebaran data kotor. Kualitas Data juga menyediakan manajemen hasil pemeriksaan historis, yang memungkinkan Anda menganalisis dan mengklasifikasikan kualitas data.
Dalam tutorial ini, Anda menggunakan fitur Kualitas Data dari DataWorks untuk segera mendeteksi perubahan pada data sumber dan mengidentifikasi data kotor yang dihasilkan selama proses ekstrak, transformasi, dan muat (ETL) dalam kasus analisis persona pengguna. Berdasarkan alur analisis dan pemrosesan persona pengguna, aturan pemantauan kualitas dirangkum sebagai berikut:
Nama tabel | Detail persyaratan |
ods_raw_log_d | Pantau data log mentah harian yang disinkronkan untuk memastikan tabel tidak kosong. Hal ini mencegah pemrosesan tidak valid dan mengatasi masalah secara cepat. |
ods_user_info_d | Periksa data informasi pengguna yang disinkronkan setiap hari. Pastikan jumlah baris tidak nol (aturan kuat) dan kunci primer bisnis bersifat unik (aturan lunak). Hal ini mencegah pemrosesan tidak valid dan menghentikan masalah data sedini mungkin. |
dwd_log_info_di | Tidak dipantau secara terpisah. |
dws_user_info_all_di | Tidak dipantau secara terpisah. |
ads_user_info_1d | Konfigurasikan aturan untuk memantau jumlah baris harian tabel data pengguna Anda. Hal ini memungkinkan Anda melacak perubahan pengunjung unik harian (UV) dan segera memahami status aplikasi Anda. |
Buka halaman konfigurasi aturan
Buka halaman Kualitas Data.
Masuk ke Konsol DataWorks. Pada bilah navigasi atas, pilih Wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down, lalu klik Go to Data Quality.
Buka halaman konfigurasi aturan untuk tabel tersebut.
Di panel navigasi kiri halaman Kualitas Data, klik , lalu temukan tabel target berdasarkan parameter berikut.
Data Source: MaxCompute
Database: Proyek produksi Anda saat ini (workshop2024_01).
Tabel: Dalam tutorial ini, Anda perlu mengonfigurasi pemantauan kualitas untuk tabel
ods_raw_log_d,ods_user_info_d, danads_user_info_1d.
Temukan tabel target dalam hasil pencarian dan klik Rule Management di kolom Actions untuk membuka halaman detail kualitas tabel tersebut. Untuk konfigurasi spesifik, lihat langkah-langkah berikut.
Konfigurasikan aturan pemantauan kualitas
Konfigurasikan aturan pemantauan kualitas untuk ods_raw_log_d
Tabel ods_raw_log_d digunakan untuk menerima catatan akses website pengguna yang disinkronkan dari OSS. Berdasarkan properti bisnis tabel ini, konfigurasikan aturan untuk memeriksa bahwa jumlah baris tabel tidak 0. Kemudian, asosiasikan aturan tersebut dengan monitor kualitas untuk memicu pemeriksaan kualitas data.
1. Konfigurasikan monitor kualitas
Monitor kualitas memeriksa apakah data dalam rentang data (partisi) tertentu dari tabel target sesuai dengan ekspektasi.
Pada langkah ini, Anda perlu mengatur Data Range untuk monitor ke dt=$[yyyymmdd-1]. Saat monitor dijalankan, ia mencocokkan data dalam partisi ini dan memeriksa apakah kualitas data sesuai dengan ekspektasi Anda.
Setiap kali tugas penjadwalan untuk tabel ods_raw_log_d dijalankan, monitor kualitas dipicu. Monitor tersebut menggunakan aturan kualitas yang terkait untuk memeriksa data dalam rentang data yang sesuai dan menentukan apakah memenuhi aturan pemeriksaan kualitas data.
Lakukan langkah-langkah berikut:
Klik tab Quality Monitoring, lalu klik Create Quality Monitor.
Konfigurasikan monitor kualitas.
Parameter utama:
Parameter
Contoh Konfigurasi
Data Range
dt=$[yyyymmdd-1]
Trigger Method
Dipicu oleh penjadwalan produksi. Pilih node
ods_raw_log_dyang dibuat di Sinkronkan data.Select Quality Rule
Jangan konfigurasikan sekarang. Konfigurasikan pada bagian selanjutnya.
CatatanUntuk informasi lebih lanjut tentang cara mengonfigurasi monitor kualitas, lihat Konfigurasikan aturan untuk satu tabel.
Dalam tutorial ini, tujuannya adalah memantau apakah data tabel yang dihasilkan oleh tugas penjadwalan harian sesuai dengan ekspektasi. Karena tabel menghasilkan data untuk hari sebelumnya, data dianggap sesuai jika waktu penjadwalan adalah hari ini dan waktu bisnis adalah hari sebelumnya.
2. Konfigurasikan aturan pemantauan
Tabel ods_raw_log_d digunakan untuk menerima catatan akses website yang disinkronkan dari OSS dan berfungsi sebagai tabel sumber untuk analisis persona pengguna. Untuk mencegah pemrosesan tidak valid dan masalah kualitas, konfigurasikan aturan kuat untuk tabel ini guna memeriksa apakah jumlah baris lebih besar dari 0. Aturan ini menentukan apakah tugas sinkronisasi telah menulis data ke partisi tabel.
Jika jumlah baris dalam partisi yang sesuai dari tabel ods_raw_log_d adalah 0, peringatan dipicu, node ods_raw_log_d gagal, dan tugas downstream dari node ods_raw_log_d diblokir.
Lakukan langkah-langkah berikut:
Klik tab Rule Management. Di Quality Monitoring Perspective, pilih monitor kualitas yang telah Anda buat, misalnya
raw_log_number_of_table_rows_not_0. Lalu, klik tombol Create Rule di sebelah kanan untuk membuka halaman Create Rule.Di System Templates, temukan aturan Table Row Count Is Greater Than 0, klik Use, lalu atur Importance ke Strong Rule.
CatatanDalam tutorial ini, aturan didefinisikan sebagai aturan kuat. Jika jumlah baris tabel
ods_raw_log_dadalah 0, peringatan dipicu dan eksekusi tugas downstream diblokir.Klik OK.
CatatanUntuk informasi lebih lanjut tentang item konfigurasi, lihat Konfigurasikan aturan untuk satu tabel.
3. Jalankan uji coba pemantauan kualitas
Uji coba memverifikasi apakah aturan pemeriksaan dalam monitor kualitas dikonfigurasi dengan benar. Untuk memastikan aturan kualitas benar dan sesuai ekspektasi, jalankan uji coba monitor kualitas setelah membuat aturan.
Di tab Rule Management, di Quality Monitoring Perspective, pilih monitor kualitas yang telah Anda buat, misalnya
raw_log_number_of_table_rows_not_0. Lalu, klik
Test Run di sebelah kanan untuk membuka kotak dialog Test Run.Di kotak dialog Test Run, pilih Scheduled Time dan klik Test Run.
Setelah uji coba selesai, ikuti petunjuk di layar dan klik View Details untuk memeriksa apakah uji coba berhasil.
4. Pemantauan Kualitas Subskripsi
Kualitas Data menyediakan fitur Pemantauan Peringatan. Berlangganan monitor kualitas untuk segera menerima notifikasi tentang pengecualian pemeriksaan kualitas dan menanganinya. Hal ini memastikan keamanan data, stabilitas, dan output tepat waktu.
Di tab Rule Management, di Quality Monitoring Perspective, pilih monitor kualitas yang telah Anda buat, misalnya
raw_log_number_of_table_rows_not_0. Lalu, klik
Alert Subscription di sebelah kanan.Sesuai petunjuk di halaman, tambahkan Subscription Method dan Recipient, lalu klik Save di kolom Actions.
Setelah mengonfigurasi langganan, di panel navigasi kiri, klik . Pilih My Subscriptions untuk melihat dan mengubah tugas yang telah Anda langgani.
Konfigurasikan aturan pemantauan kualitas untuk ods_user_info_d
Tabel ods_user_info_d digunakan untuk menerima informasi dasar pengguna yang disinkronkan dari ApsaraDB RDS for MySQL. Berdasarkan properti bisnis tabel ini, konfigurasikan aturan untuk memeriksa bahwa jumlah baris tabel tidak 0 dan bahwa kunci primer bisnis bersifat unik. Kemudian, asosiasikan aturan tersebut dengan monitor kualitas untuk memicu pemeriksaan kualitas data.
1. Konfigurasikan monitor kualitas
Monitor kualitas memeriksa apakah data dalam rentang data (partisi) tertentu dari tabel target sesuai dengan ekspektasi.
Pada langkah ini, Anda perlu mengonfigurasi Data Range monitor kualitas ke dt=$[yyyymmdd-1]. Saat monitor dijalankan, ia mencocokkan data dalam partisi ini untuk menentukan apakah sesuai dengan ekspektasi Anda.
Setiap kali tugas penjadwalan untuk tabel ods_user_info_d dijalankan, monitor kualitas dipicu. Monitor tersebut menggunakan aturan kualitas yang terkait untuk memeriksa data dalam rentang data yang sesuai dan menentukan apakah memenuhi aturan pemeriksaan kualitas data.
Lakukan langkah-langkah berikut:
Di tab Quality Monitoring, klik Create Quality Monitor.
Konfigurasikan monitor kualitas.
Parameter utama:
Parameter
Contoh konfigurasi
Data Range
dt=$[yyyymmdd-1]
Trigger Method
Triggered by production scheduling. Pilih node
ods_user_info_dyang dibuat dalam Sinkronisasi data.Select Quality Rule
Jangan konfigurasikan sekarang. Konfigurasikan di bagian berikutnya.
CatatanUntuk informasi lebih lanjut tentang cara mengonfigurasi monitor kualitas, lihat Konfigurasikan aturan untuk satu tabel.
2. Konfigurasikan aturan pemantauan
Tabel ods_user_info_d digunakan untuk menerima informasi dasar pengguna yang disinkronkan dari ApsaraDB RDS for MySQL dan berfungsi sebagai tabel sumber untuk analisis persona pengguna. Untuk mencegah pemrosesan tidak valid dan masalah kualitas, konfigurasikan aturan kuat untuk tabel ini guna memeriksa apakah jumlah baris lebih besar dari 0. Aturan ini menentukan apakah tugas sinkronisasi telah menulis data ke partisi tabel.
Setelah aturan berlaku, jika jumlah baris dalam partisi yang sesuai dari tabel ods_user_info_d adalah 0, peringatan dipicu, node ods_user_info_d gagal, dan tugas downstream dari node ods_user_info_d diblokir.
Lakukan langkah-langkah berikut:
Di tab Rule Management, di Quality Monitoring Perspective, pilih monitor kualitas yang telah Anda buat, misalnya
user_info_quality_control. Lalu, klik Create Rule untuk membuka halaman Create Rule.Di System Template, temukan aturan Table Row Count Is Greater Than 0, klik Use, lalu atur Degree Of Importance ke Strong Rule.
CatatanDalam tutorial ini, aturan didefinisikan sebagai aturan kuat. Jika jumlah baris tabel
ods_user_info_dadalah 0, peringatan dipicu dan eksekusi tugas downstream diblokir.Di System Template, temukan aturan Unique Value Count, Fixed Value, klik Use, lalu ubah Rule Scope, Monitoring Threshold, dan Degree Of Importance sebagai berikut.
Rule Scope:
uid(STRING)Monitoring Threshold:
Normal threshold = 0Severity:
soft rule
Klik OK.
CatatanUntuk informasi lebih lanjut tentang item konfigurasi, lihat Konfigurasikan aturan untuk satu tabel.
3. Konfigurasi lainnya
Prosedur untuk menjalankan uji coba monitor kualitas dan berlangganan monitor kualitas sama seperti yang dijelaskan dalam Konfigurasikan aturan pemantauan kualitas untuk ods_raw_log_d.
Konfigurasikan aturan pemantauan kualitas untuk ads_user_info_1d
Tabel ads_user_info_1d adalah tabel sink akhir. Berdasarkan properti bisnisnya, pantau fluktuasi jumlah baris tabel dan periksa keunikan kunci primer bisnis. Hal ini memungkinkan Anda mengamati fluktuasi UV harian dan tetap mengetahui perubahan traffic online. Asosiasikan aturan tersebut dengan monitor kualitas untuk memicu pemeriksaan kualitas data.
1. Konfigurasikan ekspresi filter partisi
Monitor kualitas memeriksa apakah data dalam rentang data (partisi) tertentu dari tabel target sesuai dengan ekspektasi.
Pada langkah ini, Anda harus mengatur parameter Data Range monitor ke dt=$[yyyymmdd-1]. Saat monitor dijalankan, ia mencocokkan data dalam partisi ini untuk menentukan apakah kualitas data sesuai dengan ekspektasi Anda.
Setiap kali tugas penjadwalan untuk tabel ads_user_info_1d dijalankan, monitor kualitas dipicu. Monitor tersebut menggunakan aturan kualitas yang terkait untuk memeriksa data dalam rentang data yang sesuai dan menentukan apakah memenuhi aturan pemeriksaan kualitas data.
Lakukan langkah-langkah berikut:
Di tab Quality Monitoring, klik Create Quality Monitor.
Konfigurasikan monitor kualitas.
Parameter utama:
Parameter
Contoh Konfigurasi
Data Range
dt=$[yyyymmdd-1]
Trigger Method
Dipicu oleh penjadwalan produksi. Pilih node
ads_user_info_1dyang dibuat di Transform data.Select Quality Rule
Jangan konfigurasikan sekarang. Konfigurasikan pada bagian selanjutnya.
CatatanUntuk informasi lebih lanjut tentang cara mengonfigurasi monitor kualitas, lihat Konfigurasikan aturan untuk satu tabel.
2. Buat aturan pemantauan
Tabel ads_user_info_1d digunakan untuk analisis persona pengguna. Untuk mendeteksi fluktuasi UV harian, pantau fluktuasi jumlah baris data agregat dan periksa keunikan kunci primer. Hal ini membantu Anda mengamati fluktuasi UV harian dan tetap mengetahui perubahan traffic online.
Saat aturan berlaku, peringatan dipicu jika mendeteksi bahwa kunci primer dalam tabel ads_user_info_1d tidak unik. Peringatan warning dipicu jika laju fluktuasi jumlah baris 7 hari lebih besar dari 10% dan kurang dari 50%. Peringatan error dipicu jika laju fluktuasi jumlah baris 7 hari lebih besar dari 50%.
Pemantauan kualitas data memiliki Handling Policies yang dikonfigurasi:
Strong rule-Red alert: Kebijakan penanganannya adalah Blocks. Ini menunjukkan bahwa jika masalah kualitas data terdeteksi dalam tabel, node penjadwalan di lingkungan produksi yang digunakan untuk menulis data ke tabel diidentifikasi, dan sistem mengatur status running node tersebut menjadi Failed. Dalam kasus ini, node turunan dari node tersebut tidak dapat dijalankan, sehingga memblokir tautan produksi dan mencegah penyebaran data kotor.Untuk pengecualian lainnya, kebijakan penanganannya adalah Alert. Artinya, jika masalah kualitas data terdeteksi, sistem mengirim informasi peringatan ke saluran langganan peringatan dari pekerjaan pemantauan.
Oleh karena itu, saat Anda mengonfigurasi aturan kualitas:
Jika Anda menetapkan aturan kuat, peringatan error akan memblokir node downstream. Peringatan lain tidak.
Jika Anda menetapkan aturan lunak, baik peringatan abnormal merah maupun peringatan abnormal lainnya tidak memblokir node tugas downstream.
Lakukan langkah-langkah berikut:
Di tab Rule Management, di Quality Monitoring Perspective, pilih monitor kualitas yang telah Anda buat, misalnya
ads_user_info_quality_control. Lalu, klik Create Rule untuk membuka halaman Create Rule.Di tab System Template, temukan aturan Number Of Rows, 7-day Volatility, klik +Use, lalu konfigurasikan Monitoring Threshold dan Importance Level sebagai berikut.
Monitoring Threshold:
Error threshold > 50%Warning threshold > 10%Normal threshold <= 10%
Importance:
soft rule
Di System Template, temukan aturan Table Row Count Is Greater Than 0, klik Use, lalu atur Importance ke Strong Rule.
Klik OK.
CatatanUntuk informasi lebih lanjut tentang item konfigurasi, lihat Konfigurasikan aturan untuk satu tabel.
3. Konfigurasi lainnya
Prosedur untuk menjalankan uji coba monitor kualitas dan berlangganan monitor kualitas sama seperti yang dijelaskan dalam Konfigurasikan aturan pemantauan kualitas untuk ods_raw_log_d.
Langkah selanjutnya
Setelah data ditransformasi, Anda dapat menggunakan modul Analisis Data untuk memvisualisasikan data. Untuk informasi lebih lanjut, lihat Visualisasi data.