Topik ini menjelaskan cara menggunakan Data Quality untuk memantau kualitas data tabel.
Prasyarat
Data telah disinkronkan dan diproses. Untuk informasi lebih lanjut, lihat Sinkronkan Data dan Proses Data.
Informasi pengguna dasar dalam tabel ApsaraDB RDS for MySQL ods_user_info_d disinkronkan ke tabel MaxCompute ods_user_info_d_odps menggunakan Data Integration.
Log akses situs web pengguna dalam user_log.txt di Object Storage Service (OSS) disinkronkan ke tabel MaxCompute ods_raw_log_d_odps menggunakan Data Integration.
Data yang dikumpulkan diproses menjadi data profil pengguna dasar di DataStudio.
Informasi latar belakang
Data Quality adalah platform ujung ke ujung yang memungkinkan Anda memeriksa kualitas data dari sumber data heterogen, mengonfigurasi notifikasi peringatan, dan mengelola sumber data. Data Quality memantau data dalam dataset. Anda dapat menggunakan Data Quality untuk memantau tabel MaxCompute. Saat data MaxCompute offline berubah, Data Quality memeriksa data dan memblokir node yang menggunakan data tersebut. Ini mencegah data hilir terpengaruh oleh data kotor. Selain itu, Data Quality memungkinkan Anda mengelola riwayat hasil pemeriksaan. Dengan cara ini, Anda dapat menganalisis dan menilai kualitas data.
Dalam contoh ini, Data Quality digunakan untuk mendeteksi perubahan pada data sumber dalam kasus analisis profil pengguna dan data kotor yang dihasilkan saat operasi ekstraksi, transformasi, dan pemuatan (ETL) dilakukan pada data sumber secepat mungkin. Tabel berikut menjelaskan persyaratan pemantauan untuk prosedur analisis dan pemrosesan data profil pengguna.
Nama tabel | Persyaratan detail |
ods_raw_log_d_odps | Konfigurasikan aturan yang memantau apakah jumlah baris yang disinkronkan ke tabel log mentah adalah 0 setiap hari. Aturan ini membantu mencegah pemrosesan data tidak valid. |
ods_user_info_d_odps | Konfigurasikan aturan kuat yang memantau apakah jumlah baris yang disinkronkan ke tabel informasi pengguna adalah 0 setiap hari, dan aturan lemah yang memantau apakah kunci utama bisnis dalam tabel unik setiap hari. Aturan ini membantu mencegah pemrosesan data tidak valid. |
dwd_log_info_di_odps | Tidak diperlukan aturan terpisah. |
dws_user_info_all_di_odps | Tidak diperlukan aturan terpisah. |
ads_user_info_1d_odps | Konfigurasikan aturan yang memantau fluktuasi jumlah baris dalam tabel informasi pengguna setiap hari. Aturan ini digunakan untuk mengamati fluktuasi pengunjung unik harian (UV) dan membantu Anda mempelajari status aplikasi secepat mungkin. |
Pergi ke halaman Konfigurasi berdasarkan Tabel
Pergi ke halaman Data Quality.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi di sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Quality.
Pergi ke halaman Konfigurasi Berdasarkan Tabel.
Di panel navigasi di sebelah kiri halaman Data Quality, pilih . Pada halaman Konfigurasi Berdasarkan Tabel, temukan tabel yang diinginkan berdasarkan kondisi filter berikut:
Di bagian Koneksi, pilih MaxCompute.
Di kategori MaxCompute, pilih proyek saat ini di lingkungan produksi. Dalam contoh ini, workshop2024_01 digunakan.
Di sebelah kanan halaman Konfigurasi Berdasarkan Tabel, tentukan kondisi filter untuk menemukan tabel
ods_raw_log_d_odps,ods_user_info_d_odps, danads_user_info_1d_odpsyang ingin Anda konfigurasikan monitor.
Temukan tabel yang diinginkan di hasil pencarian dan klik Create Monitor di kolom Tindakan. Halaman Detail Kualitas Tabel tabel muncul. Bagian berikutnya menjelaskan konfigurasi setiap tabel.
Konfigurasikan aturan pemantauan
Konfigurasikan aturan pemantauan untuk tabel ods_raw_log_d_odps
Tabel ods_raw_log_d_odps digunakan untuk menyimpan log akses situs web pengguna yang disinkronkan dari OSS. Anda dapat mengonfigurasi aturan pemantauan yang memantau apakah jumlah baris dalam tabel adalah 0 untuk tabel berdasarkan properti bisnis tabel. Kemudian, Anda dapat mengaitkan aturan pemantauan dengan monitor untuk memicu pemeriksaan kualitas untuk tabel.
1. Konfigurasikan monitor
Anda dapat menggunakan monitor untuk memeriksa apakah kualitas data dalam rentang tertentu (partisi) tabel memenuhi harapan Anda.
Dalam langkah ini, Anda harus mengatur parameter Data Range monitor ke dt=$[yyyymmdd-1]. Saat monitor dijalankan, monitor mencari partisi data yang sesuai dengan nilai parameter dan memeriksa apakah kualitas data memenuhi harapan Anda.
Dalam kasus ini, setiap kali node penjadwalan yang digunakan untuk menulis data ke tabel ods_raw_log_d_odps dijalankan, monitor dipicu dan aturan yang terkait dengan monitor digunakan untuk memeriksa apakah kualitas data dalam rentang tertentu memenuhi harapan Anda.
Langkah-langkah yang perlu dilakukan:
Di tab Monitor, klik Create Monitor.
Konfigurasikan parameter monitor.
Tabel berikut menjelaskan parameter utama.
Parameter
Deskripsi
Data Range
dt=$[yyyymmdd-1]
Trigger Method
Metode pemicu. Atur parameter ini ke Dipicu oleh Penjadwalan Node di Lingkungan Produksi dan pilih node
ods_raw_log_d_odpsyang dibuat selama sinkronisasi data.Monitoring Rule
Anda tidak perlu mengonfigurasi parameter ini. Aturan pemantauan dikonfigurasi di bagian Konfigurasikan aturan pemantauan.
CatatanUntuk informasi lebih lanjut tentang cara mengonfigurasi monitor, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.
Dalam contoh ini, aturan pemantauan dikonfigurasikan untuk memantau apakah data tabel yang dihasilkan oleh node penjadwalan setiap hari sesuai harapan. Tabel selalu menghasilkan data dengan cap waktu data adalah hari sebelumnya. Di kotak dialog Tambah Partisi, jika nilai parameter Waktu Penjadwalan adalah hari saat ini dan nilai parameter Hasil adalah hari sebelumnya, data tabel sesuai harapan.
2. Konfigurasikan aturan pemantauan
Tabel ods_raw_log_d_odps digunakan untuk menyimpan log akses situs web pengguna yang disinkronkan dari OSS. Tabel digunakan sebagai tabel sumber dalam skenario analisis profil pengguna. Untuk mencegah pemrosesan data tidak valid dan masalah kualitas data, Anda perlu membuat dan mengonfigurasi aturan kuat yang memantau apakah jumlah baris dalam tabel lebih besar dari 0. Aturan ini membantu Anda menentukan apakah tugas sinkronisasi menulis data ke partisi terkait dalam tabel.
Jika jumlah baris dalam partisi terkait tabel ods_raw_log_d_odps adalah 0, peringatan dipicu, node ods_raw_log_d_odps gagal dan keluar, dan node turunan dari node ods_raw_log_d_odps diblokir agar tidak berjalan.
Langkah-langkah yang perlu dilakukan:
Di bagian Monitor Perspective tab Rule Management, pilih monitor. Dalam contoh ini, monitor
raw_log_number_of_table_rows_not_0dipilih. Lalu, klik Create Rule di sebelah kanan tab. Panel Buat Aturan muncul.Di tab System Template panel Buat Aturan, temukan aturan Table is not empty dan klik Use. Di sebelah kanan panel, atur parameter Degree of Importance ke Strong Rule.
CatatanDalam contoh ini, aturan didefinisikan sebagai aturan kuat. Ini menunjukkan bahwa ketika jumlah baris dalam tabel
ods_raw_log_d_odpsditemukan 0, peringatan dipicu dan node turunan diblokir agar tidak berjalan.Klik Determine.
CatatanUntuk informasi tentang parameter lain yang dikonfigurasikan untuk aturan pemantauan, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.
3. Lakukan uji coba pada monitor
Anda dapat melakukan uji coba untuk memverifikasi apakah konfigurasi aturan pemantauan yang terkait dengan monitor bekerja sesuai harapan. Untuk memastikan bahwa konfigurasi aturan benar dan memenuhi harapan Anda, lakukan uji coba pada monitor setelah Anda membuat aturan yang terkait dengan monitor.
Di bagian Monitor Perspective tab Rule Management, pilih monitor. Dalam contoh ini, monitor
raw_log_number_of_table_rows_not_0dipilih. Lalu, klik Test Run di sebelah kanan tab. Kotak dialog Test Run muncul.Di kotak dialog Test Run, konfigurasikan parameter Scheduling Time dan klik Test Run.
Setelah uji coba selesai, klik View Details untuk memeriksa apakah data lulus uji.
4. Berlangganan ke monitor
Data Quality menyediakan fitur pemantauan dan peringatan. Anda dapat berlangganan ke monitor untuk menerima notifikasi peringatan tentang masalah kualitas data. Dengan cara ini, Anda dapat menyelesaikan masalah kualitas data secepat mungkin dan memastikan keamanan data, stabilitas data, dan ketepatan waktu pembuatan data.
Di bagian Monitor Perspective tab Rule Management, pilih monitor. Dalam contoh ini, monitor
raw_log_number_of_table_rows_not_0dipilih. Lalu, klik Alert Subscription di sebelah kanan tab.Di kotak dialog Langganan Peringatan, konfigurasikan parameter Notification Method dan Recipient, dan klik Save di kolom Actions.
Setelah konfigurasi langganan selesai, pilih di panel navigasi di sebelah kiri. Lalu, pilih My Subscriptions di halaman Monitor untuk melihat dan mengubah monitor yang dilanggan.
Konfigurasikan aturan pemantauan untuk tabel ods_user_info_d_odps
Tabel ods_user_info_d_odps digunakan untuk menyimpan informasi pengguna dasar yang disinkronkan dari ApsaraDB RDS for MySQL. Anda dapat mengonfigurasi aturan yang memantau apakah jumlah baris dalam tabel adalah 0 dan aturan yang memantau apakah nilai kunci utama unik untuk tabel berdasarkan properti bisnis tabel. Lalu, Anda dapat mengaitkan aturan dengan monitor untuk memicu pemeriksaan kualitas untuk tabel.
1. Konfigurasikan monitor
Anda dapat menggunakan monitor untuk memeriksa apakah kualitas data dalam rentang tertentu (partisi) tabel memenuhi harapan Anda.
Dalam langkah ini, Anda harus mengatur parameter Data Range monitor ke dt=$[yyyymmdd-1]. Saat monitor dijalankan, monitor mencari partisi data yang sesuai dengan nilai parameter dan memeriksa apakah kualitas data memenuhi harapan Anda.
Dalam kasus ini, setiap kali node penjadwalan yang digunakan untuk menulis data ke tabel ods_user_info_d_odps dijalankan, monitor dipicu dan aturan yang terkait dengan monitor digunakan untuk memeriksa apakah kualitas data dalam rentang tertentu memenuhi harapan Anda.
Langkah-langkah yang perlu dilakukan:
Di tab Monitor, klik Create Monitor.
Konfigurasikan parameter monitor.
Tabel berikut menjelaskan parameter utama.
Parameter
Deskripsi
Data Range
dt=$[yyyymmdd-1]
Trigger Method
Metode pemicu. Atur parameter ini ke Dipicu oleh Penjadwalan Node di Lingkungan Produksi dan pilih node
ods_user_info_d_odpsyang dibuat selama sinkronisasi data.Monitoring Rule
Anda tidak perlu mengonfigurasi parameter ini. Aturan pemantauan dikonfigurasi di bagian Konfigurasikan aturan pemantauan.
CatatanUntuk informasi lebih lanjut tentang cara mengonfigurasi monitor, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.
2. Konfigurasikan aturan pemantauan
Tabel ods_user_info_d_odps digunakan untuk menyimpan informasi pengguna dasar yang disinkronkan dari ApsaraDB RDS for MySQL. Tabel digunakan sebagai tabel sumber dalam skenario analisis profil pengguna. Untuk mencegah pemrosesan data tidak valid dan masalah kualitas data, Anda perlu membuat dan mengonfigurasi aturan kuat yang memantau apakah jumlah baris dalam tabel lebih besar dari 0. Aturan ini membantu Anda menentukan apakah tugas sinkronisasi menulis data ke partisi terkait dalam tabel.
Setelah aturan pemantauan berlaku, jika jumlah baris dalam partisi terkait tabel ods_user_info_d_odps adalah 0, peringatan dipicu, node ods_user_info_d_odps gagal dan keluar, dan node turunan dari node ods_user_info_d_odps diblokir agar tidak berjalan.
Langkah-langkah yang perlu dilakukan:
Di bagian Monitor Perspective tab Rule Management, pilih monitor. Dalam contoh ini, monitor
user_info_quality_controldipilih. Lalu, klik Create Rule di sebelah kanan tab. Panel Buat Aturan muncul.Di tab System Template panel Buat Aturan, temukan aturan Table is not empty dan klik Use. Di sebelah kanan panel, atur parameter Degree of Importance ke Strong Rule.
CatatanDalam contoh ini, aturan didefinisikan sebagai aturan kuat. Ini menunjukkan bahwa ketika jumlah baris dalam tabel
ods_user_info_d_odpsditemukan 0, peringatan dipicu dan node turunan diblokir agar tidak berjalan.Di tab System Template panel Buat Aturan, temukan aturan Unique value. fixed value dan klik Use. Di sebelah kanan panel, konfigurasikan parameter Rule Scope, Monitoring Threshold, dan Degree of Importance.
Rule Scope: Atur ke
uid(STRING).Monitoring Threshold:
Untuk parameter Ambang Normal, atur operator perbandingan ke = dan nilai ke 0.Degree of Importance: Atur ke
Aturan Lemah.
Klik Determine.
CatatanUntuk informasi tentang parameter lain yang dikonfigurasikan untuk aturan pemantauan, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.
3. Konfigurasi lainnya
Operasi untuk melakukan uji coba pada monitor dan berlangganan ke monitor sama dengan operasi yang dijelaskan di bagian Konfigurasikan Aturan Pemantauan untuk Tabel ods_raw_log_d_odps.
Konfigurasikan aturan pemantauan untuk tabel ads_user_info_1d_odps
Tabel ads_user_info_1d_odps adalah tabel hasil akhir. Anda dapat mengonfigurasi aturan yang memantau fluktuasi jumlah baris dalam tabel dan aturan yang memantau apakah nilai kunci utama unik untuk tabel hasil akhir berdasarkan properti bisnis tabel. Dengan cara ini, Anda dapat mengamati fluktuasi UV harian dan mempelajari fluktuasi lalu lintas online secepat mungkin. Lalu, Anda dapat mengaitkan aturan dengan monitor untuk memicu pemeriksaan kualitas untuk tabel.
1. Konfigurasikan ekspresi filter partisi
Anda dapat menggunakan monitor untuk memeriksa apakah kualitas data dalam rentang tertentu (partisi) tabel memenuhi harapan Anda.
Dalam langkah ini, Anda harus mengatur parameter Data Range monitor ke dt=$[yyyymmdd-1]. Saat monitor dijalankan, monitor mencari partisi data yang sesuai dengan nilai parameter dan memeriksa apakah kualitas data memenuhi harapan Anda.
Dalam kasus ini, setiap kali node penjadwalan yang digunakan untuk menulis data ke tabel ads_user_info_1d_odps dijalankan, monitor dipicu dan aturan yang terkait dengan monitor digunakan untuk memeriksa apakah kualitas data dalam rentang tertentu memenuhi harapan Anda.
Langkah-langkah yang perlu dilakukan:
Di tab Monitor, klik Create Monitor.
Konfigurasikan parameter monitor.
Tabel berikut menjelaskan parameter utama.
Parameter
Deskripsi
Data Range
dt=$[yyyymmdd-1]
Trigger Method
Metode pemicu. Atur parameter ini ke Dipicu oleh Penjadwalan Node di Lingkungan Produksi dan pilih node
ads_user_info_1d_odpsyang dibuat selama sinkronisasi data.Monitoring Rule
Anda tidak perlu mengonfigurasi parameter ini. Aturan pemantauan dikonfigurasi di bagian Konfigurasikan aturan pemantauan.
CatatanUntuk informasi lebih lanjut tentang cara mengonfigurasi monitor, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.
2. Konfigurasikan aturan pemantauan
Tabel ads_user_info_1d_odps digunakan untuk analisis profil pengguna. Untuk mendeteksi fluktuasi UV harian, Anda perlu membuat dan mengonfigurasi aturan yang memantau fluktuasi jumlah baris dalam data agregat di tabel dan aturan yang memantau apakah nilai kunci utama unik untuk tabel. Ini membantu Anda mengamati fluktuasi UV harian dan mempelajari fluktuasi lalu lintas online secepat mungkin.
Setelah aturan pemantauan berlaku, jika kunci utama berulang ada di tabel ads_user_info_1d_odps, peringatan dipicu. Jika tingkat fluktuasi jumlah baris dalam tabel ads_user_info_1d_odps dalam tujuh hari lebih besar dari 10% dan kurang dari 50%, peringatan peringatan dipicu. Jika tingkat fluktuasi jumlah baris dalam tabel ads_user_info_1d_odps dalam tujuh hari lebih besar atau sama dengan 50%, peringatan kritis dipicu.
handling policy dikonfigurasi dalam monitor.
Jika aturan didefinisikan sebagai aturan kuat dan ambang batas kritis terlampaui, kebijakan penanganan adalah block. Ini menunjukkan bahwa jika masalah kualitas data terdeteksi dalam tabel, node penjadwalan di lingkungan produksi yang digunakan untuk menulis data ke tabel diidentifikasi, dan sistem mengatur status berjalan node menjadi Gagal. Dalam hal ini, node turunan dari node tersebut tidak dapat dijalankan, yang memblokir rantai produksi dan mencegah penyebaran data kotor.Jika pengecualian lain terdeteksi, kebijakan penanganan adalah alert. Ini menunjukkan bahwa jika masalah kualitas data terdeteksi dalam tabel, sistem mengirim notifikasi peringatan kepada penerima peringatan menggunakan metode notifikasi yang dikonfigurasi dalam monitor.
Catat hal-hal berikut saat Anda mengonfigurasi aturan pemantauan:
Jika aturan didefinisikan sebagai aturan kuat dan ambang batas kritis terlampaui, peringatan kritis dilaporkan dan node turunan diblokir. Jika pengecualian lain terjadi, peringatan dilaporkan tetapi node turunan tidak diblokir.
Jika aturan didefinisikan sebagai aturan lemah dan ambang batas kritis terlampaui, peringatan kritis dilaporkan tetapi node turunan tidak diblokir. Jika pengecualian lain terjadi, peringatan dilaporkan tetapi node turunan tidak diblokir.
Langkah-langkah yang perlu dilakukan:
Di bagian Monitor Perspective tab Rule Management, pilih monitor. Dalam contoh ini, monitor
ads_user_info_quality_controldipilih. Lalu, klik Create Rule di sebelah kanan tab. Panel Buat Aturan muncul.Di tab System Template panel Buat Aturan, temukan aturan Number of rows. 7-day volatility dan klik Use. Di sebelah kanan panel, konfigurasikan parameter Monitoring Threshold dan Degree of Importance.
Monitoring Threshold:
Untuk parameter Ambang Merah, atur operator perbandingan ke > dan nilai ke 50%.Untuk parameter Ambang Jingga, atur operator perbandingan ke > dan nilai ke 10%.Untuk parameter Ambang Normal, atur operator perbandingan ke <= dan nilai ke 10%.
Degree of Importance: Atur ke
Aturan Lemah.
Di tab System Template panel Buat Aturan, temukan aturan Table is not empty dan klik Use. Di sebelah kanan panel, atur parameter Degree of Importance ke Strong Rule.
Klik Determine.
CatatanUntuk informasi tentang parameter lain yang dikonfigurasikan untuk aturan pemantauan, lihat Konfigurasikan Aturan Pemantauan untuk Tabel Tunggal.
3. Konfigurasi lainnya
Operasi untuk melakukan uji coba pada monitor dan berlangganan ke monitor sama dengan operasi yang dijelaskan di bagian Konfigurasikan Aturan Pemantauan untuk Tabel ods_raw_log_d_odps.
Apa yang harus dilakukan selanjutnya
Setelah data diproses, Anda dapat menggunakan DataAnalysis untuk memvisualisasikan data. Untuk informasi lebih lanjut, lihat Visualisasikan Data pada Dasbor.