Data Quality memungkinkan Anda mengonfigurasi aturan pemantauan kualitas untuk tabel data. Aturan ini dapat digunakan untuk memverifikasi apakah data tabel memenuhi persyaratan Anda, secara otomatis memblokir tugas yang menghasilkan data bermasalah, serta mencegah penyebaran dirty data ke downstream, sehingga memastikan data output sesuai ekspektasi. Topik ini menjelaskan cara mengonfigurasi, menjalankan, dan mengelola aturan pemantauan kualitas untuk tabel tertentu.
Prasyarat
Aturan kualitas dikonfigurasi untuk tabel data engine. Untuk melakukannya, Anda harus terlebih dahulu memperoleh metadata engine. Untuk informasi selengkapnya, lihat Metadata acquisition.
Batasan
Batasan sumber data: Anda hanya dapat mengonfigurasi aturan pemantauan kualitas untuk sumber data MaxCompute, E-MapReduce, Hologres, CDH Hive, AnalyticDB for PostgreSQL, AnalyticDB for MySQL, StarRocks, MySQL, SQL Server, DLF, dan Lindorm.
Batasan jaringan: Setelah aturan dikonfigurasi, node penjadwalan yang menghasilkan data tabel harus menggunakan resource group dengan konektivitas jaringan yang telah ditetapkan untuk memicu pemeriksaan aturan Data Quality.
Batasan efektivitas aturan: Aturan yang menggunakan ambang batas dinamis memerlukan setidaknya 21 hari data sampel agar berfungsi dengan benar. Dengan data kurang dari 21 hari, pemeriksaan aturan mungkin gagal atau menghasilkan hasil yang tidak akurat. Jika Anda belum memiliki 21 hari data sampel, Anda tetap dapat mengonfigurasi aturan, mengaitkannya dengan tugas penjadwalan, lalu menggunakan fitur backfill untuk menghasilkan data yang diperlukan.
Komponen inti pemantauan kualitas
Mengonfigurasi aturan pemantauan kualitas untuk sebuah tabel merupakan proses inti dalam mendefinisikan logika validasi kualitas data Anda. Proses ini mencakup empat komponen utama:
Lingkup Pemantauan: Menentukan aset target untuk pemeriksaan kualitas data. Konfigurasi mencakup:
Monitored Object: Pilih satu atau beberapa tabel fisik untuk pemeriksaan kualitas data. Tabel partisi maupun non-partisi didukung.
Data range: Untuk tabel partisi, Anda harus menggunakan ekspresi filter partisi untuk secara dinamis menentukan partisi mana yang akan dipindai pada setiap pemeriksaan. Misalnya, gunakan
$[yyyymmdd-1]untuk memeriksa data partisi dari hari sebelum waktu data.
Monitoring Rule: Mendefinisikan logika validasi spesifik dan standar pengukuran untuk menentukan apakah data memenuhi ekspektasi.
Definisi aturan: Anda dapat menambahkan satu atau beberapa aturan kualitas ke objek yang dipantau. Setiap aturan diinstansiasi dari templat aturan. Templat tersebut dapat berupa salah satu jenis berikut:
Templat sistem: Gunakan templat bawaan yang disediakan oleh DataWorks. Templat sistem mencakup berbagai dimensi, seperti integritas, keunikan, dan validitas. Contohnya termasuk "fluktuasi jumlah baris tabel" dan "jumlah nilai unik field".
Templat kustom: Buat logika validasi yang dapat digunakan ulang dengan SQL kustom.
Properti aturan: Setiap aturan mengharuskan Anda mengonfigurasi properti utamanya, termasuk ambang batas (misalnya, laju fluktuasi tidak melebihi 30%) dan tingkat keparahan (aturan kuat atau lemah). Jika pemeriksaan aturan kuat gagal, hal ini dapat memblokir tugas penjadwalan terkait.
Trigger Method: Menentukan kapan tugas pemantauan kualitas dijalankan.
Pemicu terjadwal: Mengaitkan pemantauan kualitas dengan node penjadwalan DataWorks upstream, biasanya node yang menghasilkan tabel yang dipantau. Ketika node penjadwalan berhasil dijalankan, aturan kualitas terkait secara otomatis dipicu untuk validasi. Ini merupakan praktik terbaik untuk jaminan kualitas data otomatis.
Triggered Manually: Proses validasi ini tidak dikaitkan dengan tugas penjadwalan dan mengharuskan Anda memulainya secara manual dari UI. Metode ini cocok untuk eksplorasi dan validasi data sementara yang bersifat satu kali.
Kebijakan peringatan: Mengonfigurasi strategi notifikasi ketika terjadi masalah kualitas data.
Langganan peringatan: Anda dapat mengonfigurasi peringatan untuk hasil pemeriksaan aturan tertentu, seperti "gagal" atau "peringatan". Sistem mendukung pengiriman notifikasi melalui berbagai saluran, termasuk email, SMS, telepon, chatbot DingTalk, chatbot Lark, chatbot WeCom, dan webhook kustom.
Setelah Anda mengonfigurasi keempat komponen ini dan menyimpan pengaturannya, rencana pemantauan kualitas lengkap akan dibuat. Sebelum menerapkannya ke lingkungan produksi, kami menyarankan Anda menggunakan fitur test run untuk memverifikasi konfigurasi Anda.
Prosedur
Langkah 1: Akses halaman detail kualitas tabel
Buka halaman Data Quality.
Login ke DataWorks console. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Di halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Quality.
Buka halaman Configure by Table.
Di panel navigasi kiri, klik untuk membuka halaman konfigurasi aturan.
Di daftar Data Source di sebelah kiri, pilih database yang berisi tabel tempat Anda ingin mengonfigurasi aturan.
Filter tabel berdasarkan jenis database, database, nama tabel, atau kriteria lainnya. Klik nama tabel target, atau klik Rule Management di kolom Actions untuk membuka halaman detail kualitas tabel.
Halaman ini menampilkan semua monitor dan aturan kualitas yang telah dikonfigurasi untuk tabel saat ini. Anda dapat memfilter aturan berdasarkan apakah aturan tersebut dikaitkan dengan monitor kualitas. Anda juga dapat menentukan konfigurasi eksekusi untuk aturan yang belum dikaitkan dengan monitor kualitas.

Langkah 2: Buat monitor kualitas
Buat monitor kualitas.
Anda dapat membuat monitor kualitas dengan salah satu dari dua cara berikut:
Tab manajemen aturan
Di halaman Table Quality Details, klik tab Rule Management. Di samping Monitor Perspective, klik ikon
untuk membuat monitor kualitas baru.
Tab pemantauan kualitas
Di halaman Table Quality Details, alihkan ke tab Quality monitoring. Klik Create Monitor.

Konfigurasi parameter untuk monitor kualitas.
Bagian
Parameter
Deskripsi
Basic Configurations
Monitor Name
Masukkan nama kustom untuk monitor kualitas.
Quality Monitoring Owner
Tentukan pemilik monitor kualitas ini. Saat Anda mengonfigurasi langganan peringatan, Anda dapat menentukan pemilik sebagai penerima peringatan dengan menggunakan metode notifikasi Email, Email and SMS, atau Telephone.
Monitored Object
Objek untuk pemeriksaan kualitas data. Secara default, ini adalah tabel saat ini.
Data Range
Gunakan ekspresi filter partisi untuk menentukan partisi tabel mana yang akan diperiksa oleh aturan kualitas.
Untuk tabel non-partisi, Anda tidak perlu mengonfigurasi parameter ini. Nilai default-nya adalah Full Table.
Untuk tabel partisi, format ekspresinya adalah
partition_name=partition_value. Nilai partisi dapat berupa nilai tetap atau built-in partition filter expression.
CatatanKonfigurasi ini tidak berlaku saat mengonfigurasi aturan dengan templat kustom atau SQL kustom. Untuk aturan kualitas yang dikonfigurasi dengan templat kustom atau SQL kustom, SQL kustom tersebut yang menentukan partisi mana yang akan diperiksa.
Select Quality Rules
Select Quality Rules
Memilih aturan kualitas yang akan dikaitkan dengan monitor kualitas. Aturan ini akan memeriksa apakah data dalam rentang yang ditentukan memenuhi ekspektasi.
CatatanAnda dapat membuat beberapa monitor kualitas untuk partisi berbeda dan mengaitkannya dengan aturan kualitas berbeda untuk menerapkan aturan validasi berbeda pada partisi berbeda.
Jika Anda belum membuat aturan kualitas, Anda dapat melewati langkah ini. Anda dapat terlebih dahulu membuat monitor kualitas, lalu menambahkan aturan ke dalamnya nanti. Untuk informasi lebih lanjut tentang cara membuat aturan kualitas, lihat Langkah 3: Konfigurasi aturan kualitas data.
Running Settings
Trigger Method
Metode pemicu untuk monitor kualitas.
Triggered by Node Scheduling in Production Environment: Mengaitkan monitor kualitas dengan tugas terjadwal periodik tertentu di DataWorks Operation Center. Setelah tugas berhasil dijalankan, aturan kualitas dalam monitor kualitas ini secara otomatis dipicu. Tugas dry-run tidak memicu pemeriksaan aturan kualitas.
Triggered Manually: Memungkinkan Anda memicu secara manual aturan pemantauan kualitas yang dikaitkan dengan monitor kualitas saat ini.
PentingJika tabel yang Anda pantau bukan tabel MaxCompute dan Anda mengatur Trigger Method ke Triggered by Node Scheduling in Production Environment, tugas terjadwal periodik yang dipilih tidak boleh menggunakan public scheduling resource group. Jika tidak, monitor kualitas akan melaporkan error saat dijalankan.
Associate Scheduling Node
Jika Anda mengatur Trigger Method ke Triggered by Node Scheduling in Production Environment, Anda dapat mengonfigurasi parameter ini untuk menentukan node penjadwalan terkait. Setelah node penjadwalan yang ditentukan berhasil dijalankan, aturan pemantauan kualitas secara otomatis dipicu.
Select Run Resource
Menentukan sumber daya komputasi yang diperlukan untuk menjalankan pemeriksaan aturan kualitas. Secara default, sumber daya untuk sumber data tabel yang dipantau dipilih. Jika Anda memilih sumber data lain, pastikan sumber dayanya dapat mengakses tabel tersebut.
Handling Policies
Quality Issue Handling Policies
Konfigurasikan kebijakan pemblokiran atau peringatan yang akan digunakan ketika sistem mendeteksi masalah kualitas data.
Alert: Ketika terdeteksi masalah kualitas data, sistem mengirimkan peringatan ke saluran berlangganan untuk monitor kualitas tersebut.
Kondisi default-nya adalah
Strong Rule · Critical Anomaly,Strong Rule · Warning Anomaly,Strong Rule · Check Failed,Weak Rule · Critical Anomaly,Weak Rule · Warning Anomaly, danWeak Rule · Check Failed.Blocks: Ketika terdeteksi masalah kualitas data, sistem mengidentifikasi node penjadwalan produksi yang memicu pemeriksaan kualitas tabel, mengatur status node menjadi Gagal, dan mencegah node downstream berjalan. Proses ini memblokir pipeline produksi untuk mencegah penyebaran data bermasalah.
Kondisi default-nya adalah
Strong Rule · Critical Anomaly.PentingJika Anda mengatur kebijakan ke Blocks, sistem juga memicu peringatan ketika kondisi aturan kualitas data terpenuhi.
Alert Method Configuration
Anda dapat mengirimkan notifikasi peringatan menggunakan Email, Email and SMS, DingTalk Chatbot, DingTalk Chatbot @ALL, Lark Group Chatbot, Enterprise WeChat Chatbot, Custom Webhook, atau Telephone.
CatatanUntuk menggunakan chatbot, tambahkan chatbot DingTalk, Lark, atau WeCom, peroleh URL webhook-nya, lalu tempelkan URL tersebut ke dalam langganan peringatan.
Metode notifikasi Custom Webhook hanya didukung di DataWorks Enterprise Edition. Untuk informasi tentang format pesan notifikasi peringatan yang dikirim menggunakan Custom Webhook, lihat Appendix: Webhook message format.
Jika Anda memilih Email, Email and SMS, atau Telephone sebagai metode notifikasi, Anda dapat mengatur Recipient ke Data Quality Monitoring Owner, Shift Schedule, atau Scheduling Task Owner.
Data Quality Monitoring Owner: Notifikasi peringatan dikirim ke Quality Monitoring Owner yang ditentukan di bagian Basic Configurations monitor kualitas saat ini.
Shift Schedule: Ketika peringatan untuk pemeriksaan aturan kualitas dipicu oleh node penjadwalan yang dikaitkan dengan monitor kualitas, sistem mengirimkan notifikasi peringatan ke pengguna yang bertugas hari ini dalam jadwal shift.
Scheduling Task Owner: Notifikasi peringatan dikirim ke owner node penjadwalan yang dikaitkan dengan monitor kualitas.
Klik Save untuk membuat monitor kualitas.
Langkah 3: Konfigurasi aturan kualitas data
Anda dapat mengonfigurasi aturan kualitas berdasarkan templat pemantauan bawaan tingkat tabel dan tingkat field. Untuk informasi lebih lanjut tentang templat aturan bawaan, lihat View built-in rule templates.
Di halaman Table Quality Details, di tab Rule Management, pilih monitor kualitas yang telah Anda buat dan klik Create Rule untuk membuka halaman konfigurasi aturan.
Buat aturan kualitas data.
Data Quality menyediakan beberapa metode untuk mengonfigurasi aturan pemantauan kualitas. Pilih metode yang paling sesuai dengan kebutuhan bisnis Anda.
Metode 1: Templat sistem
Data Quality menyediakan puluhan templat aturan kualitas bawaan. Di panel sisi kiri, klik + Use di samping templat untuk membuat aturan pemantauan kualitas dengan cepat. Anda dapat menambahkan beberapa aturan secara bersamaan.
Anda dapat mengklik + System Template Rule di bagian atas lalu memodifikasi parameter Template untuk mengubah templat aturan.
Metode 2: Templat kustom
CatatanSebelum menggunakan templat kustom untuk membuat aturan, Anda harus membuka untuk membuat templat aturan kustom. Untuk informasi lebih lanjut, lihat Create and manage custom rule templates.
Saat menggunakan templat kustom, sistem secara otomatis menampilkan konfigurasi dasarnya, seperti parameter FLAG parameter dan validasi SQL. Anda dapat menentukan Rule Name kustom dan mengonfigurasi ambang pemantauan berdasarkan jenis aturan. Misalnya, aturan numerik memerlukan ambang normal dan ambang kritis, sedangkan aturan tipe fluktuasi juga memerlukan warning threshold.
Metode 3: Custom SQL
Metode ini memungkinkan Anda menyesuaikan logika validasi kualitas data untuk tabel.
Metode 4: Skrip kustom
Aturan skrip kustom mendukung validasi data tingkat jam dan menit. Untuk informasi tentang cara menulis aturan skrip, lihat Using system rule templates. Contohnya:
- assertion: change 30 minutes ago for max(id) = 15 name: 30-minute difference in max value of id field is 15
(Opsional) Tambahkan aturan yang telah dikonfigurasi ke monitor kualitas. Untuk informasi lebih lanjut tentang monitor kualitas, lihat Langkah 2: Buat monitor kualitas.
CatatanAturan kualitas hanya dapat dipicu setelah Anda menambahkannya ke monitor kualitas. Di sini Anda dapat memilih monitor kualitas yang sudah ada, atau memilih aturan kualitas ini di langkah Select Quality Rules saat mengonfigurasi monitor kualitas.

Klik OK.
Langkah 4: Uji eksekusi aturan
Anda dapat menguji aturan dalam monitor kualitas dengan cara berikut.
Dari tab manajemen aturan
Di tab Rule Management, di bawah Monitor Perspective, temukan monitor kualitas yang telah Anda buat dan klik Test Run.

Di kotak dialog Test Run, konfirmasi parameter seperti Data Range dan Scheduling Time, lalu klik Test Run. Setelah Started ditampilkan, Anda dapat mengklik View Details untuk melihat hasil detail test run.

Dari tab pemantauan kualitas
Di tab Monitor, temukan monitor kualitas yang telah Anda buat, lalu klik Test di kolom Actions.

Di kotak dialog Test Run, konfirmasi parameter seperti Data Range dan Scheduling Time, lalu klik Test Run. Setelah Started ditampilkan, Anda dapat mengklik View Details untuk melihat hasil detail test run.

Langkah 5: Ubah langganan peringatan
Anda telah mengonfigurasi langganan peringatan di Langkah 2. Buat monitor kualitas. Ketika aturan dipicu, sistem mengirimkan notifikasi ke penerima peringatan yang ditentukan. Jika Anda ingin mengubah langganan peringatan untuk memberi tahu pengguna lain, Anda dapat mengonfigurasinya dengan cara berikut.
Dari tab manajemen aturan
Di tab Rule Management, di bawah Monitor Perspective, temukan monitor kualitas yang telah Anda buat dan buka halaman langganan peringatan seperti yang ditunjukkan pada gambar berikut.

Di kotak dialog Alert Subscription, tambahkan Notification Method dan Recipient, lalu klik Save di kolom Actions. Setelah Anda menyimpan pengaturan, Anda dapat menambahkan langganan lain.
Metode notifikasi yang didukung meliputi Email, Email and SMS, DingTalk Chatbot, DingTalk Chatbot @ALL, Lark Group Chatbot, Enterprise WeChat Chatbot, Custom Webhook, dan Telephone.
CatatanUntuk menggunakan chatbot, tambahkan chatbot DingTalk, Lark, atau WeCom, peroleh URL webhook-nya, lalu tempelkan URL tersebut ke dalam langganan peringatan.
Metode notifikasi Custom Webhook hanya didukung di DataWorks Enterprise Edition. Untuk informasi tentang format pesan notifikasi peringatan yang dikirim menggunakan Custom Webhook, lihat Appendix: Webhook message format.
Jika Anda memilih Email, Email and SMS, atau Telephone sebagai metode notifikasi, Anda dapat mengatur Recipient ke Data Quality Monitoring Owner, Shift Schedule, atau Scheduling Task Owner.
Data Quality Monitoring Owner: Notifikasi peringatan dikirim ke Quality Monitoring Owner yang ditentukan di bagian Basic Configurations monitor kualitas saat ini.
Shift Schedule: Ketika peringatan untuk pemeriksaan aturan kualitas dipicu oleh node penjadwalan yang dikaitkan dengan monitor kualitas, sistem mengirimkan notifikasi peringatan ke pengguna yang bertugas hari ini dalam jadwal shift.
Scheduling Task Owner: Notifikasi peringatan dikirim ke owner node penjadwalan yang dikaitkan dengan monitor kualitas.
Dari tab pemantauan kualitas
Di tab Monitor, temukan monitor kualitas yang telah Anda buat, lalu klik di kolom Actions.

Di kotak dialog Alert Subscription, tambahkan Notification Method dan Recipient, lalu klik Save di kolom Actions. Setelah Anda menyimpan pengaturan, Anda dapat menambahkan langganan lain.
Metode notifikasi yang didukung meliputi Email, Email and SMS, DingTalk Chatbot, DingTalk Chatbot @ALL, Lark Group Chatbot, Enterprise WeChat Chatbot, Custom Webhook, dan Telephone.
CatatanUntuk menggunakan chatbot, tambahkan chatbot DingTalk, Lark, atau WeCom, peroleh URL webhook-nya, lalu tempelkan URL tersebut ke dalam langganan peringatan.
Metode notifikasi Custom Webhook hanya didukung di DataWorks Enterprise Edition. Untuk informasi tentang format pesan notifikasi peringatan yang dikirim menggunakan Custom Webhook, lihat Appendix: Webhook message format.
Jika Anda memilih Email, Email and SMS, atau Telephone sebagai metode notifikasi, Anda dapat mengatur Recipient ke Data Quality Monitoring Owner, Shift Schedule, atau Scheduling Task Owner.
Data Quality Monitoring Owner: Notifikasi peringatan dikirim ke Quality Monitoring Owner yang ditentukan di bagian Basic Configurations monitor kualitas saat ini.
Shift Schedule: Ketika peringatan untuk pemeriksaan aturan kualitas dipicu oleh node penjadwalan yang dikaitkan dengan monitor kualitas, sistem mengirimkan notifikasi peringatan ke pengguna yang bertugas hari ini dalam jadwal shift.
Scheduling Task Owner: Notifikasi peringatan dikirim ke owner node penjadwalan yang dikaitkan dengan monitor kualitas.
Langkah selanjutnya
Setelah monitor kualitas dijalankan, Anda dapat membuka Quality O&M di panel navigasi kiri dan mengklik Monitor dan Running Records untuk melihat status pemeriksaan kualitas tabel dan catatan lengkap pemeriksaan aturan kualitasnya.
Lampiran
Lampiran 1: Rumus laju fluktuasi dan varians
Rumus laju fluktuasi:
Fluctuation rate = (Sample value - Baseline value) / Baseline valueSample value: Nilai sampel yang dikumpulkan pada hari ini. Misalnya, untuk pemeriksaan fluktuasi 1 hari jumlah baris tabel dalam tugas SQL, sampelnya adalah jumlah baris partisi hari ini.
Baseline value: Nilai perbandingan dari sampel historis.
CatatanJika aturan adalah pemeriksaan
table row count, 1-day fluctuation rateuntuk tugas SQL, nilai baseline-nya adalah jumlah baris partisi hari sebelumnya.Jika aturan adalah pemeriksaan
table row count, 7-day average fluctuation rateuntuk tugas SQL, nilai baseline-nya adalah rata-rata jumlah baris dari 7 hari sebelumnya.
Rumus fluktuasi varians:
(Current sample - Average of last N days) / Standard deviationCatatanAnda hanya dapat menggunakan varians untuk tipe numerik seperti BIGINT dan DOUBLE.
Lampiran 2: Ekspresi filter partisi bawaan
Contoh berikut mengasumsikan skenario ini:
Waktu data (bizdate) adalah
20240524Waktu penjadwalan adalah
10:30:00
Ekspresi filter partisi | Deskripsi | Contoh |
| Memeriksa data partisi dari waktu data saat ini. |
|
| Memeriksa data partisi dari hari sebelum waktu data. |
|
| Memeriksa data partisi dari 7 hari sebelum waktu data (seminggu yang lalu). |
|
| Memeriksa data partisi dari hari yang sama bulan sebelumnya seperti waktu data. |
|
| Memeriksa partisi untuk waktu data saat ini, akurat hingga detik dari waktu penjadwalan saat ini. |
|
| Memeriksa data partisi tingkat detik pada tengah malam dari waktu data saat ini. |
|
| Memeriksa data partisi tingkat detik dari satu jam sebelum waktu penjadwalan pada waktu data saat ini. |
|
| (Untuk partisi per jam) Memeriksa partisi dari satu jam sebelum waktu penjadwalan. Formatnya biasanya |
|
| (Untuk partisi tingkat menit) Memeriksa partisi dari 30 menit sebelum waktu penjadwalan. Formatnya biasanya |
|
| (Untuk partisi dua tingkat) Memeriksa semua data partisi per jam dari hari sebelum waktu data. | Semua partisi dari |