Data Quality memungkinkan Anda mengonfigurasi aturan pemantauan untuk tabel data. Aturan ini memverifikasi apakah data tabel Anda memenuhi persyaratan yang ditentukan dan dapat secara otomatis memblokir tugas bermasalah untuk mencegah penyebaran dirty data ke downstream, sehingga memastikan data output sesuai ekspektasi. Topik ini menjelaskan cara mengonfigurasi, menjalankan, dan mengelola aturan pemantauan kualitas untuk suatu tabel.
Prasyarat
Anda harus mengakuisisi metadata engine sebelum mengonfigurasi aturan pemantauan kualitas. Aturan kualitas didasarkan pada tabel data engine dan berlaku untuk data tabel yang bersangkutan. Untuk informasi selengkapnya, lihat Akuisisi metadata.
Batasan
Batasan sumber data: Anda hanya dapat mengonfigurasi aturan pemantauan kualitas untuk sumber data MaxCompute, E-MapReduce, Hologres, CDH Hive, AnalyticDB for PostgreSQL, AnalyticDB for MySQL, StarRocks, MySQL, SQL Server, DLF, dan Lindorm.
Batasan jaringan: Setelah Anda mengonfigurasi aturan, node penjadwalan yang menghasilkan data tabel harus menggunakan resource group dengan koneksi jaringan yang stabil untuk memicu pemeriksaan aturan Data Quality.
Batasan aktivasi aturan: Aturan dengan ambang batas dinamis memerlukan 21 hari catatan sampling agar berfungsi dengan benar. Jika jumlah catatan kurang dari 21 hari, pemeriksaan aturan akan abnormal. Jika Anda tidak memiliki 21 hari catatan sampling, Anda dapat mengonfigurasi aturan tersebut, mengaitkannya dengan node penjadwalan, lalu menggunakan fitur data backfill untuk menghasilkan 21 hari catatan yang diperlukan.
Komponen inti pemantauan kualitas
Mengonfigurasi aturan pemantauan kualitas berdasarkan tabel merupakan proses inti untuk mendefinisikan dan menginstansiasi logika validasi data. Proses ini menciptakan konfigurasi pemantauan kualitas lengkap yang terdiri dari empat bagian utama:
Cakupan pemantauan: Menentukan aset target untuk pemeriksaan kualitas data. Konfigurasi mencakup:
Objek yang dipantau: Pilih satu atau beberapa tabel fisik untuk diperiksa. Tabel partisi maupun non-partisi didukung.
Rentang waktu: Untuk tabel partisi, Anda harus menggunakan ekspresi filter partisi untuk memindai partisi secara dinamis selama setiap pemeriksaan. Misalnya, gunakan
$[yyyymmdd-1]untuk memeriksa data partisi dari hari sebelum waktu data.
Aturan kualitas: Mendefinisikan logika validasi dan standar spesifik untuk menentukan apakah data memenuhi ekspektasi.
Definisi aturan: Anda dapat menambahkan satu atau beberapa aturan kualitas ke objek yang dipantau. Setiap aturan diinstansiasi dari templat aturan, yang dapat berupa:
Templat sistem: Templat bawaan yang disediakan oleh DataWorks. Templat ini mencakup berbagai dimensi seperti integritas, keunikan, dan validitas. Contohnya termasuk "Fluktuasi Jumlah Baris Tabel" dan "Jumlah Nilai Unik Bidang".
Templat kustom: Logika validasi personal yang dapat digunakan kembali, dibuat oleh pengguna dengan SQL.
Properti aturan: Setiap aturan memerlukan konfigurasi properti utama. Properti tersebut mencakup ambang batas (misalnya, laju fluktuasi tidak melebihi 30%) dan tingkat keparahan (aturan kuat atau aturan lunak). Jika pemeriksaan aturan kuat gagal, node penjadwalan terkait dapat diblokir.
Metode pemicu: Menentukan kapan pekerjaan pemantauan kualitas dijalankan.
Dipicu oleh node penjadwalan: Kaitkan pekerjaan pemantauan kualitas dengan node penjadwalan DataWorks upstream—biasanya node yang menghasilkan tabel yang dipantau. Ketika node penjadwalan berhasil dijalankan, aturan kualitas terkait secara otomatis dipicu untuk validasi. Ini merupakan praktik terbaik untuk jaminan kualitas data otomatis.
Pemicu manual: Proses validasi tidak dikaitkan dengan node penjadwalan apa pun dan harus dimulai secara manual dari antarmuka. Metode ini cocok untuk eksplorasi dan validasi data sementara yang dilakukan satu kali.
Kebijakan peringatan: Mengonfigurasi strategi notifikasi saat terjadi masalah kualitas data.
Langganan peringatan: Anda dapat mengonfigurasi peringatan untuk hasil pemeriksaan aturan tertentu, seperti "Gagal" atau "Peringatan". Sistem mendukung pengiriman notifikasi melalui berbagai saluran, termasuk email, pesan teks, panggilan telepon, DingTalk, Lark, chatbot grup WeCom, dan Webhook kustom.
Setelah Anda mengonfigurasi keempat komponen ini dan menyimpan pengaturannya, rencana pemantauan kualitas lengkap akan dibuat. Kami menyarankan untuk menguji konfigurasi sebelum menerbitkannya ke lingkungan produksi.
Prosedur
1. Buka halaman detail kualitas tabel
Buka halaman Data Quality.
Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Quality.
Buka halaman untuk mengonfigurasi aturan pemantauan berdasarkan tabel.
Di panel navigasi kiri, klik untuk membuka halaman konfigurasi aturan.
Di daftar Data Source di sebelah kiri, pilih database yang berisi tabel tempat Anda ingin mengonfigurasi aturan.
Filter tabel berdasarkan jenis database, database, atau nama tabel. Klik nama tabel target atau klik Rule Management di kolom Actions. Hal ini akan membawa Anda ke halaman detail kualitas tabel untuk tabel tersebut.
Halaman ini menampilkan semua pekerjaan dan aturan pemantauan kualitas yang telah dikonfigurasi untuk tabel saat ini. Anda dapat dengan cepat memfilter aturan berdasarkan apakah aturan tersebut dikaitkan dengan pekerjaan pemantauan kualitas. Anda juga dapat menentukan metode eksekusi untuk aturan yang belum dikaitkan dengan pekerjaan pemantauan kualitas.

2. Buat pekerjaan pemantauan kualitas
Buat pekerjaan pemantauan kualitas baru.
Anda dapat membuat pekerjaan pemantauan kualitas dengan dua cara:
Halaman manajemen aturan
Di halaman Table Quality Details untuk tabel tersebut, klik tab Rule Management. Di samping Monitor Perspective, klik ikon
untuk membuat pekerjaan pemantauan kualitas baru.
Halaman pemantauan kualitas
Di halaman Table Quality Details untuk tabel tersebut, alihkan ke tab Monitor. Klik Create Monitor.

Konfigurasi parameter untuk pekerjaan pemantauan kualitas.
Item konfigurasi
Parameter
Deskripsi
Basic Configurations
Monitor Name
Masukkan nama kustom untuk aturan pemantauan.
Quality Monitoring Owner
Anda dapat menentukan pemilik monitor sesuai kebutuhan. Saat mengonfigurasi langganan peringatan, Anda dapat menentukan pemilik monitor sebagai penerima peringatan dengan menggunakan Email, Email and SMS, atau Telephone.
Monitored Object
Objek untuk pemeriksaan kualitas data. Secara default, ini adalah tabel saat ini.
Data Range
Gunakan ekspresi filter partisi untuk menentukan partisi yang akan diperiksa oleh aturan kualitas.
Untuk tabel non-partisi, Anda tidak perlu mengonfigurasi parameter ini. Semua data dalam tabel diperiksa secara default.
Tabel partisi: Format ekspresi adalah
partition_name=partition_value. Nilai partisi dapat berupa bidang statis atau ekspresi filter partisi bawaan dari Lampiran 2.
CatatanKonfigurasi ini tidak berlaku saat Anda menggunakan templat kustom atau SQL kustom untuk mengonfigurasi aturan. Untuk aturan yang dikonfigurasi dengan templat kustom atau SQL kustom, partisi yang akan diperiksa ditentukan oleh SQL kustom tersebut.
Monitoring Rule
Monitoring Rule
Kaitkan aturan kualitas dengan pekerjaan pemantauan kualitas untuk menentukan aturan mana yang akan memeriksa apakah data dalam rentang waktu saat ini memenuhi ekspektasi.
CatatanAnda dapat membuat beberapa pekerjaan pemantauan kualitas untuk partisi berbeda dan mengaitkannya dengan aturan kualitas berbeda. Hal ini memungkinkan Anda menerapkan aturan validasi berbeda untuk partisi berbeda.
Jika Anda belum membuat aturan kualitas, Anda dapat melewati langkah ini untuk saat ini. Buat terlebih dahulu pekerjaan pemantauan kualitas, lalu tambahkan aturan ke dalamnya nanti. Untuk informasi lebih lanjut tentang cara membuat aturan kualitas, lihat 3. Konfigurasi aturan Data Quality.
Running Settings
Trigger Method
Metode pemicu untuk monitor.
Triggered by Node Scheduling in Production Environment: Setelah node penjadwalan yang Anda kaitkan dengan monitor selesai dijalankan di Operation Center, aturan yang dikaitkan dengan monitor secara otomatis dipicu. Perhatikan bahwa node simulasi kering tidak memicu aturan pemantauan untuk dijalankan.
Triggered Manually: Aturan pemantauan yang dikaitkan dengan monitor dipicu secara manual.
PentingJika tabel yang ingin Anda periksa kualitas datanya bukan tabel MaxCompute dan Triggered By Node Scheduling In Production Environment dipilih untuk parameter Trigger Method, Anda tidak dapat mengaitkan node penjadwalan yang dijalankan pada resource group bersama untuk penjadwalan dengan monitor. Jika tidak, kesalahan mungkin terjadi saat monitor dijalankan.
Associated Scheduling Node
Jika Anda mengatur parameter Trigger Method ke Triggered By Node Scheduling In Production Environment, Anda dapat mengonfigurasi parameter ini untuk memilih node penjadwalan yang ingin Anda kaitkan dengan monitor. Setelah node penjadwalan selesai dijalankan, aturan yang dikaitkan dengan monitor secara otomatis dipicu.
Running Resources
Sumber daya komputasi yang diperlukan untuk menjalankan pemeriksaan aturan kualitas. Secara default, sumber data tabel yang dipantau di ruang kerja dipilih. Jika Anda memilih sumber data lain, pastikan sumber daya yang sesuai dapat mengakses tabel tersebut.
Handling Policies
Quality Issue Handling Policies
Konfigurasi kebijakan pemblokiran atau peringatan yang akan digunakan saat terdeteksi masalah kualitas data.
Block: Saat terdeteksi masalah kualitas data, sistem mengidentifikasi node penjadwalan produksi yang memicu pemeriksaan kualitas tabel. Sistem kemudian menetapkan status node menjadi gagal, dan node downstream tidak akan dijalankan. Hal ini memblokir pipeline produksi untuk mencegah penyebaran data bermasalah.
Default-nya adalah
Strong Rule - Critical Anomaly.Alert: Saat terdeteksi masalah kualitas data, pesan peringatan dikirim ke saluran langganan peringatan pekerjaan pemantauan kualitas.
Default-nya adalah:
Strong Rule - Critical Anomaly,Strong Rule - Warning Anomaly,Strong Rule - Check Failed,Soft Rule - Critical Anomaly,Soft Rule - Warning Anomaly, danSoft Rule - Check Failed.
Alert Method Configuration
Anda dapat mengirim notifikasi peringatan menggunakan Email, Email and SMS, DingTalk Chatbot, DingTalk Chatbot @ALL, Lark Group Chatbot, Enterprise Wecha Robot, Custom WebHook, atau Telephone.
CatatanAnda dapat menambahkan chatbot DingTalk, chatbot Lark, atau chatbot WeChat dan mendapatkan URL webhook. Kemudian, salin URL webhook tersebut ke bidang Recipient di kotak dialog langganan peringatan.
Metode notifikasi Custom Webhook hanya didukung di DataWorks Edisi Perusahaan. Untuk informasi tentang format pesan notifikasi peringatan yang dikirim menggunakan Custom Webhook, lihat Lampiran: Format pesan notifikasi peringatan yang dikirim menggunakan URL webhook kustom.
Saat Anda memilih Email, Email and SMS, atau Telephone sebagai metode notifikasi, Anda dapat menentukan Recipient sebagai Monitor Owner, Shift Schedule, atau Node Owner.
Data Quality Monitoring Owner: Informasi peringatan akan dikirim ke Quality Monitoring Owner yang ditetapkan di bagian Basic Configurations monitor kualitas saat ini.
Shift Schedule: Saat aturan pemantauan yang dikaitkan dengan monitor dipicu dan peringatan dihasilkan, sistem mengirim notifikasi peringatan ke orang yang bertugas pada hari tersebut dalam jadwal shift.
Scheduling Task Owner: Notifikasi peringatan dikirim ke pemilik node penjadwalan yang dikaitkan dengan monitor.
Klik Save untuk membuat pekerjaan pemantauan kualitas.
3. Konfigurasi aturan Data Quality
Anda dapat mengonfigurasi aturan kualitas berdasarkan templat pemantauan tingkat tabel dan tingkat bidang bawaan. Untuk informasi lebih lanjut tentang templat aturan bawaan, lihat Lihat templat aturan bawaan.
Di halaman Table Quality Details, pada tab Rule Management, pilih pekerjaan pemantauan kualitas yang telah Anda buat. Lalu, klik Create Rule untuk membuka halaman konfigurasi aturan.
Buat aturan Data Quality.
Data Quality menyediakan metode berikut untuk mengonfigurasi aturan pemantauan kualitas. Pilih salah satu sesuai kebutuhan.
Metode 1: Gunakan templat sistem
Data Quality menyediakan puluhan templat aturan kualitas bawaan. Di panel sebelah kiri, klik + Use untuk membuat aturan pemantauan kualitas secara cepat berdasarkan templat tersebut. Anda dapat menambahkan beberapa aturan sekaligus.
Anda dapat mengklik + System Template Rule di bagian atas lalu memodifikasi parameter Rule Template untuk memilih templat aturan target.
Metode 2: Gunakan templat kustom
CatatanSebelum menggunakan metode ini untuk membuat aturan, Anda harus membuka untuk membuat templat aturan kustom. Untuk informasi selengkapnya, lihat Buat dan kelola templat aturan kustom.
Saat Anda mereferensikan templat aturan kustom, konfigurasi dasar templat, seperti parameter FLAG parameter dan SQL, akan ditampilkan secara otomatis. Anda dapat mengonfigurasi parameter Rule Name sesuai kebutuhan bisnis Anda, dan parameter Monitoring Threshold berdasarkan jenis aturan. Misalnya, Anda harus menentukan ambang normal dan ambang kritis untuk aturan numerik, serta menentukan ambang peringatan selain ambang normal dan ambang kritis untuk aturan jenis fluktuasi.
Metode 3: Gunakan pernyataan SQL kustom
Metode ini memungkinkan Anda menyesuaikan logika validasi kualitas data untuk tabel tersebut.
Metode 4: Gunakan skrip kustom
Aturan skrip kustom mendukung validasi data pada tingkat jam dan menit. Untuk informasi tentang cara menulis aturan skrip, lihat Gunakan templat aturan sistem. Contohnya:
- assertion: change 30 minutes ago for max(id) = 15 name: 30-minute difference in max value of id field is 15
(Opsional) Anda dapat menambahkan aturan yang telah dikonfigurasi ke pekerjaan pemantauan kualitas. Untuk informasi lebih lanjut tentang pekerjaan pemantauan kualitas, lihat 2. Buat pekerjaan pemantauan kualitas.
CatatanAturan pemantauan yang dikonfigurasi hanya dapat dipicu jika Anda menambahkan aturan tersebut ke monitor. Untuk mengaitkan aturan dengan monitor, Anda dapat memilih monitor yang sudah ada di sini, atau memilih aturan di bagian Monitoring Rule saat mengonfigurasi monitor.

Klik Determine.
4. Uji eksekusi aturan
Anda dapat menguji pemicuan aturan dalam pekerjaan pemantauan kualitas dengan cara berikut.
Uji coba dari tab Rule Management
Di tab Rule Management, di Monitor Perspective, temukan pekerjaan pemantauan kualitas yang telah Anda buat dan klik Test Run.

Di kotak dialog Test Run, periksa konfigurasi parameter, seperti Data Range dan Scheduling Time, lalu klik Test Run. Jika status Started ditampilkan, Anda dapat mengklik View Details untuk melihat hasil uji coba.

Uji coba dari tab Monitor
Di tab Monitor, temukan monitor yang telah dibuat dan pilih di kolom Actions.

Di kotak dialog Test Run, periksa konfigurasi parameter, seperti Data Range dan Scheduling Time, lalu klik Test Run. Jika status Started ditampilkan, Anda dapat mengklik View Details untuk melihat hasil uji coba.

5. Modifikasi langganan peringatan
Anda menyiapkan langganan peringatan di Langkah 2. Buat pekerjaan pemantauan kualitas. Saat aturan dipicu, sistem mengirim notifikasi ke penerima peringatan yang sesuai. Jika Anda ingin memodifikasi langganan peringatan untuk memberi tahu pengguna lain, Anda dapat mengonfigurasinya dengan cara berikut.
Subskripsi di tab Rule Management
Di tab Rule Management, di Monitor Perspective, temukan pekerjaan pemantauan kualitas yang telah Anda buat dan buka halaman langganan peringatan seperti yang ditunjukkan di bawah ini.

Di kotak dialog Alert Subscription, tambahkan Notification Method dan Recipient, lalu klik Save di kolom Actions. Setelah Anda menyimpan konfigurasi, Anda dapat mengonfigurasi langganan lain dengan metode notifikasi dan penerima peringatan yang berbeda.
Data Quality mendukung metode notifikasi berikut: Email, Email and SMS, DingTalk Chatbot, DingTalk Chatbot @ALL, Lark Group Chatbot, Enterprise Wechat Robot, Custom Webhook, dan Telephone.
CatatanAnda dapat menambahkan chatbot DingTalk, chatbot Lark, atau chatbot WeChat dan mendapatkan URL webhook. Kemudian, salin URL webhook tersebut ke bidang Recipient di kotak dialog langganan peringatan.
Metode notifikasi Custom Webhook hanya didukung di DataWorks Edisi Perusahaan. Untuk informasi tentang format pesan notifikasi peringatan yang dikirim menggunakan Custom Webhook, lihat Lampiran: Format pesan notifikasi peringatan yang dikirim menggunakan URL webhook kustom.
Saat Anda memilih Email, Email and SMS, atau Telephone sebagai metode notifikasi, Anda dapat menentukan Recipient sebagai Monitor Owner, Shift Schedule, atau Node Owner.
Data Quality Monitoring Owner: Informasi peringatan akan dikirim ke Quality Monitoring Owner yang ditetapkan di bagian Basic Configurations monitor kualitas saat ini.
Shift Schedule: Saat aturan pemantauan yang dikaitkan dengan monitor dipicu dan peringatan dihasilkan, sistem mengirim notifikasi peringatan ke orang yang bertugas pada hari tersebut dalam jadwal shift.
Scheduling Task Owner: Notifikasi peringatan dikirim ke pemilik node penjadwalan yang dikaitkan dengan monitor.
Berlangganan dari tab Quality Monitoring
Di tab Quality Monitoring, temukan pekerjaan pemantauan kualitas yang telah Anda buat, lalu di kolom Actions, klik .

Di kotak dialog Alert Subscription, tambahkan Notification Method dan Recipient, lalu klik Save di kolom Actions. Setelah Anda menyimpan konfigurasi, Anda dapat mengonfigurasi langganan lain dengan metode notifikasi dan penerima peringatan yang berbeda.
Data Quality mendukung metode notifikasi berikut: Email, Email and SMS, DingTalk Chatbot, DingTalk Chatbot @ALL, Lark Group Chatbot, Enterprise Wechat Robot, Custom Webhook, dan Telephone.
CatatanAnda dapat menambahkan chatbot DingTalk, chatbot Lark, atau chatbot WeChat dan mendapatkan URL webhook. Kemudian, salin URL webhook tersebut ke bidang Recipient di kotak dialog langganan peringatan.
Metode notifikasi Custom Webhook hanya didukung di DataWorks Edisi Perusahaan. Untuk informasi tentang format pesan notifikasi peringatan yang dikirim menggunakan Custom Webhook, lihat Lampiran: Format pesan notifikasi peringatan yang dikirim menggunakan URL webhook kustom.
Saat Anda memilih Email, Email and SMS, atau Telephone sebagai metode notifikasi, Anda dapat menentukan Recipient sebagai Monitor Owner, Shift Schedule, atau Node Owner.
Data Quality Monitoring Owner: Informasi peringatan akan dikirim ke Quality Monitoring Owner yang ditetapkan di bagian Basic Configurations monitor kualitas saat ini.
Shift Schedule: Saat aturan pemantauan yang dikaitkan dengan monitor dipicu dan peringatan dihasilkan, sistem mengirim notifikasi peringatan ke orang yang bertugas pada hari tersebut dalam jadwal shift.
Scheduling Task Owner: Notifikasi peringatan dikirim ke pemilik node penjadwalan yang dikaitkan dengan monitor.
Langkah selanjutnya
Setelah monitor dijalankan, Anda dapat memilih Quality O&M di panel navigasi kiri dan klik Monitor dan Running Records untuk melihat status pemeriksaan kualitas tabel tertentu dan catatan lengkap pemeriksaan aturan kualitas.
Lampiran
Lampiran 1: Rumus laju fluktuasi dan varians
Rumus laju fluktuasi:
Laju fluktuasi = (Nilai sampel - Nilai garis dasar) / Nilai garis dasarNilai sampel: Nilai spesifik dari sampel yang dikumpulkan pada hari ini. Misalnya, untuk pemeriksaan fluktuasi 1 hari jumlah baris tabel dalam tugas SQL, sampelnya adalah jumlah baris partisi hari ini.
Nilai garis dasar: Nilai perbandingan dari sampel historis.
CatatanJika aturan tersebut adalah pemeriksaan
laju fluktuasi 1 hari jumlah baris tabeluntuk tugas SQL, nilai garis dasarnya adalah jumlah baris tabel dari partisi hari sebelumnya.Jika aturan tersebut adalah pemeriksaan
laju fluktuasi rata-rata 7 hari jumlah baris tabeluntuk tugas SQL, nilai garis dasarnya adalah rata-rata data jumlah baris tabel dari 7 hari sebelumnya.
Rumus fluktuasi varians:
(Sampel saat ini - Rata-rata N hari terakhir) / Standar deviasiCatatanVarians hanya dapat digunakan untuk tipe numerik seperti BIGINT dan DOUBLE.
Lampiran 2: Ekspresi filter partisi bawaan
Skenario:
Waktu data (bizdate) adalah
20240524.Waktu terjadwal adalah
10:30:00
Ekspresi Filter Partisi | Periksa Deskripsi Target | Contoh (Berdasarkan skenario) |
| Memeriksa data partisi dari waktu data saat ini. |
|
| Memeriksa data partisi dari hari sebelum waktu data. |
|
| Memeriksa data partisi dari 7 hari sebelum waktu data (seminggu yang lalu). |
|
| Memeriksa data partisi dari hari yang sama pada bulan sebelumnya seperti waktu data. |
|
| Memeriksa partisi untuk waktu data saat ini, akurat hingga waktu terjadwal saat ini (tingkat detik). |
|
| Memeriksa data partisi tingkat detik pada tengah malam dari waktu data saat ini. |
|
| Memeriksa data partisi tingkat detik dari satu jam sebelum waktu terjadwal pada waktu data saat ini. |
|
| (Untuk partisi per jam) Memeriksa partisi dari satu jam sebelum waktu terjadwal. Formatnya biasanya |
|
| (Untuk partisi tingkat menit) Memeriksa partisi dari 30 menit sebelum waktu terjadwal. Formatnya biasanya |
|
| (Untuk subpartisi) Memeriksa semua data partisi per jam dari hari sebelum waktu data. | Semua partisi dari |