DataWorks Data Quality (DQC) adalah platform pemantauan dan jaminan data yang andal. Platform ini membantu Anda mengidentifikasi dan memblokir data kotor secara proaktif dalam alur produksi data Anda, mencegah penyebaran data bermasalah ke sistem downstream, menjamin akurasi keputusan bisnis, serta secara signifikan mengurangi biaya troubleshooting dan rerun sumber daya.
Konsep inti dan alur kerja
Sebelum menggunakan Data Quality, Anda perlu memahami konsep inti dan alur kerjanya. Sistem ini dibangun di atas komponen inti berikut:
Template: Menentukan cara memvalidasi data. DataWorks menyediakan pustaka lengkap templat bawaan, seperti jumlah baris tabel dan jumlah nilai unik dalam suatu kolom.
Monitoring Rules: Penerapan spesifik dari Rule Template. Anda dapat menerapkan templat pada kolom dalam tabel dan mengonfigurasi ambang batas tertentu. Misalnya, kolom
order_countdalam tabeldaily_salestidak boleh bernilai null.Monitor: Rencana eksekusi yang mengaitkan satu atau beberapa Monitoring Rules dengan Scheduling Node. Saat Scheduling Node berhasil dijalankan, sistem secara otomatis memicu semua aturan terkait untuk divalidasi.
Aturan Kuat/Lemah dan Pemblokiran: Anda dapat mengonfigurasi aturan agar Blocks Node downstream atau hanya mengirimkan Alert saat validasi gagal.
Alur kerja tipikal adalah sebagai berikut:
Virtual Nodes dan dry-run nodes tidak menghasilkan data aktual sehingga tidak dapat memicu aturan validasi Data Quality.
Fitur
DataWorks Data Quality mendukung validasi kualitas untuk sistem penyimpanan big data umum, seperti MaxCompute, E-MapReduce, Hologres, dan AnalyticDB for MySQL. Anda dapat mengonfigurasi aturan pemantauan dalam berbagai dimensi, termasuk kelengkapan, akurasi, dan konsistensi. Dengan mengaitkan aturan-aturan ini ke Scheduling Nodes, Anda dapat mengaktifkan validasi otomatis, pemberitahuan, dan pemblokiran.
Modul fungsional utama Data Quality beserta halaman terkait di Konsol adalah sebagai berikut:
Modul | Deskripsi | |
Memberikan ikhtisar komprehensif mengenai Data Quality di Workspace Anda. Menampilkan metrik utama, tren validasi aturan, tabel dengan masalah terbanyak beserta Pemiliknya, serta cakupan aturan. Hal ini membantu manajer kualitas menilai kesehatan keseluruhan data dan menangani masalah secara cepat. | ||
Quality Assets | Menampilkan daftar semua aturan yang telah dikonfigurasi. | |
Memungkinkan Anda membuat dan mengelola templat aturan kustom untuk kebutuhan pemantauan umum. Hal ini memusatkan definisi aturan dan menyederhanakan Konfigurasi Aturan. | ||
Rule Configuration | Metode ini memungkinkan Anda mengonfigurasi aturan pemantauan tingkat detik untuk satu tabel. | |
Metode ini memungkinkan Anda menerapkan Rule Template secara batch ke beberapa tabel yang memenuhi kondisi tertentu. | ||
Quality O&M | Halaman Monitor mencantumkan semua rencana Pemantauan Kualitas yang dibuat di Workspace saat ini. | |
Halaman ini menampilkan hasil validasi dari eksekusi rencana Pemantauan Kualitas, tempat Anda dapat melihat detail setiap eksekusi. | ||
Quality Analysis | Memungkinkan Anda membuat templat laporan dan menambahkan berbagai metrik terkait konfigurasi dan eksekusi aturan. Laporan dihasilkan secara otomatis dan dikirimkan sesuai jadwal berdasarkan periode statistik, waktu pengiriman, dan pengaturan langganan yang telah Anda konfigurasi. | |
Penagihan
Menjalankan aturan Data Quality menimbulkan dua jenis biaya:
Biaya DataWorks: DataWorks mengenakan biaya
pay-as-you-go berdasarkan jumlah eksekusi Rule Instance. Untuk informasi selengkapnya, lihat penagihan instans Data Quality.Biaya mesin komputasi: Proses ini menimbulkan biaya komputasi, seperti biaya untuk MaxCompute. Biaya tersebut dikenakan oleh penyedia mesin dan tidak termasuk dalam tagihan DataWorks Anda.
Pertimbangan
Sumber data yang didukung: Hanya MaxCompute, Hologres, E-MapReduce, Data Lake Formation (DLF), CDH Hive, AnalyticDB for PostgreSQL, AnalyticDB for MySQL, StarRocks, MySQL, Lindorm, dan SQL Server yang didukung. Wilayah yang didukung bervariasi tergantung pada tipe
data source . Lihat dokumentasi masing-masing mesin untuk informasi dukungan wilayah spesifik.Metadata Collection: Sebelum mengonfigurasi aturan untuk
data sources non-MaxCompute seperti E-MapReduce, Hologres, AnalyticDB, dan CDH, Anda harus menyelesaikanMetadata Collection terlebih dahulu. Untuk informasi selengkapnya, lihat Metadata Collection.Konektivitas jaringan: Saat memvalidasi
data sources non-MaxCompute, Scheduling Node terkait harus dijalankan pada kelompok sumber daya yang dikonfigurasi dengan solusi konektivitas jaringan.
Konfigurasi dan penggunaan kualitas data
1. Konfigurasi aturan
Create Rule: Anda dapat membuat aturan untuk
tabel tunggal atau dalamBatch untuk beberapa tabel menggunakan templat aturan bawaan atau templat aturan kustom. Untuk informasi selengkapnya, lihat Konfigurasi berdasarkan Tabel dan Konfigurasi berdasarkan Templat.Langganan notifikasi: Setelah membuat aturan, Anda dapat mengonfigurasi langganan untuk menerima notifikasi
Alert . Saluran yang didukung meliputiEmail ,SMS ,DingTalk Chatbot ,Enterprise Wechat Chatbot ,Lark Group Chatbot ,Telephone , danCustom Webhook .Opsi Custom Webhook hanya tersedia di DataWorks Enterprise Edition dan versi yang lebih tinggi.
2. Validasi aturan pemicu
Di Monitor, kaitkan aturan Anda dengan Scheduling Node. Saat Scheduling Node berhasil dijalankan di Operation Center, sistem secara otomatis memicu aturan Data Quality terkait untuk divalidasi. Berdasarkan tipe aturan (kuat atau lemah) dan hasil validasi, DataWorks menentukan apakah akan menandai instans Node sebagai gagal dan memblokir Node downstream, sehingga mencegah penyebaran data kotor.
3. Lihat hasil validasi
Di halaman Running Records, Anda dapat mencari berdasarkan nama tabel atau node untuk melihat hasil validasi dan log detail setiap eksekusi Pemantauan Kualitas. Untuk informasi selengkapnya, lihat Lihat detail eksekusi pemantauan kualitas.