Node Pemantauan Kualitas Data di DataWorks memungkinkan Anda memantau kualitas data tabel dari berbagai sumber data dengan mengonfigurasi aturan pemantauan, misalnya untuk mendeteksi Dirty Data. Anda juga dapat menentukan kebijakan penjadwalan kustom guna menjalankan tugas Validasi Data secara berkala. Topik ini menjelaskan cara menggunakan Node Pemantauan Kualitas Data.
Latar Belakang
Fitur Kualitas Data di DataWorks membantu Anda mendeteksi perubahan pada data sumber dan mengidentifikasi Dirty Data yang dihasilkan selama proses ETL (Extract, Transform, and Load). Fitur ini secara otomatis memblokir tugas bermasalah untuk mencegah penyebaran data cacat ke sistem downstream, sehingga memastikan output tugas sesuai ekspektasi dan tidak memengaruhi keputusan bisnis. Selain itu, fitur ini secara signifikan mengurangi waktu dan biaya troubleshooting serta eksekusi ulang tugas. Untuk informasi lebih lanjut, lihat Kualitas Data.
Batasan
Jenis tabel yang didukung untuk pemantauan meliputi MaxCompute, E-MapReduce, Hologres, CDH Hive, AnalyticDB for PostgreSQL, AnalyticDB for MySQL, dan StarRocks.
Anda hanya dapat memantau tabel yang memenuhi kondisi berikut:
Tabel tersebut harus termasuk dalam Sumber Data yang terikat ke Ruang Kerja tempat node tersebut berada.
Setiap node hanya dapat memantau satu tabel, tetapi Anda dapat mengonfigurasi beberapa aturan pemantauan untuk tabel tersebut. Cakupan pemantauan bervariasi tergantung jenis tabel:
Untuk Tabel Non-partisi, seluruh tabel dipantau secara default.
Untuk Tabel Partisi, Anda harus menggunakan ekspresi partisi untuk menentukan partisi yang akan dipantau.
CatatanJika Anda perlu memantau beberapa tabel, buat node terpisah untuk setiap tabel.
Batasan operasional berikut berlaku:
Aturan Pemantauan Kualitas Data yang dibuat di DataStudio hanya dapat dijalankan, dimodifikasi, dan dipublikasikan di dalam DataStudio. Anda dapat melihat aturan ini di modul Kualitas Data, tetapi tidak dapat memicu eksekusi terjadwal atau melakukan operasi manajemen di sana.
Jika Anda memodifikasi Aturan Pemantauan di Node Pemantauan Kualitas Data lalu menerbitkan node tersebut, Aturan Pemantauan asli yang dihasilkannya akan ditimpa.
Prasyarat
Anda telah mengikat Resource Compute dan membuat tabel yang akan dipantau di resource tersebut.
Sebelum menjalankan tugas Pemantauan Kualitas Data, pastikan tabel yang akan dipantau telah dibuat. Untuk informasi lebih lanjut, lihat Mengaitkan resource komputasi dan Pengembangan node.
Anda telah membuat Resource Group.
Hanya Resource Group Serverless yang dapat digunakan untuk menjalankan Node Pemantauan Kualitas Data. Untuk informasi lebih lanjut, lihat Manajemen kelompok sumber daya.
(Opsional, wajib untuk pengguna RAM) Pengguna RAM untuk pengembangan tugas telah ditambahkan ke Ruang Kerja yang sesuai dan diberi peran Developer atau Workspace Administrator. Perhatikan bahwa peran Workspace Administrator memiliki izin yang luas dan harus diberikan dengan hati-hati. Untuk informasi lebih lanjut tentang penambahan anggota dan pemberian izin, lihat Menambahkan anggota ke ruang kerja.
Langkah 1: Buat node pemantau kualitas
Buka halaman Workspaces di Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih di kolom Actions.
Di panel navigasi kiri, klik
untuk membuka DataStudio. Di sebelah kanan Business Flow, klik
dan pilih . Ikuti petunjuk di layar untuk memasukkan path dan nama node, lalu buat node tersebut.
Langkah 2: Mengonfigurasi aturan pemantauan kualitas data
1. Pilih tabel
Di halaman konfigurasi Node Pemantauan Kualitas Data, klik Add Table. Di kotak dialog Add Table, pilih tabel yang akan dipantau. Anda dapat menggunakan filter More untuk menemukan tabel dengan cepat.
Jika tabel tidak ditampilkan, buka My Data untuk mencari dan mengelolanya.
2. Tentukan cakupan data
Untuk Tabel Non-partisi, seluruh tabel dipantau secara default. Anda dapat melewati langkah ini.
Untuk Tabel Partisi, Anda harus memilih partisi tertentu yang akan dipantau. Anda dapat menggunakan Scheduling Parameter dalam ekspresi tersebut. Klik Preview untuk memverifikasi bahwa Ekspresi Partisi dievaluasi dengan benar.
3. Konfigurasikan aturan pemantauan kualitas data
Anda dapat membuat aturan baru atau mengimpor aturan yang sudah ada. Secara default, semua aturan yang dikonfigurasi diaktifkan.
Node Pemantauan Kualitas Data mendukung fitur Copilot Rule Recommendation, yang secara cerdas menghasilkan aturan kualitas berdasarkan informasi tabel Anda. Anda dapat memilih untuk menerima atau menolak saran ini sesuai kebutuhan.
Fitur DataWorks Copilot Code Programming Assistant sedang dalam pratinjau publik di beberapa wilayah. Jika fitur ini tidak tersedia di wilayah Anda, Anda dapat membuat atau mengimpor aturan secara manual seperti yang dijelaskan di bawah.
Buat aturan
Klik Create Rule untuk membuat Aturan Pemantauan Kualitas Data berdasarkan templat atau SQL kustom. Bagian berikut menjelaskan metode-metode tersebut.
Templat sistem
Platform menyediakan berbagai Aturan Pemantauan bawaan. Anda dapat menggunakan templat ini untuk membuat Aturan Pemantauan Kualitas Data dengan cepat. Gambar berikut mengilustrasikan proses ini.
CatatanSebagai alternatif, Anda dapat menemukan templat aturan di daftar templat sistem di sebelah kiri dan klik + Use untuk membuat aturan.

Templat kustom
Sebelum menggunakan metode ini, Anda harus terlebih dahulu membuka untuk membuat templat aturan kustom. Anda kemudian dapat menggunakan templat ini untuk membuat Aturan Pemantauan Kualitas Data. Untuk informasi lebih lanjut, lihat Membuat dan mengelola templat aturan kustom.
Gambar berikut menunjukkan cara membuat Aturan Kualitas Data berdasarkan templat kustom.
CatatanSebagai alternatif, Anda dapat menemukan templat aturan kustom di daftar templat kustom di sebelah kiri dan klik + Use untuk membuat aturan.

SQL kustom
Metode ini memungkinkan Anda menentukan logika validasi kualitas data kustom untuk tabel Anda.

Impor aturan yang sudah ada
Jika Anda telah membuat Aturan Pemantauan untuk tabel target di modul Data Quality, Anda dapat mengimpornya untuk mereplikasi aturan tersebut dengan cepat. Jika tidak ada aturan yang tersedia, Anda harus terlebih dahulu membuatnya di modul Data Quality. Untuk informasi lebih lanjut, lihat Mengonfigurasi aturan: Berdasarkan tabel (tabel tunggal).
CatatanMetode ini memungkinkan Anda mengimpor beberapa aturan sekaligus dan mengonfigurasinya di tingkat tabel atau bidang.
Klik Import Rule. Anda kemudian dapat mencari dan memilih aturan yang akan diimpor berdasarkan ID atau nama aturan, templat aturan, atau cakupan terkait (seluruh tabel atau bidang tabel tertentu).

Setelah Anda menerbitkan Data Quality Monitoring Node, Anda dapat melihat detail Aturan Pemantauan node tersebut di modul Data Quality. Namun, Anda tidak dapat memodifikasi atau menghapus aturan ini dari modul Data Quality.
4. Konfigurasikan resource waktu proses
Pilih Resource Waktu Proses yang diperlukan untuk menjalankan pemeriksaan aturan kualitas. Resource ini menentukan sumber data tempat tugas pemantauan dijalankan. Secara default, ini adalah sumber data yang sama yang berisi tabel yang dipantau.
Jika Anda memilih Sumber Data yang berbeda, pastikan sumber data tersebut memiliki Izin Akses yang diperlukan untuk tabel tersebut.
Langkah 3: Mengonfigurasi kebijakan penanganan peringatan
Di bagian Quality Monitor Handler pada halaman konfigurasi node, Anda dapat mengonfigurasi kebijakan penanganan dan metode langganan untuk peringatan yang dipicu oleh pemeriksaan kualitas data.
Kategori peringatan
Kategori peringatan | Deskripsi |
Strong Rule Check Fails |
|
Strong Rule Red Alert | |
Strong Rule Orange Alert | |
Weak Rule Check Fails | |
Weak Rule Red Alert | |
Weak Rule Orange Alert |
Kebijakan penanganan peringatan
Anda dapat mengonfigurasi kebijakan penanganan untuk peringatan yang dipicu oleh pemeriksaan aturan:
Continue: Kebijakan ini memungkinkan Anda mengonfigurasi sistem untuk menghentikan node saat ini dan menandainya sebagai gagal jika peringatan tertentu terdeteksi, seperti Peringatan Kritis dari Aturan Kuat.
CatatanSaat node saat ini gagal, Node Downstream tidak akan dijalankan. Hal ini memblokir pipeline produksi dan mencegah penyebaran data bermasalah.
Anda dapat mengonfigurasi kebijakan ini untuk memeriksa beberapa kategori peringatan.
Kebijakan ini biasanya digunakan ketika peringatan menunjukkan masalah serius yang harus memblokir tugas downstream.
Ignore: Mengabaikan peringatan dan memungkinkan node downstream untuk terus berjalan.
Metode langganan peringatan
Anda dapat mengonfigurasi cara menerima notifikasi peringatan, misalnya melalui email. Saat peringatan dipicu, platform mengirimkan notifikasi melalui saluran yang ditentukan, sehingga Anda dapat segera menemukan dan menangani masalah tersebut.
Platform mendukung berbagai metode notifikasi, yang dapat bervariasi tergantung antarmuka pengguna. Metode yang didukung meliputi:
Untuk notifikasi melalui Email, Email dan SMS, atau Telepon, Anda hanya dapat memilih pengguna di bawah akun saat ini sebagai penerima. Pastikan informasi kontak pengguna tersebut benar. Untuk informasi lebih lanjut, lihat Melihat dan mengatur kontak peringatan.
Untuk metode lainnya, Anda harus memasukkan URL Webhook untuk menerima notifikasi. Untuk informasi lebih lanjut tentang cara mendapatkan URL, lihat Mendapatkan URL Webhook.
Langkah 4: Mengonfigurasi penjadwalan tugas
Jika Anda perlu menjalankan tugas node secara terjadwal, klik Properties di sisi kanan halaman konfigurasi node. Konfigurasikan informasi penjadwalan untuk node tersebut berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Konfigurasi penjadwalan node.
Langkah 5: Debug tugas
Anda dapat melakukan operasi debugging berikut untuk memverifikasi bahwa tugas berjalan sesuai ekspektasi.
(Opsional) Pilih kelompok sumber daya untuk penjadwalan dan tetapkan nilai ke parameter kustom.
Di sisi kanan Node Pemantauan Kualitas Data, klik Run Configuration dan konfigurasikan Scheduling Resource Group untuk eksekusi debugging.
Jika tugas Anda menggunakan parameter penjadwalan, Anda dapat menetapkan nilai ke variabel di bagian Parameters untuk debugging. Untuk informasi lebih lanjut tentang logika penetapan parameter, lihat Proses debugging tugas.
Simpan dan jalankan tugas.
Klik ikon
di bilah alat atas untuk menyimpan tugas. Klik ikon
untuk menjalankan tugas.Setelah tugas selesai dijalankan, Anda dapat melihat hasilnya di bagian bawah halaman konfigurasi node. Jika eksekusi gagal, Anda dapat melakukan troubleshooting berdasarkan pesan error.
Langkah 6: Terbitkan tugas
Setelah Anda mengonfigurasi tugas node, Anda harus menerbitkannya. Setelah diterbitkan, node tersebut berjalan secara berkala berdasarkan Konfigurasi Penjadwalannya.
Saat Anda menerbitkan Node Pemantauan Kualitas Data, aturan kualitas yang dikonfigurasi juga diterbitkan.
Klik ikon
di bilah alat atas untuk Save node.Klik ikon
di bilah alat atas untuk Publish node.
Untuk informasi lebih lanjut tentang penerbitan node, lihat Penerapan node dan alur kerja.
Langkah selanjutnya
O&M Tugas: Setelah tugas diterbitkan, tugas tersebut berjalan secara berkala berdasarkan Konfigurasi Penjadwalan node. Anda dapat mengklik O&M di pojok kanan atas halaman konfigurasi node untuk membuka Pusat O&M. Di sana, Anda dapat melihat status penjadwalan dan eksekusi tugas berkala, termasuk status node dan detail aturan yang dipicu. Untuk informasi lebih lanjut, lihat Mengelola tugas yang dipicu otomatis.
Kualitas Data: Setelah Aturan Pemantauan Kualitas Data diterbitkan, Anda juga dapat membuka modul Kualitas Data untuk melihat detailnya. Namun, Anda tidak dapat melakukan operasi manajemen seperti memodifikasi atau menghapus aturan dari sana. Untuk informasi lebih lanjut, lihat Kualitas Data.