DataWorks memungkinkan Anda membuat node pemantauan kualitas data dan menambahkan aturan pemantauan untuk memantau kualitas data dari tabel tertentu pada sumber data. Sebagai contoh, Anda dapat menggunakan node ini untuk memeriksa keberadaan data kotor. Anda juga dapat mengonfigurasi kebijakan penjadwalan kustom agar node berjalan secara berkala untuk memeriksa data. Topik ini menjelaskan cara membuat dan menggunakan node pemantauan kualitas data.
Informasi latar belakang
Untuk memastikan kualitas data, DataWorks Data Quality mendeteksi perubahan dalam data sumber dan melacak data kotor yang dihasilkan selama proses ekstraksi, transformasi, dan pemuatan (ETL). DataWorks Data Quality secara otomatis memblokir tugas-tugas yang melibatkan data kotor untuk mencegah penyebarannya ke tugas turunan. Dengan cara ini, Anda dapat mencegah tugas menghasilkan data kotor yang tidak terduga yang memengaruhi kelancaran operasi dan pengambilan keputusan bisnis. Ini juga membantu mengurangi waktu untuk menyelesaikan masalah serta mencegah pemborosan sumber daya akibat menjalankan ulang tugas. Untuk informasi lebih lanjut, lihat Ikhtisar Kualitas Data.
Batasan
Jenis sumber data yang didukung: MaxCompute, E-MapReduce (EMR), Hologres, Cloudera's Distribution Including Apache Hadoop (CDH) Hive, AnalyticDB for PostgreSQL, AnalyticDB for MySQL, dan StarRocks.
Ruang lingkup tabel yang dapat dipantau:
Anda hanya dapat memantau tabel dari sumber data yang ditambahkan ke ruang kerja tempat node pemantauan kualitas data saat ini berada.
Setiap node pemantauan kualitas data hanya dapat memantau satu tabel. Namun, Anda dapat menambahkan beberapa aturan pemantauan ke dalam node tersebut. Ruang lingkup pemantauan bervariasi berdasarkan jenis tabel.
Tabel non-partisi: Secara default, semua data dalam tabel dipantau.
Tabel partisi: Anda harus menentukan ekspresi filter partisi untuk menentukan partisi mana yang ingin Anda pantau.
CatatanJika Anda ingin memantau kualitas data dari beberapa tabel, buatlah beberapa node pemantauan kualitas data.
Operasi yang didukung:
Setelah Anda membuat aturan pemantauan kualitas data di Data Studio, Anda dapat menjalankan, memodifikasi, dan menerbitkan aturan pemantauan atau melakukan operasi manajemen lainnya hanya di Data Studio. Di DataWorks Data Quality, Anda dapat melihat aturan pemantauan tetapi tidak dapat memicu aturan untuk berjalan secara berkala atau melakukan operasi manajemen.
Jika Anda memodifikasi aturan pemantauan yang dikonfigurasikan dalam node pemantauan kualitas data dan menerapkan node tersebut, aturan pemantauan asli akan diganti.
Prasyarat
Sumber daya komputasi yang diperlukan telah dikaitkan dengan ruang kerja. Tabel yang ingin Anda pantau kualitas datanya dibuat di sumber daya komputasi.
Sebelum menjalankan node pemantauan kualitas data, Anda harus membuat tabel yang ingin Anda pantau kualitas datanya. Untuk informasi lebih lanjut, lihat Mengaitkan sumber daya komputasi dengan ruang kerja (Participate in Public Preview of Data Studio diaktifkan) dan Pengembangan node.
Grup sumber daya telah dibuat.
Anda hanya dapat menjalankan node pemantauan kualitas data menggunakan grup sumber daya serverless. Untuk informasi lebih lanjut, lihat Manajemen grup sumber daya.
(Diperlukan jika Anda menggunakan pengguna RAM untuk mengembangkan tugas) Pengguna RAM telah ditambahkan ke ruang kerja DataWorks sebagai anggota dan diberi peran Development atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas. Kami sarankan memberikan peran ini hanya jika diperlukan. Untuk informasi lebih lanjut tentang cara menambahkan anggota dan menetapkan peran kepada anggota, lihat Tambahkan anggota ruang kerja dan tetapkan peran kepada mereka.
Langkah 1: Buat node pemantauan kualitas data
Buka halaman Workspaces di konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih di kolom Actions.
Di panel navigasi sisi kiri halaman Data Studio, klik ikon
. Di bagian Workspace Directories pada panel DATA STUDIO, klik ikon
dan pilih . Di kotak dialog Create Node, konfigurasikan parameter Path dan Name, lalu klik OK.
Langkah 2: Konfigurasikan aturan pemantauan kualitas data
1. Pilih tabel yang ingin Anda pantau kualitas datanya
Di bagian Monitoring Rules pada tab konfigurasi node, klik Add Table. Di panel Add Table, pilih tabel yang ingin Anda pantau. Anda dapat mengklik More dan menentukan kondisi filter untuk menemukan tabel yang diinginkan.
Jika tabel yang diinginkan tidak ditampilkan, Anda dapat pergi ke Data Map dan memperbarui metadata tabel secara manual.
2. Konfigurasikan rentang data yang ingin Anda pantau
Tabel non-partisi: Secara default, semua data dalam tabel dipantau. Jika tabel Anda adalah tabel non-partisi, Anda dapat melewati konfigurasi ini.
Tabel partisi: Jika tabel Anda adalah tabel partisi, Anda harus memilih partisi yang ingin Anda pantau. Anda dapat menggunakan parameter penjadwalan untuk menentukan partisi. Anda dapat mengklik Preview untuk memeriksa apakah hasil perhitungan dari ekspresi filter partisi sesuai dengan harapan Anda.
3. Konfigurasikan aturan pemantauan kualitas data
Anda dapat membuat aturan pemantauan atau mengimpor aturan pemantauan yang sudah ada. Secara default, aturan yang dikonfigurasikan diaktifkan.
DataWorks menyediakan fitur Copilot-based rule recommendation untuk membuat aturan pemantauan kualitas data. Fitur ini dapat secara otomatis menghasilkan aturan berdasarkan informasi tabel. Anda dapat menerima atau menolak aturan berdasarkan kebutuhan bisnis Anda.
DataWorks Copilot tersedia untuk pratinjau publik hanya di wilayah tertentu. Jika DataWorks Copilot tidak tersedia di wilayah tempat ruang kerja Anda berada, Anda dapat merujuk pada informasi berikut untuk mengimpor aturan yang ada atau membuat aturan pemantauan kualitas data.
Buat aturan pemantauan
Klik Create Rule untuk membuat aturan pemantauan berdasarkan template atau pernyataan SQL kustom.
Metode 1: Buat aturan pemantauan berdasarkan template aturan bawaan
DataWorks menyediakan berbagai template bawaan yang dapat digunakan untuk membuat aturan pemantauan kualitas data. Gambar berikut menunjukkan prosedurnya.
CatatanAnda juga dapat menemukan template yang diinginkan dalam daftar template bawaan di sebelah kiri panel Create Rule dan klik + Use untuk membuat aturan pemantauan.

Metode 2: Buat aturan pemantauan berdasarkan template aturan kustom
Sebelum menggunakan metode ini, Anda harus membuat template aturan kustom: Buka halaman Data Quality. Di panel navigasi sisi kiri, pilih . Di bagian Custom Template Category pada halaman Templates, klik ikon plus untuk membuat template aturan kustom. Kemudian, Anda dapat membuat aturan pemantauan berdasarkan template tersebut. Untuk informasi lebih lanjut, lihat Buat dan Kelola Template Aturan Kustom.
Gambar berikut menunjukkan cara membuat aturan pemantauan berdasarkan template aturan kustom.
CatatanAnda juga dapat menemukan template yang diinginkan dalam daftar template aturan kustom di sebelah kiri panel Create Rule dan klik + Use untuk membuat aturan pemantauan.

Metode 3: Buat aturan pemantauan berdasarkan pernyataan SQL kustom
Metode ini memungkinkan Anda mengonfigurasi logika pemeriksaan kualitas data kustom untuk tabel.

Impor aturan pemantauan yang ada
Jika Anda sudah membuat aturan pemantauan untuk tabel yang dipilih di Data Quality, Anda dapat mengimpor aturan tersebut untuk mengkloning aturan. Jika belum, Anda dapat membuat aturan pemantauan untuk tabel di Data Quality. Untuk informasi lebih lanjut, lihat Konfigurasikan Aturan Pemantauan untuk Satu Tabel.
CatatanAnda dapat mengimpor beberapa aturan sekaligus dan mengonfigurasi aturan pemantauan untuk bidang dalam tabel.
Klik Import Rule. Di panel Batch Import, Anda dapat menentukan kondisi filter, seperti ID atau nama aturan, template aturan, dan rentang asosiasi, untuk mencari dan memilih aturan yang ingin diimpor. Rentang asosiasi menentukan rentang data yang ingin Anda pantau, yang bisa berupa seluruh tabel atau bidang tertentu dalam tabel.

Jika Anda menambahkan dan mengonfigurasikan aturan pemantauan dalam node pemantauan kualitas data, setelah Anda menerbitkan node tersebut, Anda dapat melihat detail aturan pemantauan di Data Quality. Namun, Anda tidak dapat melakukan operasi manajemen pada aturan, seperti memodifikasi atau menghapus aturan.
4. Konfigurasikan sumber daya runtime
Pilih sumber daya yang diperlukan untuk menjalankan aturan. Ini berarti Anda harus memilih sumber data tempat Anda ingin menjalankan node pemantauan kualitas data terkait. Secara default, sumber data tempat tabel yang dipantau milik dipilih.
Jika Anda memilih sumber data lain, pastikan bahwa sumber data dapat mengakses tabel yang ingin Anda pantau.
Langkah 3: Konfigurasikan kebijakan penanganan untuk hasil pemeriksaan
Di bagian Handling Policy pada tab konfigurasi node pemantauan kualitas data, konfigurasikan kebijakan penanganan dan metode langganan untuk pengecualian yang diidentifikasi berdasarkan aturan pemantauan.
Kategori pengecualian
Kategori Pengecualian | Deskripsi |
Aturan kuat - Pemeriksaan gagal |
|
Aturan kuat - Ambang batas kritis terlampaui | |
Aturan kuat - Ambang batas peringatan terlampaui | |
Aturan lemah - Pemeriksaan gagal | |
Aturan lemah -Ambang batas kritis terlampaui | |
Aturan lemah - Ambang batas peringatan terlampaui |
Kebijakan penanganan untuk pengecualian
Anda dapat mengonfigurasi kebijakan untuk menangani pengecualian yang diidentifikasi berdasarkan aturan pemantauan.
Jangan abaikan: Hentikan node saat ini dan atur status node menjadi Gagal ketika pengecualian tertentu diidentifikasi pada node. Sebagai contoh, Anda dapat menggunakan kebijakan ini untuk menangani pengecualian bahwa ambang batas kritis dari aturan pemantauan kuat terlampaui.
CatatanJika node saat ini gagal berjalan, node yang bergantung pada node saat ini tidak akan berjalan. Ini memblokir rantai produksi dan mencegah penyebaran data kotor.
Anda dapat menambahkan beberapa kategori pengecualian untuk deteksi.
Anda dapat menggunakan kebijakan ini ketika pengecualian memiliki dampak besar dan memblokir jalannya node turunan.
Abaikan: Abaikan pengecualian dan lanjutkan menjalankan node turunan.
Metode langganan untuk pengecualian
Anda dapat menentukan metode untuk menerima informasi tentang pengecualian, seperti melalui email. Ketika pengecualian diidentifikasi, DataWorks mendorong informasi tentang pengecualian menggunakan metode yang ditentukan. Dengan cara ini, personel terkait dapat menangani pengecualian secepat mungkin.
DataWorks mendukung beberapa metode untuk menerima informasi tentang pengecualian. Anda dapat melihat metode-metode tersebut di konsol DataWorks. Perhatikan hal-hal berikut:
Jika Anda menggunakan metode email, email dan pesan teks, atau panggilan telepon, Anda hanya dapat mengonfigurasikan pengguna yang terkait dengan akun saat ini sebagai penerima. Pastikan alamat email atau nomor telepon pengguna terkait dikonfigurasi dengan benar. Untuk informasi lebih lanjut, lihat Konfigurasikan dan Lihat Kontak Peringatan.
Jika Anda menggunakan metode lain, tentukan URL webhook yang digunakan untuk menerima informasi pengecualian. Untuk informasi tentang cara mendapatkan URL webhook, lihat Dapatkan URL Webhook.
Langkah 4: Konfigurasikan properti penjadwalan untuk node
Jika Anda ingin menjalankan node pemantauan kualitas data secara berkala, klik Properties di panel navigasi sisi kanan tab konfigurasi node dan konfigurasikan properti penjadwalan untuk node berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Konfigurasi Penjadwalan Node.
Langkah 5: Debug node pemantauan kualitas data
Anda dapat melakukan operasi berikut untuk memeriksa apakah node telah dikonfigurasi sesuai dengan harapan berdasarkan kebutuhan bisnis Anda:
Opsional. Pilih grup sumber daya dan tetapkan parameter penjadwalan ke variabel.
Di panel navigasi sisi kanan tab konfigurasi node pemantauan kualitas data, klik Debugging Configurations. Di tab Debugging Configurations, konfigurasikan resource group for scheduling.
Jika Anda mengonfigurasi parameter penjadwalan untuk node, tetapkan nilai ke parameter penjadwalan di bagian Script Parameters untuk debugging. Untuk informasi lebih lanjut tentang logika penetapan nilai parameter penjadwalan, lihat Prosedur Debugging.

Simpan dan jalankan node.
Di bilah alat atas tab konfigurasi, klik ikon
untuk menyimpan node dan ikon
untuk menjalankan node.Setelah proses menjalankan node selesai, Anda dapat melihat hasilnya di bagian bawah tab konfigurasi node. Jika node gagal dijalankan, periksa masalah berdasarkan kesalahan yang dilaporkan.
Langkah 6: Terapkan node pemantauan kualitas data
Setelah konfigurasi node selesai, Anda harus menerapkan node tersebut. Setelah node diterapkan, sistem secara berkala menjalankan node berdasarkan properti penjadwalan node.
Saat Anda menerapkan node, aturan pemantauan yang dikonfigurasikan dalam node juga diterapkan.
Di bilah alat atas tab konfigurasi node, klik ikon
untuk menyimpan node.Di bilah alat atas, klik ikon
untuk menerapkan node.
Untuk informasi lebih lanjut tentang cara menerapkan node, lihat Penyebaran Node atau Alur Kerja.
Apa yang harus dilakukan selanjutnya
Lakukan O&M pada node: Setelah Anda menerapkan node, node tersebut dijalankan secara berkala berdasarkan konfigurasi. Untuk melihat status penjadwalan node, seperti status berjalan node dan detail aturan pemantauan yang dipicu, Anda dapat mengklik O&M di sudut kanan atas tab konfigurasi node untuk pergi ke Operation Center. Untuk informasi lebih lanjut, lihat Lihat dan Kelola Tugas yang Dipicu Otomatis.
Pantau kualitas data: Setelah aturan pemantauan kualitas data diterbitkan, Anda dapat pergi ke halaman Data Quality untuk melihat detail aturan. Namun, Anda tidak dapat melakukan operasi manajemen pada aturan, seperti memodifikasi atau menghapus aturan. Untuk informasi lebih lanjut, lihat Data Quality.