DataWorks Kualitas Data membantu Anda mempertahankan kualitas data yang tinggi dengan mendeteksi perubahan pada data sumber dan mengidentifikasi data kotor yang dihasilkan selama proses ekstrak, transformasi, dan muat (ETL). Fitur ini dapat secara otomatis memblokir tugas bermasalah untuk mencegah penyebaran data kotor ke node hilir, sehingga menghindari masalah data tak terduga yang dapat memengaruhi operasi dan keputusan bisnis Anda serta mengurangi waktu dan biaya sumber daya yang diperlukan untuk menjalankan ulang tugas dan memperbaiki data.
Penagihan
Kualitas Data memeriksa kualitas data menggunakan aturan pemantauan. Biaya yang dikenakan untuk pemeriksaan Kualitas Data terdiri dari dua bagian berikut:
Biaya yang termasuk dalam tagihan DataWorks Anda
Anda dikenai biaya oleh DataWorks berdasarkan jumlah Pemeriksaan Kualitas Data. Untuk informasi lebih lanjut, lihat Biaya lainnya.
Biaya yang tidak termasuk dalam tagihan DataWorks Anda
Anda dikenakan biaya oleh mesin komputasi yang terkait dengan ruang kerja DataWorks Anda. Ketika aturan pemantauan dipicu, Pernyataan SQL dihasilkan dan dieksekusi oleh mesin komputasi tertentu.
Dalam hal ini, Anda dikenakan biaya untuk sumber daya komputasi yang dikonsumsi oleh mesin komputasi tersebut. Untuk informasi lebih lanjut, lihat topik tentang penagihan untuk setiap jenis mesin komputasi. Sebagai contoh, jika Anda mengaitkan metode penagihan proyek MaxCompute bayar sesuai penggunaan dengan ruang kerja DataWorks Anda, Anda akan dikenakan biaya ketika mengeksekusi Pernyataan SQL. Biaya tersebut termasuk dalam tagihan MaxCompute Anda, bukan tagihan DataWorks Anda.
Fitur
Anda dapat mengonfigurasi aturan pemantauan kualitas pada beberapa dimensi, seperti kelengkapan, akurasi, validitas, konsistensi, keunikan, dan ketepatan waktu. Aturan ini dapat dikaitkan dengan node penjadwalan sehingga, setelah tugas selesai berjalan, pemeriksaan kualitas dipicu secara otomatis. Pendekatan ini memungkinkan Anda mendeteksi data bermasalah sejak awal dan menetapkan tingkat keparahan aturan untuk mengontrol apakah suatu tugas gagal dan berhenti. Dengan demikian, penyebaran data kotor dapat dicegah, serta waktu dan biaya pemulihan data dapat dikurangi secara signifikan.
Berikut adalah penjelasan fitur dari setiap modul Kualitas Data:
Fitur | Deskripsi | |
Halaman Dasbor menampilkan gambaran umum kualitas data di ruang kerja Anda. Ini mencakup metrik kunci kualitas data, tren dan distribusi instans pemeriksaan aturan, tabel dengan masalah kualitas data terbanyak, pemilik masalah, dan status cakupan aturan pemantauan. Ini membantu pemilik kualitas data memahami status kualitas data keseluruhan ruang kerja dan menangani masalah dengan cepat untuk meningkatkan kualitas data. | ||
Aset Kualitas | Lihat semua aturan pemantauan yang telah dikonfigurasi. | |
Kelola template aturan yang ditentukan pengguna untuk meningkatkan efisiensi konfigurasi aturan. | ||
Konfigurasikan Aturan | Konfigurasikan aturan pemantauan untuk satu tabel atau untuk beberapa tabel berdasarkan template aturan. | |
O&M Kualitas | Lihat semua monitor yang dibuat di ruang kerja saat ini. | |
Lihat hasil monitor. Setelah monitor berjalan, Anda dapat melihat detailnya di halaman ini. | ||
Analisis Kualitas | Buat template laporan dan tambahkan metrik terkait konfigurasi dan eksekusi aturan. Laporan dihasilkan dan dikirim secara berkala berdasarkan periode pelaporan, waktu pengiriman, dan detail langganan yang telah ditentukan. | |
Catatan Penggunaan
Tabel berikut menjelaskan tipe sumber data dan wilayah tempat tipe sumber data tersebut didukung.
Tipe sumber data
Wilayah yang didukung
MaxCompute
StarRocks
MySQL
Cina (Hangzhou), Cina (Shanghai), Cina (Beijing), Cina (Zhangjiakou), Cina (Ulanqab), Cina (Shenzhen), Cina (Chengdu), Cina (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia).
E-MapReduce
Cina (Hangzhou), Cina (Shanghai), Cina (Beijing), Cina (Zhangjiakou), Cina (Shenzhen), Cina (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), dan AS (Silicon Valley).
Hologres
Cina (Hangzhou), Cina (Shanghai), Cina (Beijing), Cina (Zhangjiakou), Cina (Shenzhen), Cina (Hong Kong), Jepang (Tokyo), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), AS (Silicon Valley), dan AS (Virginia).
AnalyticDB for PostgreSQL
Cina (Hangzhou), Cina (Shanghai), Cina (Beijing), Cina (Shenzhen), dan Jepang (Tokyo).
AnalyticDB for MySQL
Cina (Shenzhen), Singapura, dan AS (Silicon Valley).
CDH
Cina (Shanghai), Cina (Beijing), Cina (Zhangjiakou), Cina (Hong Kong), dan Jerman (Frankfurt).
Sebelum mengonfigurasi aturan pemantauan untuk E-MapReduce, Hologres, AnalyticDB for PostgreSQL, AnalyticDB for MySQL, CDH, StarRocks, dan MySQL, Anda harus terlebih dahulu mengumpulkan metadata mereka. Untuk informasi lebih lanjut, lihat Kumpulkan metadata dari sumber data EMR.
Agar aturan pemantauan pada tabel dari E-MapReduce, Hologres, AnalyticDB for PostgreSQL, AnalyticDB for MySQL, CDH, StarRocks, dan MySQL dapat dipicu, node penjadwalan yang menghasilkan data harus berjalan pada kelompok sumber daya yang terhubung ke sumber data tersebut.
Anda dapat mengonfigurasi beberapa aturan pemantauan untuk sebuah tabel.
Skenario
Dalam skenario validasi data offline, Anda dapat mengonfigurasi aturan pemantauan untuk sebuah tabel dengan menentukan ekspresi filter partisi dan mengaitkan aturan tersebut dengan node penjadwalan yang menghasilkan data tabel. Setelah node berjalan, aturan pemantauan dipicu untuk memeriksa data di partisi yang sesuai dengan ekspresi filter. Perlu dicatat bahwa tugas uji coba kering tidak memicu aturan pemantauan. Anda dapat mengonfigurasi aturan sebagai kuat atau lemah untuk menentukan apakah anomali menyebabkan tugas gagal, yang mencegah penyebaran data kotor ke hilir. Di halaman konfigurasi aturan, Anda juga dapat menentukan metode notifikasi untuk menerima pemberitahuan peringatan cepat.
Konfigurasikan aturan pemantauan
Buat aturan pemantauan: Anda dapat membuat aturan untuk satu tabel atau membuat aturan untuk beberapa tabel secara massal menggunakan template. Untuk informasi lebih lanjut, lihat Konfigurasikan aturan pemantauan untuk satu tabel dan Konfigurasikan aturan pemantauan untuk beberapa tabel berdasarkan template.
Berlangganan aturan pemantauan: Setelah aturan dibuat, Anda dapat berlangganan untuk menerima pemberitahuan peringatan untuk pemeriksaan kualitas data. Metode notifikasi mencakup Email, Email and SMS, DingTalk Chatbot, DingTalk Chatbot @ALL, Lark Group Chatbot, Enterprise Wechat Chatbot, Custom Webhook, dan Telephone.
CatatanMetode notifikasi Custom Webhook hanya didukung di DataWorks Enterprise Edition.
Picu aturan pemantauan
Setelah node penjadwalan berjalan di Operation Center, aturan pemantauan terkait dipicu untuk memeriksa kualitas data yang dihasilkan oleh node tersebut. Pernyataan SQL dihasilkan dan dieksekusi pada mesin komputasi yang relevan. Berdasarkan kekuatan aturan (kuat atau lemah) dan hasil pemeriksaannya, DataWorks menentukan apakah akan menyebabkan tugas gagal. Ini memblokir node hilir dari berjalan dan mencegah penyebaran data kotor.
Lihat hasil validasi
Anda dapat melihat hasil validasi di halaman Monitor. Di halaman Running Records, cari berdasarkan tabel atau node untuk melihat detail validasi pemantauan kualitas data. Untuk informasi lebih lanjut, lihat Lihat detail monitor.