全部产品
Search
文档中心

DataWorks:Kualitas Data

更新时间:Nov 15, 2025

DataWorks Kualitas Data membantu Anda mempertahankan kualitas data yang tinggi dengan mendeteksi perubahan pada data sumber dan mengidentifikasi data kotor yang dihasilkan selama proses ekstrak, transformasi, dan muat (ETL). Fitur ini dapat secara otomatis memblokir tugas bermasalah untuk mencegah penyebaran data kotor ke node hilir, sehingga menghindari masalah data tak terduga yang dapat memengaruhi operasi dan keputusan bisnis Anda serta mengurangi waktu dan biaya sumber daya yang diperlukan untuk menjalankan ulang tugas dan memperbaiki data.

Penagihan

Kualitas Data memeriksa kualitas data menggunakan aturan pemantauan. Biaya yang dikenakan untuk pemeriksaan Kualitas Data terdiri dari dua bagian berikut:

  • Biaya yang termasuk dalam tagihan DataWorks Anda

    Anda dikenai biaya oleh DataWorks berdasarkan jumlah Pemeriksaan Kualitas Data. Untuk informasi lebih lanjut, lihat Biaya lainnya.

  • Biaya yang tidak termasuk dalam tagihan DataWorks Anda

    Anda dikenakan biaya oleh mesin komputasi yang terkait dengan ruang kerja DataWorks Anda. Ketika aturan pemantauan dipicu, Pernyataan SQL dihasilkan dan dieksekusi oleh mesin komputasi tertentu.

    Dalam hal ini, Anda dikenakan biaya untuk sumber daya komputasi yang dikonsumsi oleh mesin komputasi tersebut. Untuk informasi lebih lanjut, lihat topik tentang penagihan untuk setiap jenis mesin komputasi. Sebagai contoh, jika Anda mengaitkan metode penagihan proyek MaxCompute bayar sesuai penggunaan dengan ruang kerja DataWorks Anda, Anda akan dikenakan biaya ketika mengeksekusi Pernyataan SQL. Biaya tersebut termasuk dalam tagihan MaxCompute Anda, bukan tagihan DataWorks Anda.

Fitur

Anda dapat mengonfigurasi aturan pemantauan kualitas pada beberapa dimensi, seperti kelengkapan, akurasi, validitas, konsistensi, keunikan, dan ketepatan waktu. Aturan ini dapat dikaitkan dengan node penjadwalan sehingga, setelah tugas selesai berjalan, pemeriksaan kualitas dipicu secara otomatis. Pendekatan ini memungkinkan Anda mendeteksi data bermasalah sejak awal dan menetapkan tingkat keparahan aturan untuk mengontrol apakah suatu tugas gagal dan berhenti. Dengan demikian, penyebaran data kotor dapat dicegah, serta waktu dan biaya pemulihan data dapat dikurangi secara signifikan.

Berikut adalah penjelasan fitur dari setiap modul Kualitas Data:

Fitur

Deskripsi

Dasbor

Halaman Dasbor menampilkan gambaran umum kualitas data di ruang kerja Anda. Ini mencakup metrik kunci kualitas data, tren dan distribusi instans pemeriksaan aturan, tabel dengan masalah kualitas data terbanyak, pemilik masalah, dan status cakupan aturan pemantauan. Ini membantu pemilik kualitas data memahami status kualitas data keseluruhan ruang kerja dan menangani masalah dengan cepat untuk meningkatkan kualitas data.

Aset Kualitas

Aturan

Lihat semua aturan pemantauan yang telah dikonfigurasi.

Pustaka Template Aturan

Kelola template aturan yang ditentukan pengguna untuk meningkatkan efisiensi konfigurasi aturan.

Konfigurasikan Aturan

Konfigurasikan Berdasarkan Tabel

Konfigurasikan aturan pemantauan untuk satu tabel atau untuk beberapa tabel berdasarkan template aturan.

Konfigurasikan Berdasarkan Template

O&M Kualitas

Monitor

Lihat semua monitor yang dibuat di ruang kerja saat ini.

Catatan Jalur

Lihat hasil monitor. Setelah monitor berjalan, Anda dapat melihat detailnya di halaman ini.

Analisis Kualitas

Laporan Kualitas

Buat template laporan dan tambahkan metrik terkait konfigurasi dan eksekusi aturan. Laporan dihasilkan dan dikirim secara berkala berdasarkan periode pelaporan, waktu pengiriman, dan detail langganan yang telah ditentukan.

Catatan Penggunaan

  • Tabel berikut menjelaskan tipe sumber data dan wilayah tempat tipe sumber data tersebut didukung.

    Tipe sumber data

    Wilayah yang didukung

    MaxCompute

    StarRocks

    MySQL

    Cina (Hangzhou), Cina (Shanghai), Cina (Beijing), Cina (Zhangjiakou), Cina (Ulanqab), Cina (Shenzhen), Cina (Chengdu), Cina (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), dan AS (Virginia).

    E-MapReduce

    Cina (Hangzhou), Cina (Shanghai), Cina (Beijing), Cina (Zhangjiakou), Cina (Shenzhen), Cina (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), dan AS (Silicon Valley).

    Hologres

    Cina (Hangzhou), Cina (Shanghai), Cina (Beijing), Cina (Zhangjiakou), Cina (Shenzhen), Cina (Hong Kong), Jepang (Tokyo), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Jerman (Frankfurt), AS (Silicon Valley), dan AS (Virginia).

    AnalyticDB for PostgreSQL

    Cina (Hangzhou), Cina (Shanghai), Cina (Beijing), Cina (Shenzhen), dan Jepang (Tokyo).

    AnalyticDB for MySQL

    Cina (Shenzhen), Singapura, dan AS (Silicon Valley).

    CDH

    Cina (Shanghai), Cina (Beijing), Cina (Zhangjiakou), Cina (Hong Kong), dan Jerman (Frankfurt).

  • Sebelum mengonfigurasi aturan pemantauan untuk E-MapReduce, Hologres, AnalyticDB for PostgreSQL, AnalyticDB for MySQL, CDH, StarRocks, dan MySQL, Anda harus terlebih dahulu mengumpulkan metadata mereka. Untuk informasi lebih lanjut, lihat Kumpulkan metadata dari sumber data EMR.

  • Agar aturan pemantauan pada tabel dari E-MapReduce, Hologres, AnalyticDB for PostgreSQL, AnalyticDB for MySQL, CDH, StarRocks, dan MySQL dapat dipicu, node penjadwalan yang menghasilkan data harus berjalan pada kelompok sumber daya yang terhubung ke sumber data tersebut.

  • Anda dapat mengonfigurasi beberapa aturan pemantauan untuk sebuah tabel.

Skenario

Dalam skenario validasi data offline, Anda dapat mengonfigurasi aturan pemantauan untuk sebuah tabel dengan menentukan ekspresi filter partisi dan mengaitkan aturan tersebut dengan node penjadwalan yang menghasilkan data tabel. Setelah node berjalan, aturan pemantauan dipicu untuk memeriksa data di partisi yang sesuai dengan ekspresi filter. Perlu dicatat bahwa tugas uji coba kering tidak memicu aturan pemantauan. Anda dapat mengonfigurasi aturan sebagai kuat atau lemah untuk menentukan apakah anomali menyebabkan tugas gagal, yang mencegah penyebaran data kotor ke hilir. Di halaman konfigurasi aturan, Anda juga dapat menentukan metode notifikasi untuk menerima pemberitahuan peringatan cepat.

Konfigurasikan aturan pemantauan

  • Buat aturan pemantauan: Anda dapat membuat aturan untuk satu tabel atau membuat aturan untuk beberapa tabel secara massal menggunakan template. Untuk informasi lebih lanjut, lihat Konfigurasikan aturan pemantauan untuk satu tabel dan Konfigurasikan aturan pemantauan untuk beberapa tabel berdasarkan template.

  • Berlangganan aturan pemantauan: Setelah aturan dibuat, Anda dapat berlangganan untuk menerima pemberitahuan peringatan untuk pemeriksaan kualitas data. Metode notifikasi mencakup Email, Email and SMS, DingTalk Chatbot, DingTalk Chatbot @ALL, Lark Group Chatbot, Enterprise Wechat Chatbot, Custom Webhook, dan Telephone.

    Catatan

    Metode notifikasi Custom Webhook hanya didukung di DataWorks Enterprise Edition.

Picu aturan pemantauan

Setelah node penjadwalan berjalan di Operation Center, aturan pemantauan terkait dipicu untuk memeriksa kualitas data yang dihasilkan oleh node tersebut. Pernyataan SQL dihasilkan dan dieksekusi pada mesin komputasi yang relevan. Berdasarkan kekuatan aturan (kuat atau lemah) dan hasil pemeriksaannya, DataWorks menentukan apakah akan menyebabkan tugas gagal. Ini memblokir node hilir dari berjalan dan mencegah penyebaran data kotor.

Lihat hasil validasi

Anda dapat melihat hasil validasi di halaman Monitor. Di halaman Running Records, cari berdasarkan tabel atau node untuk melihat detail validasi pemantauan kualitas data. Untuk informasi lebih lanjut, lihat Lihat detail monitor.