全部产品
Search
文档中心

DataWorks:Kualitas data

更新时间:Feb 12, 2026

DataWorks Data Quality (DQC) adalah platform pemantauan dan jaminan data yang andal. Platform ini membantu Anda mengidentifikasi dan memblokir data kotor secara proaktif dalam alur produksi data Anda, mencegah penyebaran data bermasalah ke sistem downstream, menjamin akurasi keputusan bisnis, serta secara signifikan mengurangi biaya troubleshooting dan rerun sumber daya.

Konsep inti dan alur kerja

Sebelum menggunakan Data Quality, Anda perlu memahami konsep inti dan alur kerjanya. Sistem ini dibangun di atas komponen inti berikut:

  1. Template: Menentukan cara memvalidasi data. DataWorks menyediakan pustaka lengkap templat bawaan, seperti jumlah baris tabel dan jumlah nilai unik dalam suatu kolom.

  2. Monitoring Rules: Penerapan spesifik dari Rule Template. Anda dapat menerapkan templat pada kolom dalam tabel dan mengonfigurasi ambang batas tertentu. Misalnya, kolom order_count dalam tabel daily_sales tidak boleh bernilai null.

  3. Monitor: Rencana eksekusi yang mengaitkan satu atau beberapa Monitoring Rules dengan Scheduling Node. Saat Scheduling Node berhasil dijalankan, sistem secara otomatis memicu semua aturan terkait untuk divalidasi.

  4. Aturan Kuat/Lemah dan Pemblokiran: Anda dapat mengonfigurasi aturan agar Blocks Node downstream atau hanya mengirimkan Alert saat validasi gagal.

Alur kerja tipikal adalah sebagai berikut:

Penting

Virtual Nodes dan dry-run nodes tidak menghasilkan data aktual sehingga tidak dapat memicu aturan validasi Data Quality.

image

Fitur

DataWorks Data Quality mendukung validasi kualitas untuk sistem penyimpanan big data umum, seperti MaxCompute, E-MapReduce, Hologres, dan AnalyticDB for MySQL. Anda dapat mengonfigurasi aturan pemantauan dalam berbagai dimensi, termasuk kelengkapan, akurasi, dan konsistensi. Dengan mengaitkan aturan-aturan ini ke Scheduling Nodes, Anda dapat mengaktifkan validasi otomatis, pemberitahuan, dan pemblokiran.

Modul fungsional utama Data Quality beserta halaman terkait di Konsol adalah sebagai berikut:

Modul

Deskripsi

Dashboard

Memberikan ikhtisar komprehensif mengenai Data Quality di Workspace Anda. Menampilkan metrik utama, tren validasi aturan, tabel dengan masalah terbanyak beserta Pemiliknya, serta cakupan aturan. Hal ini membantu manajer kualitas menilai kesehatan keseluruhan data dan menangani masalah secara cepat.

Quality Assets

Rules

Menampilkan daftar semua aturan yang telah dikonfigurasi.

Rule Template Library

Memungkinkan Anda membuat dan mengelola templat aturan kustom untuk kebutuhan pemantauan umum. Hal ini memusatkan definisi aturan dan menyederhanakan Konfigurasi Aturan.

Rule Configuration

Configure by Table

Metode ini memungkinkan Anda mengonfigurasi aturan pemantauan tingkat detik untuk satu tabel.

Configure by Template

Metode ini memungkinkan Anda menerapkan Rule Template secara batch ke beberapa tabel yang memenuhi kondisi tertentu.

Quality O&M

Monitor

Halaman Monitor mencantumkan semua rencana Pemantauan Kualitas yang dibuat di Workspace saat ini.

Running Records

Halaman ini menampilkan hasil validasi dari eksekusi rencana Pemantauan Kualitas, tempat Anda dapat melihat detail setiap eksekusi.

Quality Analysis

Quality Reports

Memungkinkan Anda membuat templat laporan dan menambahkan berbagai metrik terkait konfigurasi dan eksekusi aturan. Laporan dihasilkan secara otomatis dan dikirimkan sesuai jadwal berdasarkan periode statistik, waktu pengiriman, dan pengaturan langganan yang telah Anda konfigurasi.

Penagihan

Menjalankan aturan Data Quality menimbulkan dua jenis biaya:

  • Biaya DataWorks: DataWorks mengenakan biaya pay-as-you-go berdasarkan jumlah eksekusi Rule Instance. Untuk informasi selengkapnya, lihat penagihan instans Data Quality.

  • Biaya mesin komputasi: Proses ini menimbulkan biaya komputasi, seperti biaya untuk MaxCompute. Biaya tersebut dikenakan oleh penyedia mesin dan tidak termasuk dalam tagihan DataWorks Anda.

Pertimbangan

  • Sumber data yang didukung: Hanya MaxCompute, Hologres, E-MapReduce, Data Lake Formation (DLF), CDH Hive, AnalyticDB for PostgreSQL, AnalyticDB for MySQL, StarRocks, MySQL, Lindorm, dan SQL Server yang didukung. Wilayah yang didukung bervariasi tergantung pada tipe data source. Lihat dokumentasi masing-masing mesin untuk informasi dukungan wilayah spesifik.

  • Metadata Collection: Sebelum mengonfigurasi aturan untuk data sources non-MaxCompute seperti E-MapReduce, Hologres, AnalyticDB, dan CDH, Anda harus menyelesaikan Metadata Collection terlebih dahulu. Untuk informasi selengkapnya, lihat Metadata Collection.

  • Konektivitas jaringan: Saat memvalidasi data sources non-MaxCompute, Scheduling Node terkait harus dijalankan pada kelompok sumber daya yang dikonfigurasi dengan solusi konektivitas jaringan.

Konfigurasi dan penggunaan kualitas data

1. Konfigurasi aturan

  • Create Rule: Anda dapat membuat aturan untuk tabel tunggal atau dalam Batch untuk beberapa tabel menggunakan templat aturan bawaan atau templat aturan kustom. Untuk informasi selengkapnya, lihat Konfigurasi berdasarkan Tabel dan Konfigurasi berdasarkan Templat.

  • Langganan notifikasi: Setelah membuat aturan, Anda dapat mengonfigurasi langganan untuk menerima notifikasi Alert. Saluran yang didukung meliputi Email, SMS, DingTalk Chatbot, Enterprise Wechat Chatbot, Lark Group Chatbot, Telephone, dan Custom Webhook.

    Opsi Custom Webhook hanya tersedia di DataWorks Enterprise Edition dan versi yang lebih tinggi.

2. Validasi aturan pemicu

Di Monitor, kaitkan aturan Anda dengan Scheduling Node. Saat Scheduling Node berhasil dijalankan di Operation Center, sistem secara otomatis memicu aturan Data Quality terkait untuk divalidasi. Berdasarkan tipe aturan (kuat atau lemah) dan hasil validasi, DataWorks menentukan apakah akan menandai instans Node sebagai gagal dan memblokir Node downstream, sehingga mencegah penyebaran data kotor.

3. Lihat hasil validasi

Di halaman Running Records, Anda dapat mencari berdasarkan nama tabel atau node untuk melihat hasil validasi dan log detail setiap eksekusi Pemantauan Kualitas. Untuk informasi selengkapnya, lihat Lihat detail eksekusi pemantauan kualitas.