全部产品
Search
文档中心

DataWorks:Panduan penggunaan modul

更新时间:Mar 25, 2026

DataWorks adalah platform terpadu dari Alibaba Cloud untuk pengembangan dan tata kelola data besar (big data). Platform ini mengelola seluruh siklus hidup data—mulai dari ingestion dan pemrosesan hingga tata kelola dan penyampaian layanan. Dengan modul-modul yang terintegrasi, DataWorks menyederhanakan dan memvisualisasikan alur kerja rekayasa data yang kompleks, sehingga secara signifikan menurunkan hambatan dalam pengembangan data. Panduan ini memperkenalkan modul inti DataWorks serta menjelaskan tujuan utama, kemampuan kunci, dan skenario penerapannya.

Alur Kerja

image
  1. Siapkan resource: Konfigurasikan lingkungan Anda di Management Center. Definisikan koneksi sumber data, alokasikan kelompok sumber daya, bind mesin komputasi seperti MaxCompute atau Hologres, dan kelola izin anggota.

  2. Ingest dan integrasikan data: Gunakan Data Integration untuk mengingest data dari sistem bisnis sumber ke platform data besar Anda. Data Integration mendukung sinkronisasi batch (offline), real-time (streaming), penuh (full), dan inkremental.

  3. Rancang model data: Sebelum pengembangan skala besar dimulai, rancang model standar untuk memastikan arsitektur data yang terorganisir dan mudah dipelihara. Tahap ini mencakup Perencanaan Gudang Data, definisi Data Standard, Dimensional Modeling (merancang tabel dimensi dan fakta), serta definisi Metrics bisnis inti.

  4. Proses dan transformasi data:

    • Tulis kode seperti SQL atau Python di WebIDE Data Studio atau Notebook. Gunakan orkestrasi alur kerja untuk mengatur node tugas independen menjadi grafik asiklik terarah (DAG).

    • Konfigurasikan kebijakan penjadwalan, lalu publikasikan alur kerja ke Operation Center. Operation Center menangani penjadwalan periodik, pemantauan tugas, peringatan, serta tugas operasional seperti pengisian ulang data (data backfill). Konfigurasikan aturan pemantauan Kualitas Data untuk tabel output guna memastikan akurasi.

    • DataWorks Copilot, asisten AI, membantu menghasilkan dan mengoptimalkan kode, memecahkan masalah, serta menyederhanakan pengembangan dan operasi.

  5. Analisis data: Berikan analis dan tim operasi kemampuan kueri SQL, wawasan data (data insights), dan buku kerja melalui Analisis Data. Hal ini memungkinkan kueri ad hoc dan analisis BI self-service.

  6. Berbagi dan pertukaran data: Gunakan Studio Layanan Data untuk membungkus data menjadi layanan API standar. Gunakan dorong data (data push) untuk akses programatik.

  7. Tata kelola data end-to-end: Kemampuan tata kelola data mencakup seluruh alur data, memastikan data dapat dipercaya, terkendali, dan dapat digunakan. Metadata disinkronkan secara otomatis ke Peta Data, membantu pengguna menemukan data dan melacak lineage. Tata Kelola Aset Data mengidentifikasi dan menyelesaikan isu pengembangan dan data melalui rencana tata kelola. Security Center melindungi data sensitif sepanjang alur tersebut.

DataWorks mengoordinasikan seluruh alur kerja, sedangkan mesin komputasi dasar seperti MaxCompute, Hologres, Realtime Compute for Apache Flink, dan E-MapReduce menangani komputasi dan penyimpanan.

Kasus Penggunaan Gabungan

Gabungkan modul-modul DataWorks secara fleksibel untuk memenuhi berbagai kebutuhan pemrosesan dan penerapan data. Bagian berikut menjelaskan beberapa pola kombinasi khas.

Pola 1: Pembangunan gudang data batch

Ini adalah pola paling umum untuk membangun gudang data perusahaan dan melakukan pemrosesan batch periodik dengan analisis BI.

  • Tujuan: Membangun gudang data batch yang stabil, andal, dan dapat dilacak.

  • Kombinasi modul:

    image
  • Implementasi:

    1. Data Integration: Sinkronkan data inkremental setiap hari dari sistem bisnis seperti RDS ke lapisan Operational Data Store (ODS) di MaxCompute.

    2. Pemodelan Data: Rencanakan lapisan gudang data dan rancang model terlebih dahulu. Lapisan tersebut mencakup Detail (DWD), Ringkasan (DWS), Dimensi (DIM), dan Aplikasi (ADS).

    3. Data Studio: Tulis tugas SQL MaxCompute untuk membersihkan, mentransformasi, dan memuat data ODS ke tabel model. Gunakan Copilot untuk menghasilkan dan mengoptimalkan kode selama pengembangan.

    4. Kualitas Data: Konfigurasikan aturan pemantauan untuk laporan DWS dan DWD inti. Contoh: "Jumlah baris partisi harian tidak boleh nol" atau "Nilai bidang jumlah kunci harus tetap dalam rentang normal."

    5. Operation Center: Konfigurasikan semua tugas sebagai DAG berbasis dependensi di Data Studio. Atur siklus penjadwalan ke harian, lalu publikasikan alur kerja ke Operation Center. Konfigurasikan garis dasar (baseline) dan aturan Kualitas Data untuk pemantauan dan operasi.

    6. Peta Data: Analis dan pengguna bisnis mencari Peta Data untuk memahami definisi metrik dan melihat lineage pemrosesan hulu secara lengkap.

  • Peran: Insinyur data dan arsitek data.

Pola 2: Pengembangan data real-time

Pola ini cocok untuk skenario latensi rendah seperti dasbor waktu nyata, rekomendasi, dan pengendalian risiko.

  • Tujuan: Memproses dan menganalisis data aliran secara real-time untuk wawasan bisnis tingkat detik atau menit.

  • Kombinasi modul:

  • image
  • Implementasi:

    1. Data Integration: Konfigurasikan tugas sinkronisasi real-time untuk mengalirkan data dari log perilaku pengguna atau antrian pesan (Kafka) ke data lake atau middleware.

    2. Data Studio: Buat tugas Flink SQL untuk windowing, agregasi, dan perhitungan aliran lainnya. Contoh: "Hitung jumlah klik produk dalam satu menit terakhir."

    3. Output hasil: Tugas Flink menulis hasil secara real-time ke mesin analitik interaktif berkinerja-tinggi seperti Hologres.

    4. Buat laporan atau dasbor menggunakan:

      • Analisis Data: Hubungkan sumber data ke Hologres dan hasilkan kartu melalui kueri SQL atau wawasan data. Gabungkan kartu menjadi laporan yang diperbarui secara dinamis.

      • Studio Layanan Data: Hasilkan API dengan Hologres sebagai sumber data dan sediakan data ke alat seperti DataV atau Quick BI untuk membangun dasbor analitik real-time.

  • Peran: Insinyur pengembangan real-time dan analis data.

Pola 3: Eksplorasi dan analisis data

Pola ini melayani analis dan personel operasi yang perlu dengan cepat memvalidasi ide dan melakukan eksplorasi data ad hoc.

  • Tujuan: Menyediakan lingkungan kueri dan analisis self-service yang efisien guna menurunkan hambatan akses data.

  • Kombinasi modul:

    image
  • Implementasi:

    1. Peta Data: Analis mencari kata kunci seperti pendapatan atau pengguna aktif untuk menemukan metrik dan tabel data yang relevan. Lihat metadata dan lineage tabel untuk memastikan data memenuhi kebutuhan analisis.

    2. Security Center: Gunakan kontrol akses data, klasifikasi, dan penyembunyian (masking) untuk memastikan analis menggunakan data secara sesuai dan aman.

    3. Analisis Data: Setelah mengonfirmasi tabel target, gunakan SQL Query and Analysis atau Data Insight untuk menulis kueri eksploratif. Contoh: "Kueri distribusi penjualan berdasarkan kategori produk di Singapura pada kuartal lalu."

    4. Presentasi hasil: Ekspor hasil kueri secara langsung atau hasilkan grafik dengan cepat di Analisis Data untuk berbagi atau membuat laporan.

  • Peran: Analis data, personel operasi bisnis, dan manajer produk data.

Pola 4: Enkapsulasi layanan data

Pola ini berlaku ketika sistem bisnis hulu seperti aplikasi web atau mini-program mengakses data secara langsung.

  • Tujuan: Membungkus tabel gudang data atau kueri kompleks menjadi operasi API standar secara cepat dan aman.

  • Kombinasi modul:

    image
  • Implementasi:

    1. Persiapan data: Gunakan pola pembangunan gudang data batch (Pola 1) untuk memproses tabel hasil di Data Studio, misalnya "tabel tag persona pengguna."

    2. Studio Layanan Data: Masuk ke Studio Layanan Data dan buat operasi API baru.

    3. Konfigurasi API: Arahkan logika kueri API ke "tabel tag persona pengguna." Atur parameter permintaan ke "User ID" dan pilih bidang tag yang akan dikembalikan.

    4. Kinerja dan keamanan: Konfigurasikan layanan akselerasi untuk API guna meningkatkan kinerja pada kueri frekuensi tinggi, serta kelola grup dan izin API.

    5. Publikasi dan panggilan: Setelah API dipublikasikan dan izin yang diperlukan diberikan, insinyur backend memperoleh titik akhir (endpoint) dan informasi otentikasi API. Integrasikan API ke dalam kode bisnis untuk mengambil tag persona pengguna secara real-time berdasarkan User ID.

  • Peran: Insinyur data dan pengembang backend.

Langkah Selanjutnya

Setelah memahami pola-pola penggunaan ini, mulailah menggunakan DataWorks dengan mengikuti contoh praktis berikut: