Panduan Penggunaan Modul DataWorks - DataWorks

DataWorks adalah platform pengembangan dan tata kelola big data all-in-one dari Alibaba Cloud. Platform ini mengelola seluruh siklus hidup data, mulai dari ingest, pemrosesan, hingga tata kelola dan penyampaian layanan. Melalui modul-modul terintegrasi tinggi, DataWorks menyederhanakan alur kerja rekayasa data yang kompleks dan memvisualisasikannya secara signifikan, menurunkan hambatan dalam pengembangan data. Panduan ini memperkenalkan modul inti DataWorks serta menjelaskan tujuan utama, kemampuan kunci, dan skenario penerapannya.

Alur Kerja

Mengatur Sumber Daya: Konfigurasikan lingkungan di Management Center. Tentukan koneksi sumber data, alokasikan kelompok sumber daya, ikat mesin komputasi seperti MaxCompute atau Hologres, dan kelola izin anggota.
Ingest dan Integrasi Data: Gunakan Data Integration untuk mengambil data dari sistem bisnis ke platform big data Anda. Data Integration mendukung batch (offline), waktu nyata (streaming), sinkronisasi penuh, dan inkremental.
Desain Model Data: Sebelum pengembangan berskala besar dimulai, rancang model standar untuk memastikan arsitektur data yang terorganisir dan mudah dipelihara. Tahap ini mencakup Perencanaan Gudang Data, definisi Jenis Penyimpanan Standar, Pemodelan Dimensi (merancang tabel dimensi dan fakta), serta definisi Metrik Data bisnis inti.
Memproses dan Mentransformasi Data:
- Tulis kode seperti SQL atau Python di Data Studio WebIDE atau Notebook. Gunakan orkestrasi alur kerja untuk mengatur node tugas independen menjadi grafik asiklik terarah (DAG).
- Konfigurasikan kebijakan penjadwalan, lalu publikasikan alur kerja ke Operation Center. Operation Center menangani penjadwalan periodik, pemantauan tugas, peringatan, dan operasi seperti pengisian ulang data. Konfigurasikan aturan pemantauan Kualitas Data untuk tabel output guna memastikan akurasi.
- DataWorks Copilot, asisten AI, membantu menghasilkan dan mengoptimalkan kode, memecahkan masalah, serta menyederhanakan pengembangan dan operasi.
Analisis Data: Berikan analis dan tim operasi dengan kueri SQL, wawasan data, dan buku kerja melalui DataAnalysis. Ini memungkinkan kueri ad hoc dan analisis BI mandiri.
Berbagi dan Bertukar Data: Gunakan DataService Studio untuk membungkus data ke dalam layanan API standar. Gunakan dorongan data untuk akses programatik.
Tata Kelola Data Ujung ke Ujung: Kemampuan tata kelola data mencakup seluruh aliran data, memastikan data dapat dipercaya, dikendalikan, dan digunakan. Metadata disinkronkan secara otomatis ke Peta Data, membantu pengguna menemukan data dan melacak garis keturunan. Tata Kelola Aset Data mengidentifikasi dan menyelesaikan masalah pengembangan dan data melalui rencana tata kelola. Security Center melindungi data sensitif secara keseluruhan.

DataWorks mengoordinasikan seluruh alur kerja sementara mesin komputasi dasar seperti MaxCompute, Hologres, Realtime Compute for Apache Flink, dan E-MapReduce menangani komputasi dan penyimpanan.

Kasus penggunaan gabungan

Gabungkan modul DataWorks secara fleksibel untuk memenuhi berbagai kebutuhan pemrosesan dan aplikasi data. Bagian berikut menjelaskan beberapa pola kombinasi tipikal.

Pola 1: Pembangunan gudang data batch

Ini adalah pola paling umum untuk membangun gudang data perusahaan dan melakukan pemrosesan batch berkala dengan analisis BI.

Tujuan: Membangun gudang data batch yang stabil, andal, dan dapat dilacak.
Kombinasi Modul:
Implementasi:
1. Data Integration: Sinkronkan data inkremental harian dari sistem bisnis seperti RDS ke lapisan Operational Data Store (ODS) di MaxCompute.
2. Pemodelan Data: Rencanakan lapisan gudang data dan desain model sebelumnya. Lapisan termasuk Detail (DWD), Ringkasan (DWS), Dimensi (DIM), dan Aplikasi (ADS).
3. Data Studio: Tulis tugas SQL MaxCompute untuk membersihkan, mentransformasi, dan memuat data ODS ke tabel model. Gunakan Copilot untuk menghasilkan dan mengoptimalkan kode selama pengembangan.
4. Kualitas Data: Konfigurasikan aturan pemantauan untuk laporan DWS dan DWD inti. Contoh: "Jumlah baris partisi harian tidak boleh nol" atau "Nilai bidang jumlah kunci harus tetap dalam rentang normal."
5. Operation Center: Konfigurasikan semua tugas sebagai DAG berbasis dependensi di Data Studio. Atur siklus penjadwalan ke harian, lalu publikasikan alur kerja ke Operation Center. Konfigurasikan garis dasar dan aturan Kualitas Data untuk pemantauan dan operasi.
6. Data Map: Analis dan pengguna bisnis mencari Data Map untuk memahami definisi metrik dan melihat garis keturunan pemrosesan upstream lengkap.
Peran: Insinyur data dan arsitek data.

Pola 2: Pengembangan data waktu nyata

Pola ini cocok untuk skenario latensi rendah seperti dasbor waktu nyata, rekomendasi, dan kontrol risiko.

Tujuan: Memproses dan menganalisis data streaming secara real-time untuk wawasan bisnis tingkat detik atau menit.
Kombinasi Modul:
Implementasi:
1. Data Integration: Konfigurasikan tugas sinkronisasi waktu nyata untuk mengalirkan data dari log perilaku pengguna atau antrian pesan (Kafka) ke danau data atau middleware.
2. Data Studio: Buat tugas Flink SQL untuk windowing, agregasi, dan perhitungan stream lainnya. Contoh: "Hitung klik produk selama satu menit terakhir."
3. Output Hasil: Tugas Flink menulis hasil secara real-time ke mesin analitik interaktif berkinerja tinggi seperti Hologres.
4. Membangun Laporan atau Dasbor Menggunakan:
  - DataAnalysis: Hubungkan sumber data ke Hologres dan hasilkan kartu melalui kueri SQL atau wawasan data. Gabungkan kartu menjadi laporan yang diperbarui secara dinamis.
  - DataService Studio: Hasilkan API dengan Hologres sebagai sumber data dan sediakan data ke alat seperti DataV atau Quick BI untuk membangun dasbor analitik waktu nyata.
Peran: Insinyur pengembangan waktu nyata dan analis data.

Pola 3: Eksplorasi dan analisis data

Pola ini melayani analis dan personel operasi yang perlu dengan cepat memvalidasi ide dan melakukan eksplorasi data ad hoc.

Tujuan: Menyediakan lingkungan kueri dan analisis mandiri yang efisien, menurunkan hambatan akses data.
Kombinasi Modul:
Implementasi:
1. Data Map: Analis mencari kata kunci seperti pendapatan atau pengguna aktif untuk menemukan metrik dan tabel data relevan. Lihat metadata tabel dan garis keturunan untuk memastikan data memenuhi persyaratan analisis.
2. Security Center: Gunakan kontrol akses data, klasifikasi, dan penyembunyian untuk memastikan analis menggunakan data secara patuh dan aman.
3. DataAnalysis: Setelah mengonfirmasi tabel target, gunakan SQL Query dan Analysis atau Data Insight untuk menulis kueri eksploratif. Contoh: "Kueri distribusi penjualan berdasarkan kategori produk di Singapura kuartal lalu."
4. Presentasi Hasil: Ekspor hasil kueri langsung atau hasilkan bagan dengan cepat di DataAnalysis untuk dibagikan atau pembuatan laporan.
Peran: Analis data, personel operasi bisnis, dan manajer produk data.

Pola 4: Enkapsulasi layanan data

Pola ini berlaku ketika sistem bisnis upstream seperti aplikasi web atau mini-program mengakses data secara langsung.

Tujuan: Bungkus tabel gudang data atau kueri kompleks dengan cepat dan aman menjadi operasi API standar.
Kombinasi Modul:
Implementasi:
1. Persiapan Data: Gunakan pola pembangunan gudang data batch (Pola 1) untuk memproses tabel hasil di Data Studio, seperti tabel "tag persona pengguna."
2. DataService Studio: Masuk ke DataService Studio dan buat operasi API baru.
3. Konfigurasi API: Arahkan logika kueri API ke tabel "tag persona pengguna." Atur parameter permintaan ke "ID Pengguna" dan pilih bidang tag untuk dikembalikan.
4. Kinerja dan Keamanan: Konfigurasikan kebijakan caching untuk API untuk meningkatkan kinerja kueri frekuensi tinggi. Kelola API melalui pengelompokan dan otorisasi.
5. Publikasikan dan Panggil: Setelah menerbitkan API dan memberikan izin yang diperlukan, insinyur backend mendapatkan titik akhir dan informasi otentikasi API. Integrasikan API ke dalam kode bisnis untuk mengambil tag persona pengguna secara real-time berdasarkan ID pengguna.
Peran: Insinyur data dan pengembang backend.

Apa yang harus dilakukan selanjutnya

Setelah memahami pola penggunaan ini, mulailah menggunakan DataWorks dengan mengikuti contoh praktis berikut: