Data Integration - DataWorks

DataWorks memungkinkan Anda membuat dan mengelola task Data Integration secara langsung dalam modul Data Studio. Pendekatan ini menyediakan lingkungan terpadu untuk seluruh pipeline ETL/ELT, sehingga Anda tidak perlu berpindah antar modul.

Ikhtisar

DataWorks memungkinkan Anda mendefinisikan dan mengelola task Data Integration di modul Data Studio, mirip dengan node task standar. Pendekatan ini menyatukan seluruh pipa data ke dalam satu tampilan, sehingga Anda tidak perlu berpindah antar modul fungsional.

Task sinkronisasi batch tabel tunggal dapat ditambahkan ke workflow dengan dependensi, sedangkan jenis task integrasi lainnya dijalankan sebagai node mandiri.

Mekanisme inti:

Konsistensi konfigurasi: Baik Anda membuat task di Data Studio maupun di modul Data Integration, antarmuka konfigurasi, pengaturan parameter, dan fungsionalitas dasarnya identik.
Sinkronisasi dua arah: Task yang dibuat di modul Data Integration secara otomatis disinkronkan dan ditampilkan di direktori data_integration_jobs dalam Data Studio. Task-task tersebut dikategorikan berdasarkan saluran source-type-destination-type untuk pengelolaan terpadu.

Prasyarat

Persiapan sumber data
- Anda telah membuat sumber data dan tujuan data. Untuk detail konfigurasi sumber data, lihat: Manajemen Sumber Data.
- Pastikan sumber data Anda mendukung sinkronisasi real-time. Lihat: Sumber data yang didukung dan solusi sinkronisasi.
- Beberapa sumber data, seperti Hologres dan Oracle, memerlukan logging yang diaktifkan. Metode pengaktifan log bervariasi tergantung pada sumber datanya. Untuk detailnya, lihat dokumentasi konfigurasi sumber data: Daftar sumber data.
Kelompok sumber daya: Anda telah membeli dan mengonfigurasi serverless resource group.
Konektivitas jaringan: Anda telah menetapkan konektivitas jaringan antara kelompok sumber daya dan sumber data Anda. Konfigurasi konektivitas jaringan.

Buat task integrasi di Data Studio

Bagian ini menjelaskan cara membuat task Data Integration di Data Studio, menggunakan contoh sinkronisasi batch tabel tunggal dari MySQL ke MaxCompute.

Buat node

Buka halaman Workspaces di konsol DataWorks. Pada bilah navigasi atas, pilih wilayah yang diinginkan. Temukan workspace yang sesuai, lalu pilih Shortcuts > Data Studio di kolom Actions.
Klik ikon + di bagian atas, atau pada toolbar di bagian atas workflow, pilih Create Node > Data Integration.

Konfigurasi informasi dasar

Pertama, tentukan apakah akan menggunakan sinkronisasi batch atau real-time berdasarkan kebutuhan Anda terhadap latensi, volume data, dan kompleksitas. Kemudian, pilih mode sinkronisasi yang kompatibel (misalnya, sinkronisasi batch tabel tunggal, sinkronisasi real-time database penuh, atau sinkronisasi full-incremental untuk seluruh database) berdasarkan jenis database sumber dan tujuan, lingkungan jaringan, serta fitur yang didukung.

Pada kotak dialog Create Node, konfigurasikan pengaturan berikut:

Path: Pilih lokasi dalam struktur direktori Data Studio tempat Anda ingin menyimpan node task.
Data Source Type: Pilih sumber data Anda, misalnya MySQL.
Destination Type: Pilih tujuan data Anda, misalnya MaxCompute (ODPS).
Specific Type: Pilih mode sinkronisasi.
Name: Masukkan nama untuk node task Anda, misalnya mysql_to_mc_user_table.

Klik OK. Task dibuat, dan Anda dialihkan ke halaman konfigurasi visualnya.

Konfigurasi detail task
Selain proses pembuatan, konfigurasi task identik dengan proses di modul Data Integration dan tidak dijelaskan ulang di sini.
Konfigurasi penjadwalan (hanya untuk sinkronisasi batch tabel tunggal)
Konfigurasikan properti node, seperti waktu jadwal, kebijakan penjadwalan, dan dependensi penjadwalan, agar sistem penjadwalan dapat menjalankannya secara otomatis dalam interval tertentu. Anda juga dapat mengatur parameter penjadwalan untuk meneruskan variabel dinamis ke instance node saat runtime.
Publish and Operate
- Setelah mengonfigurasi task, klik tombol Publish pada toolbar task untuk mengirimkan task integrasi ke lingkungan produksi. Task tersebut kemudian dikelola oleh sistem penjadwalan dan pemantauan terpadu di Operation Center.
- Setelah task dipublikasikan, Anda dapat melihat status running, log, alert, dan dependensinya di Operation Center. Untuk informasi tentang operasi seperti manajemen instance, menjalankan ulang task yang gagal, tuning performa, dan penanganan dirty data, lihat O&M dan tuning task.

Memilih jenis tugas

Memahami kasus penggunaan untuk setiap mode sinkronisasi dan perilakunya terhadap penjadwalan serta dependensi merupakan kunci untuk membangun workflow yang efisien dan andal.

Sinkronisasi batch tabel tunggal

Untuk detail konfigurasi, lihat: Konfigurasi task di antarmuka tanpa kode dan Konfigurasi task di editor kode.

Deskripsi: Menyinkronkan data secara berkala dalam batch dari satu tabel sumber ke satu tabel tujuan. Task dijalankan berdasarkan siklus penjadwalan yang ditentukan (misalnya, harian atau per jam).
Kasus penggunaan:
- Menyinkronkan data bisnis harian (T+1) untuk membangun layer ODS atau DWD pada gudang data.
- Mengarsipkan tabel bisnis secara berkala dari database produksi ke data lake atau gudang data.
- Memigrasikan data secara berkala untuk laporan lintas berbagai sumber data.

Sinkronisasi real-time tabel tunggal

Untuk detail konfigurasi, lihat: Konfigurasi task real-time tabel tunggal.

Deskripsi: Proses ini biasanya menggunakan change data capture (CDC) dari log atau mengonsumsi data dari message queue.
Use case:
- Menyinkronkan perubahan real-time dari database bisnis ke gudang data, seperti MaxCompute atau Hologres, untuk membangun gudang data real-time.
- Menyediakan sumber data untuk dasbor pemantauan real-time atau sistem rekomendasi.
- Menerapkan replikasi data real-time untuk satu tabel antara instans database yang berbeda.

Sinkronisasi batch database penuh

Untuk detail konfigurasi, lihat: Task sinkronisasi batch database penuh.

Deskripsi: Melakukan sinkronisasi data batch satu kali atau berkala untuk semua atau beberapa tabel dalam database sumber.
Kasus penggunaan:
- Melakukan migrasi awal penuh seluruh database bisnis ke gudang data cloud.
- Menjalankan backup penuh atau inkremental rutin untuk seluruh database.
- Mengimpor seluruh data historis dalam satu operasi untuk menginisialisasi lingkungan analitik data baru.

Sinkronisasi real-time database penuh

Untuk detail konfigurasi, lihat: Task sinkronisasi real-time database penuh.

Deskripsi: Menangkap perubahan skema dan data secara real-time dari semua atau tabel tertentu dalam database sumber, lalu menyinkronkannya ke tujuan.
Use Cases:
- Mereplikasi seluruh database Online Transaction Processing (OLTP) produksi ke database analitik secara real-time untuk mengaktifkan pemisahan baca/tulis dan analitik real-time.
- Membangun solusi pemulihan bencana real-time untuk database.
- Menjaga konsistensi data real-time antara data lake atau platform data dengan berbagai sistem bisnis hulu.

Sinkronisasi full-incremental untuk seluruh database

Untuk detail konfigurasi, lihat: Task sinkronisasi full dan inkremental untuk seluruh database.

Deskripsi: Data CDC yang ditangkap selama sinkronisasi real-time mencakup tiga jenis operasi: Insert, Update, dan Delete. Untuk sistem penyimpanan append-only, seperti tabel MaxCompute non-Delta, operasi Update atau Delete fisik tidak didukung secara native. Menulis aliran CDC langsung ke sistem ini dapat menyebabkan inkonsistensi data (misalnya, operasi delete tidak tercermin). Mode ini mengatasi masalah tersebut dengan membuat tabel Base untuk snapshot lengkap dan tabel Log untuk log inkremental di tujuan.
Kasus penggunaan:
- Tabel tujuan adalah tabel MaxCompute non-Delta, dan tabel sumber tidak memiliki kolom auto-increment, sehingga mencegah penggunaan sinkronisasi inkremental batch. Dalam skenario ini, Anda dapat menggunakan task full-incremental untuk seluruh database guna menulis data inkremental dalam hitungan menit. Status akhir yang digabungkan akan terlihat secara T+1.

Perbandingan fitur

Jenis tugas	Lokasi pembuatan	Orkestrasi workflow	Konfigurasi penjadwalan	Debugging Data Studio	Isolasi sumber data
Single-table batch synchronization	Hanya di Data Studio	Didukung	Didukung	Didukung	Didukung
Real-time single-table synchronization	Data Studio / Data Integration	Tidak didukung (hanya sebagai node mandiri)	Tidak didukung	Tidak didukung (Harus dipublikasikan ke Operation Center untuk dijalankan)	Tidak didukung
Full-database batch synchronization	Data Studio / Data Integration	Tidak didukung (hanya sebagai node mandiri)	Didukung (penjadwalan dapat diatur untuk sub-task)	Tidak didukung (Harus dipublikasikan ke Operation Center untuk dijalankan)	Tidak didukung
Full-database real-time synchronization	Data Studio / Data Integration	Tidak didukung (hanya sebagai node mandiri)	Tidak didukung	Tidak didukung (Harus dipublikasikan ke Operation Center untuk dijalankan)	Tidak didukung
Full-incremental synchronization for entire databases	Data Studio / Data Integration	Tidak didukung (hanya sebagai node mandiri)	Didukung (penjadwalan dapat diatur untuk sub-task)	Tidak didukung (Harus dipublikasikan ke Operation Center untuk dijalankan)	Tidak didukung

FAQ

Untuk pertanyaan umum tentang Data Integration, lihat FAQ Data Integration.