全部产品
Search
文档中心

DataWorks:Data Integration

更新时间:Dec 10, 2025

Integrasi Data adalah platform sinkronisasi data yang stabil, efisien, dan elastis, menyediakan transfer dan sinkronisasi data berkecepatan tinggi serta andal antara berbagai sumber data di lingkungan jaringan kompleks.

Panduan proses

Penting

Integrasi Data hanya dapat digunakan pada PC dengan Chrome versi 69 atau lebih baru.

Alur kerja pengembangan umum untuk Integrasi Data adalah sebagai berikut:

  1. Konfigurasikan sumber data, siapkan kelompok sumber daya, dan bangun network connectivity antara sumber data dan kelompok sumber daya.

  2. Pilih metode sinkronisasi offline atau real-time untuk membuat task sesuai skenario Anda, lalu ikuti petunjuk di layar guna menyelesaikan resource dan task configuration.

  3. Debug task menggunakan fitur pratinjau data dan trial run. Setelah debugging, submit and publish task tersebut. Task offline harus dipublikasikan ke lingkungan produksi.

  4. Masuk ke fase O&M berkelanjutan, tempat Anda dapat memantau status sinkronisasi, mengatur alert, dan mengoptimalkan sumber daya guna menciptakan sistem manajemen loop tertutup.

Metode sinkronisasi

DataWorks Data Integration menyediakan metode sinkronisasi yang dapat dikombinasikan dalam tiga dimensi: ketepatan waktu, cakupan, dan kebijakan data. Untuk informasi lebih lanjut tentang solusi dan rekomendasi, lihat Sumber data yang didukung dan solusi sinkronisasi.

  • Ketepatan waktu: Mencakup sinkronisasi offline dan real-time. Sinkronisasi offline menggunakan task yang dipicu otomatis untuk memigrasikan data setiap jam atau harian. Sinkronisasi real-time menangkap perubahan data sumber (Change Data Capture (CDC)) guna mencapai latensi tingkat detik.

  • Cakupan: Mencakup tabel tunggal, seluruh database, dan sharding. Integrasi Data mendukung transfer detail halus satu tabel, serta migrasi massal dan penggabungan seluruh database atau database ter-shard.

  • Kebijakan data: Mencakup sinkronisasi penuh, inkremental, dan penuh plus inkremental. Migrasi penuh memindahkan semua data historis. Sinkronisasi inkremental hanya menyinkronkan data baru atau yang berubah. Mode penuh dan inkremental menggabungkan kedua pendekatan tersebut, menyediakan beberapa solusi implementasi—seperti offline, real-time, dan Near Real-Time—berdasarkan atribut sumber data dan persyaratan ketepatan waktu.

Metode

Deskripsi

Offline

Metode transfer data berbasis mekanisme penjadwalan batch. Menggunakan auto triggered tasks (per jam/harian) untuk memigrasi data sumber full atau incremental ke tujuan.

Real-time

Menggunakan mesin pemrosesan aliran untuk menangkap perubahan data sumber (log CDC) secara real-time, mencapai latensi tingkat detik untuk sinkronisasi data.

Single table

Transfer data untuk satu tabel. Mendukung pemetaan bidang detail halus, aturan transformasi, dan konfigurasi kontrol.

Entire database

Memigrasikan skema dan data dari beberapa tabel dalam satu instansiasi basis data sumber ke tujuan sekaligus. Mendukung pembuatan tabel otomatis. Anda dapat menyinkronkan beberapa tabel dalam satu task untuk mengurangi jumlah task dan konsumsi sumber daya.

Sharding

Menulis data dari beberapa tabel sumber dengan struktur identik ke dalam satu tabel tujuan. Secara otomatis mendeteksi aturan routing sharding dan menggabungkan data tersebut.

Full

Migrasi satu kali seluruh data historis dari tabel sumber. Biasanya digunakan untuk inisialisasi gudang data atau pengarsipan data.

Incremental

Hanya menyinkronkan data baru atau yang berubah dari sumber, seperti operasi INSERT atau UPDATE. Integrasi Data mendukung mode inkremental offline maupun real-time. Implementasi dilakukan dengan mengatur penyaringan data (kondisi inkremental) dan membaca data CDC sumber, masing-masing.

Full and incremental

Setelah sinkronisasi penuh satu kali terhadap data historis, secara otomatis melanjutkan menulis data inkremental. Integrasi Data mendukung sinkronisasi penuh dan inkremental untuk berbagai skenario. Pilih metode sesuai kebutuhan berdasarkan atribut dan persyaratan ketepatan waktu sumber serta tujuan data.

  • Offline scenario: Sinkronisasi penuh satu kali diikuti oleh sinkronisasi inkremental periodik. Cocok untuk sumber data yang tidak memiliki persyaratan ketepatan waktu tinggi dan memiliki bidang inkremental yang sesuai (misalnya modify_time) di tabel sumber.

  • Real-time scenario: Sinkronisasi penuh satu kali diikuti oleh sinkronisasi inkremental real-time. Cocok untuk sumber data dengan persyaratan ketepatan waktu tinggi, seperti MSMQ atau database yang mendukung pengaktifan log CDC.

  • Near Real-Time scenario: Dilakukan sinkronisasi penuh satu kali ke tabel dasar, dan data inkremental real-time ditulis ke tabel log. Pada T+1, data dari tabel log digabungkan ke tabel dasar. Skenario Near Real-Time melengkapi skenario real-time. Cocok untuk format tabel tujuan yang tidak mendukung pembaruan atau penghapusan, seperti tabel MaxCompute standar.

Istilah

Istilah

Deskripsi

Data synchronization

Sinkronisasi data melibatkan pembacaan data dari sumber data, ekstraksi dan penyaringannya, lalu penulisan ke tujuan. Integrasi Data berfokus pada transfer data yang dapat diurai menjadi struktur tabel dua dimensi logis. Platform ini tidak menyediakan konsumsi aliran data atau transformasi extract, transform, and load (ETL).

Sinkronisasi Integrasi Data hanya mendukung jaminan pengiriman at-least-once. Platform ini tidak mendukung exactly-once delivery. Artinya, data mungkin diduplikasi setelah transfer. Keunikan harus dijamin menggunakan primary key dan kemampuan tujuan.

Field mapping

Field mapping mendefinisikan hubungan baca-tulis antara data sumber dan tujuan dalam task sinkronisasi. Saat mengonfigurasi pemetaan, periksa secara ketat kompatibilitas tipe bidang di kedua ujung. Hal ini mencegah error konversi, data kotor, atau kegagalan task akibat ketidakcocokan tipe. Risiko umum meliputi:

  • Kegagalan konversi tipe: Jika tipe bidang sumber dan tujuan tidak konsisten (misalnya, sumber berupa String dan tujuan berupa Integer), task akan terganggu atau menghasilkan data kotor.

  • Kehilangan presisi atau rentang: Jika nilai maksimum tipe bidang tujuan lebih kecil daripada nilai maksimum sumber (atau nilai minimumnya lebih besar daripada minimum sumber, atau presisinya lebih rendah daripada presisi sumber), kegagalan penulisan atau pemotongan presisi dapat terjadi. Risiko ini berlaku terlepas dari tipe sumber dan tujuan, atau apakah sinkronisasi bersifat offline atau real-time.

Number of concurrent threads

Jumlah thread konkuren adalah jumlah maksimum thread yang dapat membaca dari sumber atau menulis ke penyimpanan data tujuan secara paralel selama task sinkronisasi data.

Rate limiting

Rate limiting adalah batas kecepatan transfer yang dapat dicapai oleh task sinkronisasi Integrasi Data.

Dirty data

Dirty data mengacu pada data yang tidak valid, diformat salah, atau mengalami error sinkronisasi. Saat satu catatan data gagal ditulis ke tujuan, catatan tersebut diklasifikasikan sebagai dirty data (misalnya, tipe VARCHAR sumber tidak dapat dikonversi ke tipe INT tujuan). Anda dapat mengonfigurasi kebijakan toleransi dirty data dalam konfigurasi task. Tetapkan ambang batas untuk membatasi jumlah catatan dirty data. Jika ambang batas terlampaui, task gagal dan keluar.

Jika task gagal karena dirty data, data yang berhasil ditulis tidak dikembalikan (rollback). Integrasi Data menggunakan mekanisme penulisan batch. Kemampuan rollback saat terjadi exception batch bergantung pada apakah tujuan mendukung transaksi. Integrasi Data sendiri tidak menyediakan dukungan transaksi.

Data source

Data source adalah unit konfigurasi terstandarisasi di DataWorks untuk menghubungkan ke sistem eksternal. Unit ini menyediakan definisi titik akhir baca-tulis terpadu untuk task Integrasi Data melalui berbagai templat koneksi yang telah dikonfigurasi sebelumnya untuk sumber data yang berbeda (seperti MaxCompute, MySQL, dan OSS).

Data consistency

Sinkronisasi Integrasi Data hanya mendukung jaminan pengiriman at-least-once. Platform ini tidak mendukung exactly-once delivery. Artinya, data mungkin diduplikasi setelah transfer. Keunikan harus dijamin menggunakan primary key dan kemampuan tujuan.

Fitur dan nilai inti

DataWorks Data Integration menyediakan konektivitas ekosistem data yang luas, solusi fleksibel, performa unggul, pengembangan dan operasi yang mudah, serta kontrol keamanan komprehensif.

Konektivitas ekosistem data yang luas

Hancurkan silodata untuk memungkinkan agregasi dan migrasi data.
  • Dukungan berbagai sumber data: Mencakup berbagai jenis sumber data, termasuk database relasional, penyimpanan big data, database NoSQL, MSMQ, penyimpanan file, dan aplikasi Software as a Service (SaaS).

  • Kompatibilitas jaringan kompleks: Dengan mengonfigurasi pengaturan network connectivity, platform ini mendukung penerusan data dalam arsitektur cloud hibrida atau multi-cloud melalui Internet, VPC, Express Connect, atau Cloud Enterprise Network (CEN).

Solusi sinkronisasi yang fleksibel dan kaya

Memenuhi kebutuhan sinkronisasi mulai dari offline hingga real-time, dari tabel tunggal hingga seluruh database, dan dari penuh hingga inkremental.
  • Offline synchronization: Mendukung berbagai skenario sinkronisasi batch offline, seperti tabel tunggal, seluruh database, dan sharding. Menyediakan kemampuan penyaringan data, pemangkasan kolom, dan logika transformasi, sehingga cocok untuk pemuatan ETL T+1 berskala besar secara periodik.

  • Real-time synchronization: Menangkap perubahan data dari sumber data seperti MySQL, Oracle, dan Hologres dalam Near Real-Time. Perubahan tersebut kemudian ditulis ke gudang data real-time atau MSMQ untuk mendukung keputusan bisnis real-time.

  • Integrated full and incremental synchronization: Menyediakan solusi seperti sinkronisasi offline seluruh database, real-time seluruh database, dan sinkronisasi penuh plus inkremental seluruh database (Near Real-Time). Melakukan sinkronisasi data penuh awal pada eksekusi pertama, lalu secara otomatis beralih ke sinkronisasi data inkremental. Hal ini menyederhanakan proses inisialisasi gudang data awal dan pembaruan berikutnya, menyediakan kemampuan ingesti data untuk migrasi penuh, penangkapan inkremental, dan transisi otomatis antara mode penuh dan inkremental.

Skalabilitas elastis dan performa

Penjadwalan sumber daya dinamis memastikan transfer data yang sangat stabil untuk operasi bisnis inti.
  • Elastic resources: Serverless resource groups mendukung skalabilitas elastis sesuai permintaan dan penagihan pay-as-you-go untuk menangani fluktuasi trafik secara efektif.

  • Performance tuning: Mendukung kontrol konkurensi, pembatasan trafik, pemrosesan data kotor, dan pemrosesan terdistribusi untuk memastikan sinkronisasi stabil di bawah muatan berbeda.

Pengembangan low-code dan O&M cerdas

Mengurangi kompleksitas dan biaya pengembangan serta O&M sinkronisasi data melalui konfigurasi visual dan alur kerja.
  • Low-code development: The codeless UI menyediakan antarmuka visual tempat Anda dapat mengonfigurasi sebagian besar task sinkronisasi hanya dengan klik sederhana. The code editor mendukung konfigurasi lanjutan menggunakan skrip JSON untuk memenuhi kebutuhan skenario kompleks, seperti parameterisasi dan pemetaan kolom dinamis.

  • Full-link O&M: Task sinkronisasi offline dapat diintegrasikan ke dalam alur kerja directed acyclic graph (DAG) untuk mendukung penjadwalan, orkestrasi, pemantauan, dan Alerting.

Kontrol keamanan komprehensif

Mengintegrasikan mekanisme keamanan berlapis untuk memastikan pengendalian data dan kepatuhan sepanjang siklus hidup data.
  • Centralized management: Management Center sumber data terpadu mendukung kontrol akses untuk sumber data dan fencing antara lingkungan developer dan produksi.

  • Security protection: Mematuhi kontrol akses Resource Access Management (RAM) dan mendukung autentikasi berbasis role serta penyamaran data.

Penagihan

Biaya task Integrasi Data terutama terdiri dari biaya kelompok sumber daya, biaya penjadwalan, dan biaya transfer data. Task Integrasi Data dijalankan pada kelompok sumber daya, dan Anda dikenai biaya atas sumber daya tersebut. Beberapa task sinkronisasi offline atau offline seluruh database melibatkan eksekusi terjadwal, sehingga menimbulkan biaya penjadwalan. Jika sumber data mentransfer data melalui Internet, biaya transfer data juga dikenakan. Untuk informasi lebih lanjut tentang penagihan, lihat Skenario penagihan inti.

Network connectivity

Network connectivity antara sumber data dan kelompok sumber daya merupakan prasyarat agar task Integrasi Data dapat berjalan sukses. Anda harus memastikan keduanya dapat saling terhubung; jika tidak, task akan gagal.

image

Integrasi Data mendukung sinkronisasi data antara sumber data yang berbeda di lingkungan jaringan kompleks. Platform ini mendukung skenario kompleks berikut:

  • Sinkronisasi data lintas akun Alibaba Cloud atau wilayah yang berbeda.

  • Integrasi dengan cloud hibrida dan pusat data lokal.

  • Konfigurasi beberapa saluran jaringan, seperti Internet, VPC, dan CEN.

Untuk informasi lebih lanjut tentang solusi konfigurasi jaringan, lihat Ikhtisar solusi network connectivity.

Referensi

Anda dapat mengonfigurasi sumber data dan membuat task sinkronisasi di Data Integration atau Data Studio untuk mentransfer dan memigrasikan data. Untuk informasi lebih lanjut, lihat dokumen berikut: