Integrasi Data adalah platform sinkronisasi data yang stabil, efisien, dan elastis, menyediakan transfer dan sinkronisasi data berkecepatan tinggi serta andal antara berbagai sumber data di lingkungan jaringan kompleks.
Panduan proses
Integrasi Data hanya dapat digunakan pada PC dengan Chrome versi 69 atau lebih baru.
Alur kerja pengembangan umum untuk Integrasi Data adalah sebagai berikut:
Konfigurasikan sumber data, siapkan kelompok sumber daya, dan bangun network connectivity antara sumber data dan kelompok sumber daya.
Pilih metode sinkronisasi offline atau real-time untuk membuat task sesuai skenario Anda, lalu ikuti petunjuk di layar guna menyelesaikan resource dan task configuration.
Debug task menggunakan fitur pratinjau data dan trial run. Setelah debugging, submit and publish task tersebut. Task offline harus dipublikasikan ke lingkungan produksi.
Masuk ke fase O&M berkelanjutan, tempat Anda dapat memantau status sinkronisasi, mengatur alert, dan mengoptimalkan sumber daya guna menciptakan sistem manajemen loop tertutup.
Metode sinkronisasi
DataWorks Data Integration menyediakan metode sinkronisasi yang dapat dikombinasikan dalam tiga dimensi: ketepatan waktu, cakupan, dan kebijakan data. Untuk informasi lebih lanjut tentang solusi dan rekomendasi, lihat Sumber data yang didukung dan solusi sinkronisasi.
Ketepatan waktu: Mencakup sinkronisasi offline dan real-time. Sinkronisasi offline menggunakan task yang dipicu otomatis untuk memigrasikan data setiap jam atau harian. Sinkronisasi real-time menangkap perubahan data sumber (Change Data Capture (CDC)) guna mencapai latensi tingkat detik.
Cakupan: Mencakup tabel tunggal, seluruh database, dan sharding. Integrasi Data mendukung transfer detail halus satu tabel, serta migrasi massal dan penggabungan seluruh database atau database ter-shard.
Kebijakan data: Mencakup sinkronisasi penuh, inkremental, dan penuh plus inkremental. Migrasi penuh memindahkan semua data historis. Sinkronisasi inkremental hanya menyinkronkan data baru atau yang berubah. Mode penuh dan inkremental menggabungkan kedua pendekatan tersebut, menyediakan beberapa solusi implementasi—seperti offline, real-time, dan Near Real-Time—berdasarkan atribut sumber data dan persyaratan ketepatan waktu.
Metode | Deskripsi |
Offline | Metode transfer data berbasis mekanisme penjadwalan batch. Menggunakan auto triggered tasks (per jam/harian) untuk memigrasi data sumber full atau incremental ke tujuan. |
Real-time | Menggunakan mesin pemrosesan aliran untuk menangkap perubahan data sumber (log CDC) secara real-time, mencapai latensi tingkat detik untuk sinkronisasi data. |
Single table | Transfer data untuk satu tabel. Mendukung pemetaan bidang detail halus, aturan transformasi, dan konfigurasi kontrol. |
Entire database | Memigrasikan skema dan data dari beberapa tabel dalam satu instansiasi basis data sumber ke tujuan sekaligus. Mendukung pembuatan tabel otomatis. Anda dapat menyinkronkan beberapa tabel dalam satu task untuk mengurangi jumlah task dan konsumsi sumber daya. |
Sharding | Menulis data dari beberapa tabel sumber dengan struktur identik ke dalam satu tabel tujuan. Secara otomatis mendeteksi aturan routing sharding dan menggabungkan data tersebut. |
Full | Migrasi satu kali seluruh data historis dari tabel sumber. Biasanya digunakan untuk inisialisasi gudang data atau pengarsipan data. |
Incremental | Hanya menyinkronkan data baru atau yang berubah dari sumber, seperti operasi |
Full and incremental | Setelah sinkronisasi penuh satu kali terhadap data historis, secara otomatis melanjutkan menulis data inkremental. Integrasi Data mendukung sinkronisasi penuh dan inkremental untuk berbagai skenario. Pilih metode sesuai kebutuhan berdasarkan atribut dan persyaratan ketepatan waktu sumber serta tujuan data.
|
Istilah
Istilah | Deskripsi |
Data synchronization | Sinkronisasi data melibatkan pembacaan data dari sumber data, ekstraksi dan penyaringannya, lalu penulisan ke tujuan. Integrasi Data berfokus pada transfer data yang dapat diurai menjadi struktur tabel dua dimensi logis. Platform ini tidak menyediakan konsumsi aliran data atau transformasi extract, transform, and load (ETL). Sinkronisasi Integrasi Data hanya mendukung jaminan pengiriman at-least-once. Platform ini tidak mendukung exactly-once delivery. Artinya, data mungkin diduplikasi setelah transfer. Keunikan harus dijamin menggunakan primary key dan kemampuan tujuan. |
Field mapping | Field mapping mendefinisikan hubungan baca-tulis antara data sumber dan tujuan dalam task sinkronisasi. Saat mengonfigurasi pemetaan, periksa secara ketat kompatibilitas tipe bidang di kedua ujung. Hal ini mencegah error konversi, data kotor, atau kegagalan task akibat ketidakcocokan tipe. Risiko umum meliputi:
|
Number of concurrent threads | Jumlah thread konkuren adalah jumlah maksimum thread yang dapat membaca dari sumber atau menulis ke penyimpanan data tujuan secara paralel selama task sinkronisasi data. |
Rate limiting | Rate limiting adalah batas kecepatan transfer yang dapat dicapai oleh task sinkronisasi Integrasi Data. |
Dirty data | Dirty data mengacu pada data yang tidak valid, diformat salah, atau mengalami error sinkronisasi. Saat satu catatan data gagal ditulis ke tujuan, catatan tersebut diklasifikasikan sebagai dirty data (misalnya, tipe Jika task gagal karena dirty data, data yang berhasil ditulis tidak dikembalikan (rollback). Integrasi Data menggunakan mekanisme penulisan batch. Kemampuan rollback saat terjadi exception batch bergantung pada apakah tujuan mendukung transaksi. Integrasi Data sendiri tidak menyediakan dukungan transaksi. |
Data source | Data source adalah unit konfigurasi terstandarisasi di DataWorks untuk menghubungkan ke sistem eksternal. Unit ini menyediakan definisi titik akhir baca-tulis terpadu untuk task Integrasi Data melalui berbagai templat koneksi yang telah dikonfigurasi sebelumnya untuk sumber data yang berbeda (seperti MaxCompute, MySQL, dan OSS). |
Data consistency | Sinkronisasi Integrasi Data hanya mendukung jaminan pengiriman at-least-once. Platform ini tidak mendukung exactly-once delivery. Artinya, data mungkin diduplikasi setelah transfer. Keunikan harus dijamin menggunakan primary key dan kemampuan tujuan. |
Fitur dan nilai inti
DataWorks Data Integration menyediakan konektivitas ekosistem data yang luas, solusi fleksibel, performa unggul, pengembangan dan operasi yang mudah, serta kontrol keamanan komprehensif.
Konektivitas ekosistem data yang luas
Hancurkan silodata untuk memungkinkan agregasi dan migrasi data.
Dukungan berbagai sumber data: Mencakup berbagai jenis sumber data, termasuk database relasional, penyimpanan big data, database NoSQL, MSMQ, penyimpanan file, dan aplikasi Software as a Service (SaaS).
Kompatibilitas jaringan kompleks: Dengan mengonfigurasi pengaturan network connectivity, platform ini mendukung penerusan data dalam arsitektur cloud hibrida atau multi-cloud melalui Internet, VPC, Express Connect, atau Cloud Enterprise Network (CEN).
Solusi sinkronisasi yang fleksibel dan kaya
Memenuhi kebutuhan sinkronisasi mulai dari offline hingga real-time, dari tabel tunggal hingga seluruh database, dan dari penuh hingga inkremental.
Offline synchronization: Mendukung berbagai skenario sinkronisasi batch offline, seperti tabel tunggal, seluruh database, dan sharding. Menyediakan kemampuan penyaringan data, pemangkasan kolom, dan logika transformasi, sehingga cocok untuk pemuatan ETL T+1 berskala besar secara periodik.
Real-time synchronization: Menangkap perubahan data dari sumber data seperti MySQL, Oracle, dan Hologres dalam Near Real-Time. Perubahan tersebut kemudian ditulis ke gudang data real-time atau MSMQ untuk mendukung keputusan bisnis real-time.
Integrated full and incremental synchronization: Menyediakan solusi seperti sinkronisasi offline seluruh database, real-time seluruh database, dan sinkronisasi penuh plus inkremental seluruh database (Near Real-Time). Melakukan sinkronisasi data penuh awal pada eksekusi pertama, lalu secara otomatis beralih ke sinkronisasi data inkremental. Hal ini menyederhanakan proses inisialisasi gudang data awal dan pembaruan berikutnya, menyediakan kemampuan ingesti data untuk migrasi penuh, penangkapan inkremental, dan transisi otomatis antara mode penuh dan inkremental.
Skalabilitas elastis dan performa
Penjadwalan sumber daya dinamis memastikan transfer data yang sangat stabil untuk operasi bisnis inti.
Elastic resources: Serverless resource groups mendukung skalabilitas elastis sesuai permintaan dan penagihan pay-as-you-go untuk menangani fluktuasi trafik secara efektif.
Performance tuning: Mendukung kontrol konkurensi, pembatasan trafik, pemrosesan data kotor, dan pemrosesan terdistribusi untuk memastikan sinkronisasi stabil di bawah muatan berbeda.
Pengembangan low-code dan O&M cerdas
Mengurangi kompleksitas dan biaya pengembangan serta O&M sinkronisasi data melalui konfigurasi visual dan alur kerja.
Low-code development: The codeless UI menyediakan antarmuka visual tempat Anda dapat mengonfigurasi sebagian besar task sinkronisasi hanya dengan klik sederhana. The code editor mendukung konfigurasi lanjutan menggunakan skrip JSON untuk memenuhi kebutuhan skenario kompleks, seperti parameterisasi dan pemetaan kolom dinamis.
Full-link O&M: Task sinkronisasi offline dapat diintegrasikan ke dalam alur kerja directed acyclic graph (DAG) untuk mendukung penjadwalan, orkestrasi, pemantauan, dan Alerting.
Kontrol keamanan komprehensif
Mengintegrasikan mekanisme keamanan berlapis untuk memastikan pengendalian data dan kepatuhan sepanjang siklus hidup data.
Centralized management: Management Center sumber data terpadu mendukung kontrol akses untuk sumber data dan fencing antara lingkungan developer dan produksi.
Security protection: Mematuhi kontrol akses Resource Access Management (RAM) dan mendukung autentikasi berbasis role serta penyamaran data.
Penagihan
Biaya task Integrasi Data terutama terdiri dari biaya kelompok sumber daya, biaya penjadwalan, dan biaya transfer data. Task Integrasi Data dijalankan pada kelompok sumber daya, dan Anda dikenai biaya atas sumber daya tersebut. Beberapa task sinkronisasi offline atau offline seluruh database melibatkan eksekusi terjadwal, sehingga menimbulkan biaya penjadwalan. Jika sumber data mentransfer data melalui Internet, biaya transfer data juga dikenakan. Untuk informasi lebih lanjut tentang penagihan, lihat Skenario penagihan inti.
Network connectivity
Network connectivity antara sumber data dan kelompok sumber daya merupakan prasyarat agar task Integrasi Data dapat berjalan sukses. Anda harus memastikan keduanya dapat saling terhubung; jika tidak, task akan gagal.

Integrasi Data mendukung sinkronisasi data antara sumber data yang berbeda di lingkungan jaringan kompleks. Platform ini mendukung skenario kompleks berikut:
Sinkronisasi data lintas akun Alibaba Cloud atau wilayah yang berbeda.
Integrasi dengan cloud hibrida dan pusat data lokal.
Konfigurasi beberapa saluran jaringan, seperti Internet, VPC, dan CEN.
Untuk informasi lebih lanjut tentang solusi konfigurasi jaringan, lihat Ikhtisar solusi network connectivity.
Referensi
Anda dapat mengonfigurasi sumber data dan membuat task sinkronisasi di Data Integration atau Data Studio untuk mentransfer dan memigrasikan data. Untuk informasi lebih lanjut, lihat dokumen berikut: