Data Integration adalah platform sinkronisasi data yang stabil, efisien, dan scalable untuk memindahkan data dengan kecepatan tinggi antara berbagai sumber data di lingkungan jaringan kompleks.
Akses Data Integration dari PC menggunakan Chrome 69 atau versi yang lebih baru.
Cara kerja
Alur kerja Data Integration yang khas terdiri dari empat tahap:
Connect: Konfigurasikan sumber data, siapkan kelompok sumber daya, dan bangun konektivitas jaringan di antara keduanya.
Develop: Pilih metode sinkronisasi batch atau real-time, lalu lengkapi konfigurasi sumber daya dan tugas.
Test and publish: Gunakan pratinjau data dan uji coba untuk debugging. Setelah debugging berhasil, kirimkan dan publikasikan tugas tersebut. Tugas batch harus dipublikasikan ke lingkungan produksi.
Operate: Pantau status sinkronisasi, atur peringatan, dan optimalkan sumber daya untuk manajemen siklus hidup secara menyeluruh.
Metode sinkronisasi
DataWorks Data Integration menyediakan metode sinkronisasi yang dapat dikombinasikan dalam tiga dimensi: latensi, cakupan, dan kebijakan data. Untuk informasi lebih lanjut mengenai solusi dan rekomendasi, lihat Sumber data yang didukung dan solusi sinkronisasi.
Cara membaca dimensi:
Latensi — seberapa sering data dipindahkan (batch terjadwal vs. real-time kontinu)
Cakupan — seberapa banyak data sumber yang ditransfer (satu tabel, seluruh database, atau shard yang digabung)
Kebijakan data — catatan mana yang ditransfer (seluruh data historis, hanya perubahan baru, atau keduanya)
Latensi
| Metode | Deskripsi |
|---|---|
| Batch | Menggunakan tugas terjadwal (per jam atau harian) untuk memigrasikan data penuh atau inkremental. Cocok untuk beban kerja ETL periodik T+1. |
| Real-time | Menangkap perubahan data sumber menggunakan Change Data Capture (CDC) melalui mesin pemrosesan aliran, mencapai latensi sinkronisasi dalam hitungan detik. |
Cakupan
| Metode | Deskripsi |
|---|---|
| Single table | Mentransfer satu tabel dalam satu waktu dengan pemetaan bidang detail halus, aturan transformasi, dan konfigurasi kontrol. |
| Full database | Memigrasikan skema dan data dari beberapa tabel dalam satu tugas. Mendukung pembuatan tabel otomatis, sehingga mengurangi jumlah tugas dan konsumsi sumber daya. |
| Sharding | Menggabungkan data dari beberapa tabel sumber dengan skema identik ke dalam satu tabel tujuan. Secara otomatis mendeteksi aturan routing sharding. |
Kebijakan data
| Metode | Deskripsi |
|---|---|
| Full | Migrasi satu kali untuk seluruh data historis. Biasanya digunakan untuk inisialisasi gudang data atau pengarsipan data. |
| Incremental | Hanya mentransfer catatan baru atau yang berubah (seperti operasi INSERT atau UPDATE). Diimplementasikan melalui penyaringan data (mode batch) atau pembacaan log CDC (mode real-time). |
| Full and incremental | Melakukan sinkronisasi penuh satu kali, lalu secara otomatis beralih ke sinkronisasi inkremental. Tersedia tiga sub-mode berdasarkan kebutuhan ketepatan waktu: |
Sub-mode Full and incremental:
| Sub-mode | Cara kerja | Kapan digunakan |
|---|---|---|
| Batch | Muat penuh satu kali, lalu inkremental periodik | Sumber tidak memiliki persyaratan ketepatan waktu yang ketat dan memiliki bidang inkremental yang valid (misalnya, modify_time) |
| Real-time | Muat penuh satu kali, lalu inkremental real-time berbasis CDC | Data memiliki persyaratan ketepatan waktu tinggi; sumber berupa antrian pesan atau database yang mendukung log CDC |
| Near real-time | Muat penuh satu kali ke tabel dasar; inkremental real-time ke tabel log; data log digabungkan ke tabel dasar pada T+1 | Format tujuan tidak mendukung update atau delete (misalnya, tabel MaxCompute standar) |
Konsep utama
Istilah-istilah berikut muncul pada tahap-tahap tertentu dalam konfigurasi dan operasi tugas. Memahaminya sebelum memulai akan mengurangi kesalahan konfigurasi.
| Konsep | Maknanya | Di Mana Hal Ini Penting |
|---|---|---|
| Data synchronization | Membaca data dari sumber, mengekstraksi dan menyaringnya, lalu menulisnya ke tujuan. Data Integration berfokus pada transfer data yang dapat diurai menjadi skema tabel dua dimensi logis. Platform ini tidak menyediakan konsumsi aliran data atau transformasi ETL. | Langkah 1: Hubungkan |
| Data source | Konfigurasi koneksi terstandarisasi di DataWorks untuk sistem eksternal (seperti MaxCompute, MySQL, dan OSS). Anggaplah ini sebagai string koneksi yang disimpan dan digunakan ulang oleh tugas. | Langkah 1: Hubungkan |
| Field mapping | Menentukan bidang sumber yang dibaca dan bidang tujuan yang ditulis. Ketidaksesuaian tipe antara bidang sumber dan tujuan menyebabkan kegagalan tugas atau data kotor — pastikan kompatibilitas tipe yang ketat saat konfigurasi. Risiko umum meliputi: Kegagalan konversi tipe — tipe bidang tidak konsisten (misalnya, String di sumber dan Integer di tujuan) langsung menyebabkan gangguan tugas atau data kotor; Kehilangan presisi atau rentang — jika nilai maksimum bidang tujuan lebih kecil daripada sumber (atau presisinya lebih rendah), terdapat risiko kegagalan penulisan atau pemotongan presisi, terlepas dari metode sinkronisasi. | Langkah 2: Develop |
| Concurrency | Jumlah maksimum thread baca/tulis paralel untuk tugas sinkronisasi. | Langkah 2: Develop |
| Rate limiting | Batas kecepatan transfer untuk tugas sinkronisasi. | Langkah 2: Develop |
| Dirty data | Catatan yang gagal ditulis ke tujuan (misalnya, nilai VARCHAR yang tidak dapat dikonversi ke INT). Tetapkan ambang batas data kotor dalam konfigurasi tugas — jika ambang batas terlampaui, tugas gagal dan berhenti. Data yang telah ditulis tidak dikembalikan (rollback). Data Integration menggunakan mekanisme penulisan batch; dalam kasus kesalahan batch, kemampuan rollback bergantung pada apakah tujuan mendukung transaksi. Data Integration sendiri tidak menyediakan dukungan transaksi. | Langkah 3: Uji Coba dan Publikasikan |
| Data consistency | Data Integration menjamin pengiriman at-least-once. Pengiriman exactly-once tidak didukung, sehingga catatan duplikat mungkin terjadi. Gunakan primary key dan kemampuan tujuan untuk menegakkan keunikan. | Langkah 4: Operasikan |
Fitur
Hubungkan ke ekosistem data Anda
Data Integration terhubung ke database relasional, penyimpanan data besar, database NoSQL, antrian pesan, sistem penyimpanan file, dan aplikasi SaaS.
Untuk lingkungan cross-account, cross-region, cloud hibrida, dan on-premises, konfigurasikan konektivitas jaringan untuk mengarahkan data melalui Internet, virtual private cloud (VPC), Express Connect, atau Cloud Enterprise Network (CEN).
Sinkronkan data secara fleksibel
Batch synchronization: Mencakup skenario single table, full database, dan sharding. Mendukung penyaringan data, pemangkasan kolom, dan logika transformasi untuk beban ETL periodik berskala besar.
Real-time synchronization: Menangkap perubahan dari sumber seperti MySQL, Oracle, dan Hologres, lalu menuliskannya ke gudang data real-time atau antrian pesan dengan latensi dalam hitungan detik.
Full and incremental synchronization: Menggabungkan muat penuh awal dengan sinkronisasi inkremental berkelanjutan (batch, real-time, atau near real-time) untuk menyederhanakan inisialisasi gudang data dan pembaruan berkelanjutan.
Skalakan sesuai beban kerja Anda
Kelompok sumber daya serverless diskalakan sesuai permintaan dengan penagihan pay-as-you-go, menangani fluktuasi trafik tanpa intervensi manual. Kontrol konkurensi, pembatasan laju, penanganan data kotor, dan pemrosesan terdistribusi menjaga stabilitas sinkronisasi di bawah beban yang bervariasi.
Kembangkan dan operasikan dengan biaya rendah
Antarmuka visual tanpa kode mencakup sebagian besar konfigurasi tugas sinkronisasi. Editor skrip JSON menangani kebutuhan lanjutan seperti parameterisasi dan pemetaan kolom dinamis. Tugas sinkronisasi batch diintegrasikan ke dalam alur kerja grafik asiklik terarah (DAG) untuk orkestrasi penjadwalan, pemantauan, dan peringatan.
Kontrol akses dan lindungi data
Pusat manajemen sumber data terpadu menyediakan kontrol izin dan mengisolasi lingkungan pengembangan dari produksi. Resource Access Management (RAM) menangani kontrol akses dengan otentikasi berbasis role. Penyembunyian data tersedia.
Penagihan
Biaya Data Integration berasal dari tiga sumber:
Biaya kelompok sumber daya: Dikenakan berdasarkan penggunaan kelompok sumber daya. Semua tugas memerlukan kelompok sumber daya.
Biaya penjadwalan: Berlaku untuk tugas sinkronisasi batch tertentu dan tugas batch full database.
Biaya transfer data: Terjadi ketika data melewati Internet.
Untuk rincian lengkap, lihat Skenario penagihan inti.
Konektivitas jaringan
Setiap tugas Data Integration memerlukan koneksi jaringan yang berfungsi antara sumber data dan kelompok sumber daya. Tugas akan gagal jika koneksi ini tidak dapat dibangun.

Data Integration mendukung sinkronisasi lintas:
Akun atau wilayah Alibaba Cloud yang berbeda
Pusat data cloud hibrida dan on-premises
Banyak saluran jaringan: Internet, VPC, Express Connect, dan CEN
Untuk detail konfigurasi, lihat Ikhtisar solusi konektivitas jaringan.
Langkah selanjutnya
Konfigurasikan sumber data dan buat tugas sinkronisasi di Data Integration atau Data Studio: