All Products
Search
Document Center

DataWorks:Dokumen

Last Updated:Mar 26, 2026

Data Integration adalah platform sinkronisasi data yang stabil, efisien, dan scalable untuk memindahkan data dengan kecepatan tinggi antara berbagai sumber data di lingkungan jaringan kompleks.

Penting

Akses Data Integration dari PC menggunakan Chrome 69 atau versi yang lebih baru.

image

Cara kerja

Alur kerja Data Integration yang khas terdiri dari empat tahap:

  1. Connect: Konfigurasikan sumber data, siapkan kelompok sumber daya, dan bangun konektivitas jaringan di antara keduanya.

  2. Develop: Pilih metode sinkronisasi batch atau real-time, lalu lengkapi konfigurasi sumber daya dan tugas.

  3. Test and publish: Gunakan pratinjau data dan uji coba untuk debugging. Setelah debugging berhasil, kirimkan dan publikasikan tugas tersebut. Tugas batch harus dipublikasikan ke lingkungan produksi.

  4. Operate: Pantau status sinkronisasi, atur peringatan, dan optimalkan sumber daya untuk manajemen siklus hidup secara menyeluruh.

Metode sinkronisasi

DataWorks Data Integration menyediakan metode sinkronisasi yang dapat dikombinasikan dalam tiga dimensi: latensi, cakupan, dan kebijakan data. Untuk informasi lebih lanjut mengenai solusi dan rekomendasi, lihat Sumber data yang didukung dan solusi sinkronisasi.

Cara membaca dimensi:

  • Latensi — seberapa sering data dipindahkan (batch terjadwal vs. real-time kontinu)

  • Cakupan — seberapa banyak data sumber yang ditransfer (satu tabel, seluruh database, atau shard yang digabung)

  • Kebijakan data — catatan mana yang ditransfer (seluruh data historis, hanya perubahan baru, atau keduanya)

Latensi

MetodeDeskripsi
BatchMenggunakan tugas terjadwal (per jam atau harian) untuk memigrasikan data penuh atau inkremental. Cocok untuk beban kerja ETL periodik T+1.
Real-timeMenangkap perubahan data sumber menggunakan Change Data Capture (CDC) melalui mesin pemrosesan aliran, mencapai latensi sinkronisasi dalam hitungan detik.

Cakupan

MetodeDeskripsi
Single tableMentransfer satu tabel dalam satu waktu dengan pemetaan bidang detail halus, aturan transformasi, dan konfigurasi kontrol.
Full databaseMemigrasikan skema dan data dari beberapa tabel dalam satu tugas. Mendukung pembuatan tabel otomatis, sehingga mengurangi jumlah tugas dan konsumsi sumber daya.
ShardingMenggabungkan data dari beberapa tabel sumber dengan skema identik ke dalam satu tabel tujuan. Secara otomatis mendeteksi aturan routing sharding.

Kebijakan data

MetodeDeskripsi
FullMigrasi satu kali untuk seluruh data historis. Biasanya digunakan untuk inisialisasi gudang data atau pengarsipan data.
IncrementalHanya mentransfer catatan baru atau yang berubah (seperti operasi INSERT atau UPDATE). Diimplementasikan melalui penyaringan data (mode batch) atau pembacaan log CDC (mode real-time).
Full and incrementalMelakukan sinkronisasi penuh satu kali, lalu secara otomatis beralih ke sinkronisasi inkremental. Tersedia tiga sub-mode berdasarkan kebutuhan ketepatan waktu:

Sub-mode Full and incremental:

Sub-modeCara kerjaKapan digunakan
BatchMuat penuh satu kali, lalu inkremental periodikSumber tidak memiliki persyaratan ketepatan waktu yang ketat dan memiliki bidang inkremental yang valid (misalnya, modify_time)
Real-timeMuat penuh satu kali, lalu inkremental real-time berbasis CDCData memiliki persyaratan ketepatan waktu tinggi; sumber berupa antrian pesan atau database yang mendukung log CDC
Near real-timeMuat penuh satu kali ke tabel dasar; inkremental real-time ke tabel log; data log digabungkan ke tabel dasar pada T+1Format tujuan tidak mendukung update atau delete (misalnya, tabel MaxCompute standar)

Konsep utama

Istilah-istilah berikut muncul pada tahap-tahap tertentu dalam konfigurasi dan operasi tugas. Memahaminya sebelum memulai akan mengurangi kesalahan konfigurasi.

KonsepMaknanyaDi Mana Hal Ini Penting
Data synchronizationMembaca data dari sumber, mengekstraksi dan menyaringnya, lalu menulisnya ke tujuan. Data Integration berfokus pada transfer data yang dapat diurai menjadi skema tabel dua dimensi logis. Platform ini tidak menyediakan konsumsi aliran data atau transformasi ETL.Langkah 1: Hubungkan
Data sourceKonfigurasi koneksi terstandarisasi di DataWorks untuk sistem eksternal (seperti MaxCompute, MySQL, dan OSS). Anggaplah ini sebagai string koneksi yang disimpan dan digunakan ulang oleh tugas.Langkah 1: Hubungkan
Field mappingMenentukan bidang sumber yang dibaca dan bidang tujuan yang ditulis. Ketidaksesuaian tipe antara bidang sumber dan tujuan menyebabkan kegagalan tugas atau data kotor — pastikan kompatibilitas tipe yang ketat saat konfigurasi. Risiko umum meliputi: Kegagalan konversi tipe — tipe bidang tidak konsisten (misalnya, String di sumber dan Integer di tujuan) langsung menyebabkan gangguan tugas atau data kotor; Kehilangan presisi atau rentang — jika nilai maksimum bidang tujuan lebih kecil daripada sumber (atau presisinya lebih rendah), terdapat risiko kegagalan penulisan atau pemotongan presisi, terlepas dari metode sinkronisasi.Langkah 2: Develop
ConcurrencyJumlah maksimum thread baca/tulis paralel untuk tugas sinkronisasi.Langkah 2: Develop
Rate limitingBatas kecepatan transfer untuk tugas sinkronisasi.Langkah 2: Develop
Dirty dataCatatan yang gagal ditulis ke tujuan (misalnya, nilai VARCHAR yang tidak dapat dikonversi ke INT). Tetapkan ambang batas data kotor dalam konfigurasi tugas — jika ambang batas terlampaui, tugas gagal dan berhenti. Data yang telah ditulis tidak dikembalikan (rollback). Data Integration menggunakan mekanisme penulisan batch; dalam kasus kesalahan batch, kemampuan rollback bergantung pada apakah tujuan mendukung transaksi. Data Integration sendiri tidak menyediakan dukungan transaksi.Langkah 3: Uji Coba dan Publikasikan
Data consistencyData Integration menjamin pengiriman at-least-once. Pengiriman exactly-once tidak didukung, sehingga catatan duplikat mungkin terjadi. Gunakan primary key dan kemampuan tujuan untuk menegakkan keunikan.Langkah 4: Operasikan

Fitur

Hubungkan ke ekosistem data Anda

Data Integration terhubung ke database relasional, penyimpanan data besar, database NoSQL, antrian pesan, sistem penyimpanan file, dan aplikasi SaaS.

Untuk lingkungan cross-account, cross-region, cloud hibrida, dan on-premises, konfigurasikan konektivitas jaringan untuk mengarahkan data melalui Internet, virtual private cloud (VPC), Express Connect, atau Cloud Enterprise Network (CEN).

Sinkronkan data secara fleksibel

  • Batch synchronization: Mencakup skenario single table, full database, dan sharding. Mendukung penyaringan data, pemangkasan kolom, dan logika transformasi untuk beban ETL periodik berskala besar.

  • Real-time synchronization: Menangkap perubahan dari sumber seperti MySQL, Oracle, dan Hologres, lalu menuliskannya ke gudang data real-time atau antrian pesan dengan latensi dalam hitungan detik.

  • Full and incremental synchronization: Menggabungkan muat penuh awal dengan sinkronisasi inkremental berkelanjutan (batch, real-time, atau near real-time) untuk menyederhanakan inisialisasi gudang data dan pembaruan berkelanjutan.

Skalakan sesuai beban kerja Anda

Kelompok sumber daya serverless diskalakan sesuai permintaan dengan penagihan pay-as-you-go, menangani fluktuasi trafik tanpa intervensi manual. Kontrol konkurensi, pembatasan laju, penanganan data kotor, dan pemrosesan terdistribusi menjaga stabilitas sinkronisasi di bawah beban yang bervariasi.

Kembangkan dan operasikan dengan biaya rendah

Antarmuka visual tanpa kode mencakup sebagian besar konfigurasi tugas sinkronisasi. Editor skrip JSON menangani kebutuhan lanjutan seperti parameterisasi dan pemetaan kolom dinamis. Tugas sinkronisasi batch diintegrasikan ke dalam alur kerja grafik asiklik terarah (DAG) untuk orkestrasi penjadwalan, pemantauan, dan peringatan.

Kontrol akses dan lindungi data

Pusat manajemen sumber data terpadu menyediakan kontrol izin dan mengisolasi lingkungan pengembangan dari produksi. Resource Access Management (RAM) menangani kontrol akses dengan otentikasi berbasis role. Penyembunyian data tersedia.

Penagihan

Biaya Data Integration berasal dari tiga sumber:

Untuk rincian lengkap, lihat Skenario penagihan inti.

Konektivitas jaringan

Setiap tugas Data Integration memerlukan koneksi jaringan yang berfungsi antara sumber data dan kelompok sumber daya. Tugas akan gagal jika koneksi ini tidak dapat dibangun.

image

Data Integration mendukung sinkronisasi lintas:

  • Akun atau wilayah Alibaba Cloud yang berbeda

  • Pusat data cloud hibrida dan on-premises

  • Banyak saluran jaringan: Internet, VPC, Express Connect, dan CEN

Untuk detail konfigurasi, lihat Ikhtisar solusi konektivitas jaringan.

Langkah selanjutnya

Konfigurasikan sumber data dan buat tugas sinkronisasi di Data Integration atau Data Studio: