Apa itu Data Integration, fitur-fitur Data Integration - DataWorks

Data Integration adalah platform sinkronisasi data yang stabil, efisien, dan memiliki skalabilitas elastis untuk memindahkan serta menyinkronkan data secara andal dengan kecepatan tinggi antara sumber data heterogen di berbagai lingkungan jaringan kompleks.

Proses

Penting

Akses Data Integration dari komputer desktop menggunakan Google Chrome versi 69 atau lebih baru.

Alur kerja pengembangan umum untuk Data Integration adalah sebagai berikut:

Konfigurasikan sumber data, siapkan kelompok sumber daya, dan bangun network connectivity antara sumber data dan kelompok sumber daya.
Pilih jenis sinkronisasi batch atau real-time berdasarkan kasus penggunaan Anda, lalu ikuti panduan UI untuk menyelesaikan resource dan task configuration.
Gunakan pratinjau data dan uji coba untuk debug tugas tersebut. Setelah debugging berhasil, submit and deploy tugas tersebut.
Hal ini memulai fase operasi berkelanjutan, di mana Anda memantau status sinkronisasi, mengatur peringatan, dan mengoptimalkan sumber daya, sehingga membentuk siklus manajemen yang lengkap.

Untuk menggunakan percakapan berbasis AI alih-alih konfigurasi berbasis formulir tradisional dalam membuat tugas Data Integration dan melakukan O&M cerdas sepanjang alur kerja, DataWorks juga menyediakan kemampuan Data Integration AI Native (DI Agent), yang mendukung pembuatan tugas berbasis percakapan bahasa alami, diagnostik cerdas, dan inspeksi berkala. Untuk informasi lebih lanjut, lihat Data Integration DI Agent.

Metode sinkronisasi

DataWorks Data Integration menyediakan metode sinkronisasi yang menggabungkan tiga dimensi: latensi, cakupan, dan kebijakan data. Untuk penjelasan dan rekomendasi terperinci, lihat Sumber data yang didukung dan solusi sinkronisasi.

Latensi: Batch atau real-time. Sinkronisasi batch menggunakan penjadwalan periodik untuk memigrasi data setiap jam atau harian. Sinkronisasi real-time menangkap perubahan data sumber melalui change data capture (CDC), mencapai latensi tingkat detik.
Cakupan: Tabel tunggal, seluruh database, atau sharding. Mendukung transfer detail halus satu tabel, serta migrasi massal dan penggabungan seluruh database atau database ter-shard.
Kebijakan data: Penuh, inkremental, atau penuh dan inkremental. Migrasi penuh memindahkan semua data historis. Sinkronisasi inkremental hanya memproses data baru atau yang berubah. Mode penuh dan inkremental menggabungkan keduanya, menawarkan implementasi batch, real-time, dan near-real-time berdasarkan karakteristik sumber data dan persyaratan latensi.

Metode	Deskripsi
Batch	Menggunakan mekanisme penjadwalan batch periodik dengan tugas per jam atau harian untuk melakukan migrasi full atau incremental data sumber ke tujuan.
Real-time	Menggunakan mesin pemrosesan streaming untuk menangkap perubahan data sumber secara real time (log CDC), mencapai sinkronisasi data dengan latensi tingkat detik.
Single table	Memindahkan data untuk satu tabel, dengan dukungan pemetaan bidang detail halus, aturan transformasi, dan konfigurasi kontrol.
Full database	Memigrasikan skema tabel dan data dari beberapa tabel dalam satu instansiasi basis data sumber ke tujuan dalam satu operasi, dengan dukungan pembuatan tabel otomatis. Satu tugas dapat menyinkronkan beberapa tabel, mengurangi jumlah tugas dan konsumsi sumber daya.
Sharding	Menulis data dari beberapa tabel sumber yang memiliki skema sama ke satu tabel tujuan, secara otomatis mengenali aturan routing sharding, dan menggabungkan data tersebut.
Full	Memigrasikan semua data historis dari tabel sumber sekaligus, biasanya digunakan untuk inisialisasi gudang data atau pengarsipan data.
Incremental	Hanya menyinkronkan data baru atau yang berubah dari sumber (seperti `INSERT`/`UPDATE`). Data Integration mendukung mode inkremental batch maupun real-time, yang diimplementasikan masing-masing dengan mengatur penyaringan data (kondisi inkremental) dan membaca data CDC dari sumber.
Full and incremental	Menjalankan sinkronisasi penuh satu kali untuk data historis, lalu secara otomatis beralih ke penulisan data inkremental. Data Integration mendukung sinkronisasi full and incremental untuk berbagai skenario. Pilih opsi yang sesuai berdasarkan karakteristik sumber data dan persyaratan latensi antara sumber dan tujuan Anda. Skema batch: Sinkronisasi penuh satu kali diikuti oleh sinkronisasi inkremental periodik. Cocok untuk sumber data yang tidak memerlukan ketepatan waktu data tinggi dan memiliki bidang inkremental yang sesuai di tabel sumber (misalnya modify_time). Skema real-time: Sinkronisasi penuh satu kali diikuti oleh sinkronisasi inkremental real-time. Cocok untuk skenario yang memerlukan ketepatan waktu data tinggi dan sumber berupa antrian pesan atau database yang mendukung log CDC. Skema near-real-time: Sinkronisasi penuh satu kali ke tabel dasar, dengan penulisan inkremental real-time ke tabel log. Secara basis T+1, data tabel log digabungkan ke tabel dasar. Skema near-real-time melengkapi skema real-time dan cocok untuk format tabel tujuan yang tidak mendukung pembaruan atau penghapusan, seperti tabel MaxCompute reguler.

Konsep dasar

Konsep	Deskripsi
Data synchronization	Sinkronisasi data mengacu pada pembacaan data dari sumber, melakukan ekstraksi dan penyaringan, lalu menulis data tersebut ke tujuan. Data Integration berfokus pada pemindahan data yang dapat diabstraksikan menjadi struktur tabel dua dimensi logis. Layanan ini tidak menyediakan kemampuan konsumsi aliran data atau transformasi ETL. Data Integration hanya mendukung jaminan pengiriman at-least-once. Pengiriman exactly-once tidak didukung. Artinya, data duplikat mungkin terjadi setelah sinkronisasi. Anda hanya dapat mengandalkan primary key dan kemampuan tujuan untuk memastikan deduplikasi data.
Field mapping	Field mapping menetapkan korespondensi baca/tulis antara data sumber dan tujuan dalam tugas sinkronisasi. Saat mengonfigurasi field mapping, periksa dengan cermat kompatibilitas tipe antara bidang sumber dan tujuan untuk menghindari kesalahan konversi yang dapat menghasilkan data kotor atau menyebabkan kegagalan tugas. Risiko umum meliputi: Kegagalan konversi tipe: Jika tipe bidang sumber dan tujuan tidak konsisten (misalnya, sumber berupa `String` dan tujuan berupa `Integer`), hal ini langsung menyebabkan gangguan tugas atau data kotor. Kehilangan presisi dan rentang: Jika nilai maksimum tipe bidang tujuan lebih kecil daripada sumber (atau nilai minimum lebih besar, atau presisinya lebih rendah), kegagalan penulisan data atau pemotongan presisi dapat terjadi. Hal ini berlaku terlepas dari tipe bidang di kedua sisi atau apakah sinkronisasi bersifat batch atau real-time.
Concurrency	Concurrency adalah jumlah maksimum thread yang dapat membaca dari atau menulis ke penyimpanan data secara paralel selama tugas sinkronisasi data.
Throttling	Throttling adalah batas kecepatan transfer yang dapat dicapai oleh tugas sinkronisasi Data Integration.
Dirty data	Data kotor mengacu pada data yang tidak valid, diformat salah, atau mengalami pengecualian sinkronisasi. Ketika satu catatan gagal ditulis ke tujuan, catatan tersebut diklasifikasikan sebagai data kotor (misalnya, tipe `VARCHAR` sumber tidak dapat dikonversi ke tipe `INT` tujuan). Anda dapat mengonfigurasi kebijakan toleransi data kotor di pengaturan tugas: tetapkan ambang batas untuk membatasi jumlah catatan data kotor. Jika ambang batas terlampaui, tugas gagal dan berhenti. Jika tugas gagal karena data kotor, data yang telah berhasil ditulis tidak dikembalikan (rollback). Data Integration menggunakan mekanisme penulisan batch. Kemampuan rollback batch yang gagal bergantung pada apakah tujuan mendukung transaksi. Data Integration sendiri tidak menyediakan dukungan transaksi.
Data source	Sumber data adalah unit konfigurasi standar di DataWorks untuk menghubungkan ke sistem eksternal. Sumber data menyediakan definisi titik akhir baca/tulis terpadu untuk tugas Data Integration melalui templat koneksi yang telah ditentukan untuk berbagai sumber data heterogen seperti MaxCompute, MySQL, dan OSS.
Data consistency	Data Integration hanya mendukung jaminan pengiriman at-least-once. Pengiriman exactly-once tidak didukung. Artinya, data duplikat mungkin terjadi setelah sinkronisasi. Anda hanya dapat mengandalkan primary key dan kemampuan tujuan untuk memastikan deduplikasi data.

Fitur dan nilai inti

Kemampuan DataWorks Data Integration tercermin dalam konektivitas ekosistem data yang luas, metode sinkronisasi fleksibel, kinerja tinggi, pengembangan dan O&M yang mudah, serta manajemen keamanan yang komprehensif.

Konektivitas ekosistem data yang luas

Hancurkan silodata dan aktifkan agregasi serta migrasi data.

Dukungan sumber data yang kaya: Mencakup berbagai jenis sumber data, termasuk database relasional, sistem penyimpanan big data, database NoSQL, antrian pesan, layanan penyimpanan file, dan aplikasi SaaS.
Kompatibilitas jaringan kompleks: Dengan mengonfigurasi Network connectivity configuration, Anda dapat menggunakan Internet, VPC, Express Connect, atau Cloud Enterprise Network (CEN) untuk mengaktifkan transfer data lintas arsitektur cloud hibrida dan multi-cloud.

Metode sinkronisasi yang fleksibel dan serbaguna

Penuhi kebutuhan sinkronisasi mulai dari batch hingga real-time, dari tabel tunggal hingga seluruh database, dan dari penuh hingga inkremental.

Sinkronisasi batch: Mendukung berbagai skenario sinkronisasi batch termasuk tabel tunggal, seluruh database, dan sharding. Menyediakan penyaringan data, pemangkasan kolom, dan logika transformasi untuk pemuatan ETL periodik skala besar T+1.
Sinkronisasi real-time: Menangkap perubahan data dari sumber data seperti MySQL, Oracle, dan Hologres secara near-real time dan menuliskannya ke gudang data real-time atau antrian pesan untuk mendukung keputusan bisnis real-time.
Integrasi penuh dan inkremental: Menyediakan solusi sinkronisasi batch seluruh database, real-time seluruh database, dan penuh dan inkremental seluruh database. Eksekusi pertama melakukan inisialisasi data penuh, dan eksekusi berikutnya secara otomatis beralih ke sinkronisasi inkremental. Hal ini menyederhanakan proses pemuatan data awal dan pembaruan berikutnya, memberikan kemampuan migrasi penuh, penangkapan inkremental, dan transisi otomatis dari penuh ke inkremental.

Skalabilitas elastis dan kinerja

Penjadwalan sumber daya adaptif yang menyediakan transfer data sangat andal untuk operasi bisnis inti.

Sumber daya elastis: Serverless resource groups mendukung penskalaan elastis sesuai permintaan dan penagihan bayar sesuai penggunaan untuk menangani fluktuasi trafik secara efektif.
Manajemen kinerja: Mendukung kontrol konkurensi, pembatasan kecepatan, penanganan data kotor, dan pemrosesan terdistribusi untuk memastikan sinkronisasi stabil di bawah beban kerja yang bervariasi.

Pengembangan low-code dan O&M cerdas

Kurangi kompleksitas pengembangan dan biaya O&M sinkronisasi data melalui konfigurasi visual dan alur kerja yang disederhanakan.

Pengembangan low-code: Codeless UI menyediakan antarmuka konfigurasi visual yang memungkinkan Anda mengonfigurasi sebagian besar tugas sinkronisasi melalui operasi klik sederhana tanpa menulis kode. Code editor mendukung konfigurasi lanjutan melalui skrip JSON untuk memenuhi kebutuhan kompleks seperti parameterisasi dan pemetaan kolom dinamis.
O&M full-stack: Tugas sinkronisasi batch dapat diintegrasikan ke dalam alur kerja DAG, dengan dukungan orkestrasi penjadwalan, pemantauan, dan peringatan.

Manajemen keamanan komprehensif

Mengintegrasikan mekanisme keamanan berlapis untuk memastikan data dapat dikontrol dan sesuai regulasi sepanjang siklus hidup alur data.

Manajemen terpusat: Pusat manajemen sumber data terpadu yang mendukung kontrol akses atas sumber data dan isolasi antara lingkungan pengembangan dan produksi.
Perlindungan keamanan: Mematuhi kontrol akses RAM, serta mendukung otentikasi berbasis role dan penyamaran data.

Penagihan

Biaya tugas Data Integration terutama mencakup biaya kelompok sumber daya, biaya penjadwalan, dan biaya trafik jaringan publik. Tugas Data Integration bergantung pada kelompok sumber daya, yang biayanya dikenakan berdasarkan kelompok sumber daya tersebut. Beberapa tugas sinkronisasi batch dan batch seluruh database melibatkan eksekusi terjadwal dan dikenai biaya penjadwalan. Jika sumber data mentransfer data melalui Internet, biaya trafik jaringan publik juga berlaku. Untuk rincian penagihan, lihat Skema penagihan inti.

Network connectivity

Network connectivity antara sumber data dan kelompok sumber daya merupakan prasyarat agar tugas Data Integration berhasil dijalankan. Anda harus memastikan koneksi jaringan di antara keduanya; jika tidak, tugas pasti akan gagal.

Data Integration mendukung sinkronisasi data antara sumber data heterogen di berbagai lingkungan jaringan kompleks, termasuk skenario berikut:

Sinkronisasi data lintas Akun Alibaba Cloud atau Wilayah.
Konektivitas cloud hibrida dan pusat data lokal (IDC).
Konfigurasi beberapa saluran jaringan seperti Internet, VPC, dan CEN.

Untuk solusi konfigurasi jaringan terperinci, lihat Ikhtisar solusi network connectivity.

Referensi

Setelah mengonfigurasi sumber data, Anda dapat membuat tugas sinkronisasi di Data Integration atau Data Development untuk mentransfer dan memigrasikan data. Untuk informasi lebih lanjut, lihat: