DataWorks Data Integration menyediakan solusi terpadu untuk sinkronisasi database batch, yang memungkinkan Anda memigrasikan seluruh atau sebagian tabel dari database sumber ke penyimpanan data tujuan—baik sebagai operasi satu kali maupun berdasarkan jadwal berulang—menggunakan sinkronisasi penuh atau inkremental. Fitur ini menghilangkan kebutuhan membuat tugas secara manual untuk setiap tabel dan secara otomatis membuat skema tabel tujuan, sehingga menyederhanakan proses migrasi database.
Kasus penggunaan
Migrasi data dan adopsi cloud
Migrasikan database on-premises seperti MySQL dan Oracle ke gudang data atau data lake di cloud.
Migrasikan data antar platform cloud atau sistem database yang berbeda.
Pembangunan gudang data dan data lake
Lakukan sinkronisasi berkala data penuh atau inkremental dari database online transaction processing (OLTP) ke lapisan operational data store (ODS) dalam gudang data atau data lake sebagai fondasi untuk analisis data selanjutnya.
Backup data dan pemulihan bencana
Lakukan backup penuh data dari database produksi secara rutin ke media penyimpanan berbiaya rendah, seperti HDFS atau Object Storage Service (OSS).
Terapkan solusi pemulihan bencana lintas wilayah (cross-region) atau lintas Availability Zone.
Fitur utama
Sinkronisasi batch untuk seluruh database menawarkan fitur utama berikut:
Fitur utama | Fitur | Deskripsi |
Sinkronisasi batch antar sumber data heterogen | - | Sinkronisasi batch mendukung migrasi data dari pusat data on-premises atau platform cloud lain ke gudang data atau data lake, seperti MaxCompute, Hologres, atau OSS. Untuk informasi lebih lanjut, lihat Sumber data yang didukung dan solusi sinkronisasi. |
Sinkronisasi data di lingkungan jaringan kompleks | - | Sinkronisasi batch mendukung transfer data dari database Alibaba Cloud, database yang dikelola sendiri di ECS atau di pusat data on-premises, serta database non-Alibaba Cloud. Sebelum memulai, pastikan konektivitas jaringan antara kelompok sumber daya dengan sumber dan tujuan data. Untuk detail konfigurasi, lihat Konektivitas jaringan. |
Mode sinkronisasi | Sinkronisasi penuh | Mendukung sinkronisasi data penuh satu kali atau berjadwal ke tabel tujuan atau partisi tertentu. |
Sinkronisasi inkremental | Mendukung sinkronisasi data inkremental satu kali atau berjadwal berdasarkan timestamp, partisi, atau primary key. | |
Sinkronisasi gabungan penuh dan inkremental | Jalankan pertama kali melakukan sinkronisasi data penuh satu kali. Jalankan berikutnya secara otomatis beralih ke sinkronisasi data inkremental berkala ke partisi tertentu. | |
Pemetaan database dan tabel | Sinkronisasi tabel batch | Sinkronkan semua tabel dalam database atau pilih tabel tertentu menggunakan kotak centang atau aturan filter. |
Pembuatan skema otomatis | Satu konfigurasi dapat memproses ratusan tabel dari database sumber, dan sistem secara otomatis membuat struktur tabel yang sesuai di tujuan tanpa intervensi manual. | |
Pemetaan fleksibel | Atur aturan penamaan kustom untuk database dan tabel tujuan. Anda juga dapat menentukan pemetaan antara tipe bidang sumber dan tujuan agar sesuai dengan model data target. | |
Penjadwalan dan manajemen dependensi | Penjadwalan | Mendukung berbagai frekuensi penjadwalan: menit, jam, hari, minggu, bulan, dan tahun. Saat menyinkronkan banyak tabel sekaligus, atur waktu eksekusi secara bertahap dalam jadwal untuk mencegah antrian tugas dan konflik sumber daya. |
Dependensi tugas | Baik tugas seluruh-database maupun subtask-nya dapat digunakan sebagai dependensi hulu untuk tugas lain di DataWorks. Saat tugas sinkronisasi selesai, tugas hilirnya akan dipicu secara otomatis. | |
Dukungan parameter | Anda dapat menggunakan parameter penjadwalan untuk mengimplementasikan sinkronisasi inkremental. Misalnya, gunakan | |
Parameter lanjutan | Penanganan data kotor | Data kotor mengacu pada catatan yang tidak dapat ditulis ke tujuan karena error seperti ketidaksesuaian tipe atau pelanggaran batasan. Secara default, opsi ini bernilai |
Konfigurasi reader dan writer | Anda dapat mengonfigurasi jumlah maksimum koneksi untuk sumber data reader dan writer serta menentukan kebijakan pembersihan yang dijalankan di tujuan sebelum data ditulis. | |
Konkurensi dan pembatasan laju |
| |
O&M (Operations and Maintenance) | Intervensi waktu proses | Mendukung intervensi waktu proses seperti menjalankan ulang tugas, mengisi kembali data (backfill), menandai tugas sebagai berhasil, serta membekukan atau mengaktifkan kembali tugas. |
Pemantauan dan peringatan | Anda dapat mengonfigurasi aturan pemantauan untuk garis dasar, status tugas, dan durasi waktu proses, serta menyiapkan peringatan yang dipicu saat kondisi aturan terpenuhi. | |
Kualitas Data | Setelah Anda commit dan deploy tugas, Anda dapat mengonfigurasi aturan pemantauan kualitas data untuk tabel tujuan di Operation Center. Fitur ini mendukung pembuatan aturan berbasis AI maupun konfigurasi manual. Fitur ini saat ini hanya tersedia untuk tipe database tertentu. Untuk informasi lebih lanjut, lihat Kualitas Data. |
Mulai
Untuk membuat tugas sinkronisasi batch untuk seluruh database, lihat Konfigurasikan sinkronisasi batch untuk seluruh database.
Sumber data yang didukung
DataWorks mendukung migrasi database batch dari berbagai sumber data ke tujuan seperti MaxCompute, Object Storage Service (OSS), dan Elasticsearch. Tabel berikut mencantumkan sumber dan tujuan data yang didukung.
Sumber | Tujuan |
MaxCompute | |
Data Lake Formation | |
Hive | |
Hologres | |
OSS | |
OSS-HDFS | |
Elasticsearch | |
StarRocks | |
MySQL |