Apa saja fitur sinkronisasi database batch - DataWorks - Alibaba Cloud Documentation Center

DataWorks Data Integration menyediakan cara efisien untuk melakukan sinkronisasi database secara batch. Anda dapat memigrasikan seluruh atau sebagian tabel dari database sumber ke gudang data tujuan melalui sinkronisasi penuh atau inkremental, baik sebagai tugas satu kali maupun berdasarkan jadwal berulang. Fitur ini menghilangkan kebutuhan membuat tugas terpisah untuk setiap tabel dan secara otomatis membuat skema tabel tujuan, sehingga menyederhanakan proses migrasi dan manajemen database.

Kasus penggunaan

Migrasi data dan adopsi cloud
- Migrasikan database seperti MySQL dan Oracle dari pusat data on-premises ke gudang data atau data lake di cloud.
- Migrasikan data antar platform cloud atau sistem database yang berbeda.
Pembangunan gudang data atau data lake
Secara berkala lakukan sinkronisasi data penuh atau inkremental dari database online transaction processing (OLTP) ke lapisan operational data store (ODS) dalam gudang data atau data lake sebagai sumber untuk analitik downstream.
Backup data dan pemulihan bencana
- Lakukan backup rutin dataset lengkap dari database produksi ke media penyimpanan hemat biaya, seperti HDFS atau OSS.
- Terapkan solusi pemulihan bencana lintas wilayah (cross-region) atau lintas zona ketersediaan (cross-availability-zone).

Kemampuan inti

Kemampuan inti sinkronisasi database batch adalah sebagai berikut:

Kemampuan inti	Fitur	Deskripsi
Sinkronisasi lintas sumber data heterogen	-	Sinkronisasi batch mendukung migrasi data dari pusat data on-premises atau platform cloud lain ke gudang data atau data lake, seperti MaxCompute, Hologres, atau OSS. Untuk informasi lebih lanjut, lihat Sumber data yang didukung dan solusi sinkronisasi.
Sinkronisasi data di lingkungan jaringan kompleks	-	Sinkronisasi offline mendukung transfer data dari database Alibaba Cloud, database di pusat data on-premises, database yang dikelola sendiri pada Instance ECS, atau database non-Alibaba Cloud. Sebelum konfigurasi, pastikan konektivitas jaringan antara kelompok sumber daya dengan sumber dan tujuan. Untuk informasi lebih lanjut, lihat Konfigurasi konektivitas jaringan.
Skenario sinkronisasi	Full synchronization	Menyinkronkan seluruh data ke tabel tujuan atau partisi tertentu, baik sekali atau berdasarkan jadwal.
	Incremental synchronization	Mendukung sinkronisasi inkremental satu kali atau berkala berdasarkan waktu, partisi, atau primary key.
	Combined full and incremental	Jalankan pertama kali: Melakukan sinkronisasi penuh otomatis satu kali. Jalankan berikutnya: Tugas secara otomatis beralih ke sinkronisasi inkremental berkala ke partisi tertentu.
Pemetaan database dan tabel	Batch table synchronization	Anda dapat menyinkronkan semua tabel dalam database, atau menggunakan kotak centang seleksi dan aturan filter untuk memilih subset tabel tertentu.
	Automatic schema creation	Satu konfigurasi dapat memproses ratusan tabel dari database sumber. Sistem secara otomatis membuat skema tabel di tujuan tanpa intervensi manual.
	Flexible mapping	Memungkinkan penggunaan aturan penamaan kustom untuk database dan tabel tujuan. Anda juga dapat menyesuaikan pemetaan tipe field antara sumber dan tujuan agar sesuai dengan model data tujuan.
Penjadwalan dan manajemen dependensi	Scheduling time	Mendukung berbagai siklus penjadwalan, termasuk per menit, jam, hari, minggu, bulan, dan tahun. Jika Anda menyinkronkan banyak tabel sekaligus, kami menyarankan untuk mengatur waktu eksekusi secara bergilir guna mencegah penumpukan tugas dan resource contention.
	Task dependencies	Di DataWorks, baik entire-database tasks maupun subtasks tingkat tabel dapat ditetapkan sebagai tugas hulu untuk tugas pengembangan lainnya. Ketika subtask sinkronisasi tabel selesai, tugas tersebut secara otomatis memicu tugas hilirnya.
	Parameter support	Mendukung penggunaan parameter penjadwalan untuk mengimplementasikan sinkronisasi inkremental, seperti menggunakan `${bizdate}` untuk merepresentasikan tanggal bisnis.
Parameter lanjutan	Dirty data handling	Dirty data mengacu pada catatan yang gagal ditulis ke tujuan karena masalah seperti konflik tipe atau constraint violations. Nilai default adalah `false`, yang berarti tidak ada dirty data yang diizinkan, dan tugas akan gagal jika ditemukan. Jika diatur ke `true`, seluruh dirty data diabaikan.
	Reader and writer configuration	Mendukung konfigurasi jumlah maksimum koneksi untuk sumber data reader (sumber) dan writer (tujuan). Anda juga dapat menentukan kebijakan pembersihan yang dieksekusi di tujuan sebelum menulis data.
	Concurrency and rate limiting	Mengontrol konkurensi tugas untuk membatasi jumlah maksimum koneksi bersamaan saat Data Integration membaca dari dan menulis ke database. Termasuk fitur rate limiting untuk mengontrol aliran data dan mencegah tekanan berlebihan pada sistem sumber atau tujuan. Jika rate limiting dinonaktifkan, tugas menggunakan performa transfer maksimum yang tersedia di lingkungan perangkat keras saat ini.
Operasi dan pemeliharaan	Runtime intervention	Anda dapat melakukan intervensi waktu proses seperti rerun, backfill data, tandai sebagai sukses, freeze, dan restore.
	Monitoring and alerting	Anda dapat mengonfigurasi aturan pemantauan untuk garis dasar, status tugas, dan durasi waktu proses, serta mengirim peringatan saat aturan dipicu.
	Data quality	Setelah Anda mengirim dan menerapkan tugas, Anda dapat mengonfigurasi aturan pemantauan kualitas data untuk tabel tujuan di Operation Center. Aturan dapat dikonfigurasi secara manual atau dihasilkan oleh AI. Fitur ini saat ini hanya didukung untuk jenis database tertentu. Untuk informasi lebih lanjut, lihat Kualitas data.

Memulai

Untuk membuat tugas sinkronisasi batch untuk seluruh database, lihat Konfigurasikan tugas sinkronisasi batch untuk seluruh database.

Sumber data yang didukung

DataWorks mendukung migrasi seluruh database dari berbagai sumber data ke tujuan seperti MaxCompute, OSS, dan Elasticsearch. Sumber data yang didukung tercantum dalam tabel berikut.

Source	Destination
Amazon Redshift AnalyticDB for MySQL 3.0 ClickHouse Doris Hive Hologres data source MongoDB MySQL Oracle PolarDB PostgreSQL SQL Server ApsaraDB for OceanBase	MaxCompute
Hive	Data Lake Formation
MySQL	Hive
AnalyticDB for MySQL 3.0 ClickHouse Doris Hologres data source MaxCompute Oracle PolarDB PostgreSQL SQL Server	Hologres
MySQL PolarDB Hive	OSS
Hive MySQL	OSS-HDFS
MySQL SQL Server PolarDB	Elasticsearch
MySQL	StarRocks
Hologres data source	MySQL