Arsitektur Offline Sync & Batch Data Integration - DataWorks

Fitur sinkronisasi offline Data Integration menyediakan plugin Reader dan Writer. Anda dapat menentukan sumber dan tujuan data serta menggunakan parameter penjadwalan DataWorks untuk menyinkronkan data penuh atau inkremental dari database sumber ke database tujuan. Topik ini menjelaskan kemampuan sinkronisasi offline.

Kemampuan inti

Kemampuan sinkronisasi offline ditunjukkan pada gambar berikut:

Kemampuan	Deskripsi
Sinkronisasi data antara sumber data yang berbeda	Data Integration mendukung lebih dari 50 jenis sumber data, seperti database relasional, penyimpanan tidak terstruktur, penyimpanan big data, dan antrian pesan. Anda dapat menentukan sumber dan tujuan data serta menggunakan plugin Reader dan Writer yang disediakan untuk mentransfer data antara sumber data terstruktur atau semi-terstruktur apa pun. Untuk informasi selengkapnya, lihat Sumber data yang didukung dan solusi sinkronisasi.
Sinkronisasi data dalam lingkungan jaringan kompleks	Sinkronisasi offline mendukung sinkronisasi data untuk ApsaraDB, pusat data lokal, database yang dikelola sendiri di ECS, dan database di luar Alibaba Cloud. Sebelum mengonfigurasi sinkronisasi, pastikan konektivitas jaringan antara kelompok sumber daya dengan sumber dan tujuan. Untuk informasi selengkapnya tentang konfigurasi, lihat Solusi konektivitas jaringan.
Skenario sinkronisasi	1. Mode sinkronisasi yang didukung Sinkronisasi penuh periodik: Secara berkala menimpa tabel tujuan dengan data dari tabel sumber. Mode ini cocok untuk skenario pembaruan penuh. Sinkronisasi inkremental periodik: Hanya menyinkronkan data baru atau yang berubah dari tabel sumber setiap hari atau jam. Hal ini dicapai dengan menggunakan parameter penjadwalan bawaan, seperti `${bizdate}`, bersama klausa `WHERE` untuk penyaringan data. Ini memastikan hanya data tertentu yang ditarik dan ditulis ke partisi waktu yang sesuai. Untuk informasi selengkapnya, lihat Skenario: Mengonfigurasi tugas sinkronisasi offline inkremental. Pengisian ulang data historis: Untuk mengisi ulang sejumlah besar data historis sekaligus, Anda dapat menggunakan fitur Data Backfill di Pusat Operasi. Fitur ini memungkinkan Anda menjalankan tugas sinkronisasi secara batch untuk mengarsipkan data historis secara efisien. Catatan Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Skenario umum penggunaan parameter penjadwalan dalam Data Integration dan Format yang didukung untuk parameter penjadwalan. 2. Struktur sumber yang didukung Tabel tunggal ke tabel tunggal: Ini adalah metode sinkronisasi paling dasar. Metode ini menyinkronkan data dari satu tabel sumber ke satu tabel tujuan. Database dan tabel terpartisi ke tabel tunggal: Secara otomatis menggabungkan data dari beberapa tabel fisik, seperti `order_01` dan `order_02`, lalu menulis data tersebut ke satu tabel tujuan. Sumber data yang didukung mencakup MySQL, SQL Server, Oracle, PostgreSQL, PolarDB, dan AnalyticDB. Untuk informasi selengkapnya, lihat Menyinkronkan database dan tabel terpartisi.
Metode Konfigurasi	Anda dapat mengonfigurasi tugas sinkronisasi offline Data Integration dengan cara berikut. Antarmuka tanpa kode: Anda dapat menggunakan wizard visual untuk menyelesaikan konfigurasi langkah demi langkah. Metode ini mudah dipelajari dan cocok untuk memulai dengan cepat. Namun, beberapa fitur lanjutan tidak tersedia. Editor kode: Anda dapat menggunakan skrip JSON untuk langsung menentukan logika sinkronisasi. Metode ini cocok untuk penggunaan lanjutan dan mendukung konfigurasi yang lebih kompleks untuk kontrol detail halus. Buat menggunakan OpenAPI: Anda dapat mengelola seluruh siklus hidup tugas melalui OpenAPI. Ini mendukung operasi terprogram. Untuk informasi selengkapnya tentang API, lihat . Catatan Untuk informasi selengkapnya tentang kemampuan konfigurasi tugas, lihat Ikhtisar fungsi.
O&M tugas sinkronisasi offline	Pemantauan dan peringatan: Anda dapat memantau status berjalan tugas sinkronisasi offline, termasuk peringatan ketika tugas belum selesai, mengalami kesalahan, atau telah selesai. Peringatan dapat dikirim ke penerima melalui email, pesan teks, panggilan telepon, chatbot grup DingTalk, dan webhook. Kualitas Data: Setelah tugas diajukan dan dipublikasikan, Anda dapat mengonfigurasi aturan pemantauan kualitas data untuk tabel tujuan di Pusat Operasi. Saat ini, hanya beberapa jenis database yang mendukung aturan pemantauan kualitas data. Pemagaran lingkungan sumber data: Anda dapat mengaitkan satu nama sumber data ke dua konfigurasi independen untuk lingkungan pengembang dan produksi. Tugas secara otomatis beralih sumber data berdasarkan lingkungan saat dieksekusi. Lingkungan pengembang digunakan untuk pengembangan dan debugging, sedangkan lingkungan produksi digunakan untuk penjadwalan produksi. Hal ini mencegah operasi pengujian secara tidak sengaja memengaruhi data online.

Ikhtisar fungsi

Fitur	Deskripsi
Sinkronisasi data penuh atau inkremental	Konfigurasikan Data Filtering dan gunakan parameter penjadwalan dalam tugas sinkronisasi offline untuk melakukan sinkronisasi data penuh atau inkremental. Konfigurasi untuk sinkronisasi inkremental bervariasi tergantung plugin. Untuk informasi selengkapnya tentang mengonfigurasi sinkronisasi data inkremental, lihat Skenario: Mengonfigurasi tugas sinkronisasi offline inkremental.
Pemetaan bidang	Buat aturan pemetaan antar bidang untuk menulis data sumber ke bidang tujuan yang sesuai. Pastikan tipe data bidang sumber dan tujuan kompatibel selama konfigurasi. Beberapa metode pemetaan bidang tersedia: Antarmuka tanpa kode mendukung pemetaan berdasarkan nama dan baris, serta memungkinkan hubungan bidang kustom. Data pada bidang yang tidak dipetakan secara otomatis diabaikan. Pastikan bidang tujuan yang sesuai memiliki nilai default atau mengizinkan nilai null untuk menghindari kegagalan penulisan. Editor kode memetakan bidang secara ketat berdasarkan urutan dalam konfigurasi kolom. Jumlah bidang pada reader dan writer harus identik. Jika tidak, tugas akan gagal dieksekusi. Tugas sinkronisasi juga menyediakan fitur penugasan nilai dinamis untuk bidang tujuan. Fitur ini mendukung konfigurasi fleksibel untuk konstanta, parameter penjadwalan, dan variabel bawaan, seperti `${bizdate}`. Parameter-parameter ini harus diberi nilai akhir selama fase penjadwalan.
Kontrol batas laju pekerjaan	Fitur kontrol konkurensi tugas membatasi jumlah maksimum koneksi bersamaan untuk membaca dari dan menulis ke database. Fitur laju sinkronisasi mengontrol lalu lintas untuk mencegah tekanan berlebihan pada sumber atau tujuan data. Jika tidak ada batasan yang ditetapkan, tugas akan menggunakan kinerja transfer maksimum yang tersedia di lingkungan perangkat keras saat ini.
Eksekusi tugas terdistribusi	Sumber data yang mendukung eksekusi terdistribusi dapat menggunakan teknologi segmentasi tugas untuk mendistribusikan tugas sinkronisasi ke beberapa node guna eksekusi bersamaan. Hal ini memungkinkan kecepatan sinkronisasi meningkat secara linear seiring ukuran kluster, sehingga mengatasi hambatan kinerja single-node. Pola ini sangat berguna untuk skenario sinkronisasi ber-throughput tinggi dan latensi rendah. Pola ini juga secara efisien menjadwalkan sumber daya kluster yang menganggur, sehingga meningkatkan pemanfaatan perangkat keras secara signifikan.
Kebijakan data kotor	Data kotor mengacu pada catatan yang gagal ditulis ke tujuan karena pengecualian, seperti konflik tipe atau pelanggaran batasan. Sinkronisasi offline mendukung penentuan kebijakan data kotor. Anda dapat menentukan jumlah catatan data kotor yang dapat ditoleransi dan dampaknya terhadap tugas. Abaikan data kotor: Secara otomatis memfilter data kotor dan hanya menulis data yang sesuai. Tugas tetap berjalan. Toleransi sejumlah catatan data kotor: Tetapkan ambang batas N. Jika jumlah catatan data kotor kurang dari atau sama dengan N, catatan abnormal dibuang dan tugas dilanjutkan. Jika jumlahnya melebihi N, tugas gagal dan keluar. Jangan toleransi data kotor: Tugas gagal dan keluar segera jika ada data kotor yang ditemui.
Zona waktu	Jika sumber dan tujuan berada di zona waktu berbeda, atur zona waktu sumber untuk melakukan konversi zona waktu selama sinkronisasi.
Pemrosesan data cerdas	DataWorks mendukung kemampuan pemrosesan data selama sinkronisasi data. Hal ini memungkinkan Anda mentransformasi dan memproses data sumber sebelum menulisnya ke tujuan: Penggantian string: Tugas sinkronisasi offline di DataWorks memiliki fitur penggantian string bawaan. Fitur ini memungkinkan Anda melakukan transformasi data ringan selama transfer data tanpa menyimpan data atau memerlukan langkah ekstrak, transformasi, dan muat (ETL) tambahan. Pemrosesan berbantuan AI: Selama sinkronisasi data, Anda dapat mengintegrasikan model AI besar untuk melakukan analisis semantik, sentimen, dan lainnya pada bahasa alami dari sumber. Hasil yang diproses kemudian ditulis langsung ke tabel tujuan. Vektorisasi data: Mengekstrak data sumber, membuat penyematan vektor, dan menulisnya ke database vektor.

Operasi lainnya

Untuk informasi selengkapnya tentang cara membuat tugas, lihat: