DataWorks Data Integration menyediakan tugas sinkronisasi real-time satu tabel untuk mereplikasi data antar berbagai sumber data dengan latensi rendah dan throughput tinggi. Fitur ini menggunakan mesin komputasi waktu nyata yang canggih untuk menangkap perubahan data secara real-time—seperti insert, delete, dan update—dari sumber data, lalu menerapkannya ke tujuan hampir secara real-time. Topik ini menggunakan contoh sinkronisasi real-time satu tabel dari Kafka ke MaxCompute untuk menjelaskan proses konfigurasi tugas tersebut.
Persiapan
Persiapan sumber data
Anda telah membuat sumber data dan tujuan data. Untuk informasi selengkapnya tentang pengelolaan sumber data, lihat Data Source Management.
Pastikan sumber data mendukung sinkronisasi real-time. Untuk informasi selengkapnya, lihat Supported data sources and synchronization solutions.
Beberapa sumber data, seperti Hologres dan Oracle, mengharuskan Anda mengaktifkan logging. Metode pengaktifan logging bervariasi tergantung pada jenis sumber datanya. Untuk informasi selengkapnya, lihat Data Source List.
Resource group: Beli dan konfigurasikan Serverless resource group.
Konektivitas jaringan: Konfigurasikan konektivitas jaringan antara resource group dan sumber data.
Akses fitur
Masuk ke DataWorks console. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down, lalu klik Go to Data Integration.
Konfigurasi tugas
1. Buat tugas sinkronisasi
Anda dapat membuat tugas sinkronisasi dengan salah satu cara berikut:
Metode 1: Di halaman tugas sinkronisasi, pilih Source dan Destination, lalu klik Create Synchronization Task. Misalnya, Anda dapat memilih Kafka sebagai sumber dan MaxCompute sebagai tujuan.
Metode 2: Di halaman tugas sinkronisasi, klik Create jika daftar tugas kosong.

2. Konfigurasi informasi dasar
Konfigurasikan informasi dasar, seperti nama tugas, deskripsi, dan pemilik.
Pilih jenis sinkronisasi. Data Integration menampilkan opsi Task Type yang didukung berdasarkan jenis database sumber dan tujuan. Dalam contoh ini, pilih Real-time single-table.
Langkah sinkronisasi: Tugas sinkronisasi real-time satu tabel hanya mendukung sinkronisasi inkremental. Langkah-langkahnya biasanya terdiri dari Schema Migration dan Incremental Synchronization. Artinya, sistem terlebih dahulu mereplikasi skema tabel sumber ke tujuan. Setelah tugas dimulai, sistem secara otomatis menangkap perubahan data dari sumber dan menuliskannya ke tabel tujuan.
Jika sumber datanya adalah Hologres, sinkronisasi penuh juga didukung. Sistem terlebih dahulu melakukan sinkronisasi penuh data yang sudah ada ke tabel tujuan, lalu secara otomatis melanjutkan dengan sinkronisasi inkremental.
Untuk informasi selengkapnya tentang sumber data dan solusi sinkronisasi yang didukung, lihat Supported data sources and synchronization solutions.
3. Konfigurasi jaringan dan sumber daya
Pada langkah ini, pilih Resource Group, Source, dan Destination untuk tugas sinkronisasi. Kemudian, uji konektivitas jaringan antara resource group dan sumber data.
Untuk Serverless resource group, Anda dapat menentukan jumlah maksimum compute units (CUs) yang dapat digunakan oleh tugas sinkronisasi. Jika tugas sinkronisasi gagal karena error out-of-memory (OOM), Anda dapat menaikkan batas CU untuk resource group tersebut.
Jika sumber data belum tersedia, Anda dapat mengklik tombol Add Data Source untuk membuatnya. Untuk informasi selengkapnya, lihat Data Source Configuration.
4. Konfigurasi saluran sinkronisasi
1. Konfigurasi sumber
Di bagian atas halaman, klik sumber data Kafka dan edit Source Information.

Pada bagian Source Information, pilih topik dari sumber data yang akan disinkronkan.
Anda dapat menggunakan nilai default untuk pengaturan lainnya atau mengubahnya sesuai kebutuhan. Untuk informasi selengkapnya tentang parameter-parameter tersebut, lihat dokumentasi resmi Kafka.
Di pojok kanan atas, klik Data Sampling.
Pada kotak dialog, tentukan Start time dan Sampled Data Records. Klik Start Collection untuk mengambil sampel data dari topik Kafka yang ditentukan. Anda kemudian dapat melihat pratinjau data tersebut, yang digunakan untuk pratinjau dan visualisasi data pada node pemrosesan data selanjutnya.
Pada bagian Configure Output Field, pilih bidang-bidang yang akan disinkronkan.
Kafka menyediakan enam bidang default.
Field Name
Description
__key__
The key of the Kafka record.
__value__
The value of the Kafka record.
__partition__
The partition number where the Kafka record is located. Partition numbers are integers starting from 0.
__headers__
The headers of the Kafka record.
__offset__
The offset of the Kafka record in its partition. Offsets are integers starting from 0.
__timestamp__
The 13-digit integer millisecond timestamp of the Kafka record.
Anda juga dapat menerapkan transformasi tambahan pada bidang-bidang tersebut di node pemrosesan data selanjutnya.
2. Edit node pemrosesan data
Klik ikon
untuk menambahkan metode pemrosesan data. Tersedia lima metode: Data Masking, String Replace, Data Filtering, JSON Parsing, dan Field Editing and Assignment. Anda dapat mengatur urutannya sesuai keinginan. Saat runtime, node pemrosesan data dieksekusi sesuai urutan yang ditentukan.

Setelah mengonfigurasi setiap node pemrosesan data, klik tombol Preview Data Output di pojok kanan atas:
Pada tabel di bawah Input Data, Anda dapat melihat hasil Data Sampling dari langkah sebelumnya. Anda dapat mengklik Re-obtain Output of Ancestor Node untuk memperbarui hasilnya.
Jika komponen hulu tidak memberikan output, Anda dapat menggunakan Manually Construct Data untuk mensimulasikannya.
Klik Preview untuk melihat output yang dihasilkan oleh komponen pemrosesan data menggunakan data dari node hulu.

Pratinjau output data dan pemrosesan data bergantung pada Data Sampling dari sumber Kafka. Anda harus mengonfigurasi pengaturan ini di formulir sumber sebelum dapat memproses data.
3. Konfigurasi tujuan
Di bagian atas halaman, klik MaxCompute untuk mengedit informasi tujuan data.

Pada bagian Destination Information, pilih resource group Tunnel. Resource group default adalah Public Transfer Resource, yaitu kuota gratis untuk MaxCompute.
Pilih apakah akan Create tables automatically atau Use Existing Table untuk tabel tujuan.
Jika Anda memilih membuat tabel secara otomatis, tabel dengan nama yang sama dengan tabel sumber akan dibuat secara default. Anda dapat mengubah nama tabel tujuan secara manual.
Jika Anda memilih menggunakan tabel yang sudah ada, pilih tabel tujuan dari daftar drop-down.
(Opsional) Edit skema tabel.
Saat Anda memilih Create tables automatically, Anda dapat mengklik tombol Edit Table Schema untuk mengedit skema tabel tujuan di kotak dialog. Anda juga dapat mengklik tombol Re-generate Table Schema Based on Output Column of Ancestor Node untuk menghasilkan skema tabel secara otomatis dari kolom output node hulu. Pada skema tabel yang dihasilkan secara otomatis, Anda dapat memilih kolom sebagai primary key.
Konfigurasi pemetaan bidang.
Sistem secara otomatis memetakan kolom hulu ke kolom tabel tujuan berdasarkan prinsip same-name mapping. Anda dapat menyesuaikan pemetaan tersebut sesuai kebutuhan. Satu kolom hulu dapat dipetakan ke beberapa kolom tabel tujuan. Beberapa kolom hulu tidak dapat dipetakan ke satu kolom tabel tujuan. Jika suatu kolom hulu tidak dipetakan ke kolom tabel tujuan, data dalam kolom tersebut tidak akan ditulis ke tabel tujuan.
Anda dapat mengonfigurasi JSON Parsing khusus untuk bidang Kafka. Gunakan komponen pemrosesan data untuk mengambil konten bidang value guna konfigurasi bidang yang lebih detail halus.

(Opsional) Konfigurasi pengaturan partisi.
Automatic time-based partitioning mempartisi data berdasarkan bidang business time (dalam kasus ini, _timestamp). Data dipartisi berdasarkan tahun, lalu bulan, dan seterusnya.
Dynamic partitioning by field content memetakan bidang dari tabel sumber ke bidang partisi di tabel MaxCompute tujuan. Hal ini memastikan bahwa baris data dengan nilai bidang tertentu ditulis ke partisi yang sesuai di tabel MaxCompute.
5. Konfigurasi lainnya
Konfigurasi peringatan
Untuk mencegah keterlambatan sinkronisasi data bisnis akibat error tugas, Anda dapat menetapkan kebijakan peringatan untuk tugas sinkronisasi real-time satu tabel.
Di pojok kanan atas halaman, klik Configure Alert Rule untuk membuka halaman pengaturan peringatan tugas.
Klik Add Alert Rule untuk mengonfigurasi aturan peringatan. Anda dapat mengatur aturan peringatan untuk memantau metrik berbagai event, seperti keterlambatan bisnis, failover, perubahan status tugas, notifikasi DDL, dan pemanfaatan sumber daya tugas. Anda juga dapat menetapkan peringatan CRITICAL atau WARNING berdasarkan ambang batas tertentu.
Anda dapat menggunakan Configure Advanced Parameters untuk mengatur interval pengiriman pesan peringatan. Hal ini mencegah pengiriman volume pesan yang tinggi sekaligus, sehingga menghindari pemborosan sumber daya dan akumulasi pesan.
Jika Anda menetapkan alasan peringatan sebagai Business delay, Task status, atau Task Resource Utilization, Anda juga dapat mengaktifkan notifikasi pemulihan. Fitur ini mengirimkan notifikasi kepada penerima saat tugas kembali ke kondisi normal.
Kelola aturan peringatan.
Untuk aturan peringatan yang telah dibuat, Anda dapat menggunakan sakelar peringatan untuk mengaktifkan atau menonaktifkannya. Anda juga dapat mengirim peringatan ke personel yang berbeda berdasarkan tingkat peringatan.
Konfigurasi parameter lanjutan
Tugas sinkronisasi menyediakan parameter lanjutan untuk konfigurasi detail halus. Sistem telah menyediakan nilai default yang biasanya tidak perlu diubah. Untuk melakukan perubahan:
Di pojok kanan atas halaman, klik Configure Advanced Parameters untuk membuka halaman konfigurasi parameter lanjutan.
Atur Automatically set runtime configuration ke false.
Ubah nilai parameter sesuai petunjuk. Penjelasan untuk setiap parameter disediakan di samping namanya.
Ubah parameter hanya setelah Anda benar-benar memahami makna dan konsekuensinya untuk menghindari error tak terduga atau masalah kualitas data.
Konfigurasi resource group
Di pojok kanan atas antarmuka, klik Resource Group Configuration untuk melihat dan mengganti resource group yang terkait dengan tugas saat ini.
6. Dry run
Setelah selesai mengonfigurasi tugas, klik Perform Simulated Running di pojok kanan atas untuk menguji tugas tersebut. Dry run mensimulasikan tugas dengan memproses sejumlah kecil data sampel dan menampilkan hasilnya setelah ditulis ke tabel tujuan. Jika dry run menemukan error konfigurasi, exception, atau dirty data, sistem memberikan umpan balik secara real-time. Hal ini membantu Anda dengan cepat menentukan apakah konfigurasi tugas sudah benar dan menghasilkan output yang diharapkan.
Pada kotak dialog yang muncul, atur parameter Start time dan Sampled Data Records.
Klik Start Collection untuk mengambil data sampel.
Klik tombol Preview Result untuk mensimulasikan tugas dan melihat outputnya.
Output dry run hanya untuk pratinjau dan tidak ditulis ke sumber data tujuan. Hal ini tidak memengaruhi data produksi.
7. Mulai tugas
Untuk menyelesaikan konfigurasi, klik Complete di bagian bawah halaman.
Di halaman , temukan tugas sinkronisasi Anda. Di kolom Operation, klik Deploy. Setelah tugas dipublikasikan, Anda dapat menjalankannya.
CatatanAnda harus mempublikasikan tugas Data Integration ke lingkungan produksi agar dapat dijalankan. Setelah membuat atau mengedit tugas, Anda harus Deploy agar perubahan diterapkan.
Di Tasks, klik Name/ID tugas untuk melihat detail eksekusinya.
Langkah selanjutnya
Setelah tugas dimulai, Anda dapat mengklik nama tugas untuk melihat detail runtime dan melakukan O&M dan tuning tugas.
FAQ
Untuk informasi selengkapnya tentang masalah umum pada tugas sinkronisasi real-time, lihat Real-time synchronization FAQ.
Contoh lainnya
Sinkronisasi real-time satu tabel dari Kafka ke ApsaraDB for OceanBase
Ingesti data lake real-time satu tabel dari LogHub (SLS) ke Data Lake Formation
Sinkronisasi real-time satu tabel dari Hologres ke Doris
Sinkronisasi real-time satu tabel dari Hologres ke Hologres
Sinkronisasi real-time satu tabel dari Kafka ke Hologres
Sinkronisasi real-time satu tabel dari LogHub (SLS) ke Hologres
Sinkronisasi real-time satu tabel dari Kafka ke Hologres
Sinkronisasi real-time satu tabel dari Hologres ke Kafka
Sinkronisasi real-time satu tabel dari LogHub (SLS) ke MaxCompute
Sinkronisasi real-time satu tabel dari Kafka ke data lake OSS