Data Integration mendukung sinkronisasi real-time data dari satu tabel dalam sumber data seperti DataHub dan Hologres ke Kafka. Tugas sinkronisasi ETL real-time menginisialisasi topik di Kafka berdasarkan skema tabel Hologres sumber dan menyinkronkan data dari tabel Hologres ke Kafka secara real-time untuk dikonsumsi. Topik ini menjelaskan cara mengonfigurasi sinkronisasi real-time dari satu tabel Hologres ke Kafka.
Batasan
Versi sumber data Kafka harus berkisar antara 0.10.2 hingga 3.6.0.
Versi sumber data Hologres harus V2.1 atau yang lebih baru.
Sinkronisasi inkremental data dari tabel partisi Hologres tidak didukung.
Pesan untuk perubahan DDL pada tabel Hologres tidak dapat disinkronkan.
Data inkremental dari tipe data berikut dapat disinkronkan dari Hologres: INTEGER, BIGINT, TEXT, CHAR(n), VARCHAR(n), REAL, JSON, SERIAL, OID, INT4[], INT8[], FLOAT8[], BOOLEAN[], TEXT[], dan JSONB.
Anda harus mengaktifkan binary logging untuk tabel Hologres di database Hologres sumber. Untuk informasi lebih lanjut, lihat Berlangganan log biner Hologres.
Prasyarat
Sebuah Kelompok sumber daya tanpa server telah dibeli.
Sumber data Hologres dan Kafka telah dibuat. Untuk informasi lebih lanjut, lihat Membuat sumber data untuk Data Integration.
Konektivitas jaringan antara kelompok sumber daya dan sumber data telah ditetapkan. Untuk informasi lebih lanjut, lihat Solusi konektivitas jaringan.
Prosedur
1. Pilih jenis tugas sinkronisasi
Buka halaman Data Integration.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Integration.
Di panel navigasi sebelah kiri, klik Synchronization Task. Kemudian, klik Create Synchronization Task di bagian atas halaman untuk membuka halaman pembuatan tugas sinkronisasi. Konfigurasikan informasi dasar berikut:
Data Source And Destination:
Hologres→KafkaNew Task Name: Sesuaikan nama untuk tugas sinkronisasi.
Synchronization Type:
Single Table Real-time.Synchronization Step: Pilih
Sinkronisasi Penuh.
2. Konfigurasikan jaringan dan sumber daya
Di bagian Network And Resource Configuration, pilih Resource Group untuk tugas sinkronisasi. Anda dapat mengalokasikan Task Resource Usage dalam CU untuk tugas tersebut.
Untuk Source Data Source, pilih sumber data
Hologresyang telah ditambahkan. Untuk Destination Data Source, pilih sumber dataKafkayang telah ditambahkan. Lalu, klik Test Connectivity.
Setelah memastikan bahwa kedua sumber data sumber dan tujuan terhubung, klik Next.
3. Konfigurasikan tautan sinkronisasi
a. Konfigurasikan sumber Hologres
Di bagian atas halaman, klik sumber data Hologres dan edit Holo Source Information.

Di bagian Holo Source Information, pilih skema yang berisi tabel Hologres dari mana Anda ingin membaca data dan tabel sumber.
Klik Data Sampling di pojok kanan atas.
Di kotak dialog Data Output Preview, tentukan Number Of Samples dan klik Start Collection. Anda dapat mengambil sampel data dari tabel Hologres yang ditentukan untuk melihat pratinjau data di tabel Hologres. Ini memberikan masukan untuk pratinjau data dan konfigurasi visual di node pemrosesan data selanjutnya.
b. Konfigurasikan tujuan Kafka
Di bagian atas halaman, klik tujuan Kafka dan edit Kafka Destination Information.

Di bagian Kafka Destination Information, pilih topik Kafka ke mana Anda ingin menulis data.
Atur Merge Source Binlog Update Messages sesuai kebutuhan. Jika Anda mengaktifkan opsi ini, dua pesan pembaruan yang sesuai dengan operasi pembaruan di log biner sumber digabungkan menjadi satu pesan sebelum ditulis ke Kafka.
Atur Output Format, Key Column, dan Kafka Producer Parameters.
Output Format: Konfirmasikan format konten nilai dalam catatan yang ditulis ke Kafka. Nilai valid: Canal CDC dan JSON. Untuk informasi lebih lanjut, lihat Lampiran: Deskripsi format output.
Key Column: Pilih kolom sumber. Nilai kolom yang dipilih diserialisasi menjadi string dan digabungkan dengan koma untuk membentuk kunci catatan yang ditulis ke topik Kafka.
CatatanAturan serialisasi untuk nilai kolom sama dengan aturan serialisasi JSON untuk tipe data kolom di Hologres.
Nilai kunci di topik Kafka menentukan partisi ke mana data ditulis. Data dengan nilai kunci yang sama ditulis ke partisi yang sama. Untuk memastikan bahwa konsumen dapat mengonsumsi data di topik Kafka secara berurutan, kami sarankan Anda menggunakan kolom kunci primer tabel Hologres sebagai kolom kunci.
Jika tidak ada kolom sumber yang digunakan sebagai kolom kunci, nilai kunci di topik Kafka adalah null. Dalam hal ini, data ditulis ke partisi acak di topik Kafka.
Kafka Producer Parameters: Parameter ini memengaruhi konsistensi, stabilitas, dan perilaku penanganan pengecualian operasi tulis. Dalam kebanyakan kasus, Anda dapat menggunakan konfigurasi default. Jika Anda memiliki persyaratan khusus, Anda dapat menentukan parameter tertentu. Untuk informasi tentang parameter produsen yang didukung oleh versi Kafka yang berbeda, lihat Dokumentasi Kafka.
4. Konfigurasikan aturan peringatan
Untuk mencegah kegagalan tugas sinkronisasi menyebabkan latensi pada sinkronisasi data bisnis, Anda dapat mengonfigurasi aturan peringatan yang berbeda untuk tugas sinkronisasi.
Di pojok kanan atas halaman, klik Configure Alert Rule untuk membuka panel Configure Alert Rule.
Di panel Konfigurasikan Aturan Peringatan, klik Add Alert Rule. Di kotak dialog Tambah Aturan Peringatan, konfigurasikan parameter untuk mengonfigurasi aturan peringatan.
CatatanAturan peringatan yang Anda konfigurasikan pada langkah ini berlaku untuk subtugas sinkronisasi real-time yang akan dihasilkan oleh tugas sinkronisasi. Setelah konfigurasi tugas sinkronisasi selesai, Anda dapat merujuk Kelola tugas sinkronisasi real-time untuk pergi ke halaman Tugas Sinkronisasi Real-time dan memodifikasi aturan peringatan yang dikonfigurasikan untuk subtugas sinkronisasi real-time.
Kelola aturan peringatan.
Anda dapat mengaktifkan atau menonaktifkan aturan peringatan yang dibuat. Anda juga dapat menentukan penerima peringatan yang berbeda berdasarkan tingkat keparahan peringatan.
5. Konfigurasikan parameter lanjutan
DataWorks memungkinkan Anda memodifikasi konfigurasi parameter tertentu. Anda dapat mengubah nilai parameter ini berdasarkan kebutuhan bisnis Anda.
Untuk mencegah kesalahan tak terduga atau masalah kualitas data, kami sarankan Anda memahami arti dari parameter sebelum mengubah nilai parameter tersebut.
Di pojok kanan atas halaman konfigurasi, klik Konfigurasikan Parameter Lanjutan.
Di panel Konfigurasikan Parameter Lanjutan, ubah nilai parameter yang diinginkan.
6. Konfigurasikan kelompok sumber daya
Anda dapat mengklik Configure Resource Group di pojok kanan atas halaman untuk melihat dan mengubah kelompok sumber daya yang digunakan untuk menjalankan tugas sinkronisasi saat ini.
7. Jalankan tugas sinkronisasi
Setelah konfigurasi tugas sinkronisasi selesai, klik Complete di bagian bawah halaman.
Di bagian Tasks halaman Synchronization Task, temukan tugas sinkronisasi yang dibuat dan klik Start di kolom Operation.
Klik name or ID tugas sinkronisasi di bagian Tasks dan lihat proses pelaksanaan rinci tugas sinkronisasi.
Lakukan operasi O&M pada tugas sinkronisasi
Lihat status tugas sinkronisasi
Setelah solusi sinkronisasi data dibuat, Anda dapat pergi ke halaman Tugas untuk melihat semua solusi sinkronisasi data yang dibuat di ruang kerja dan informasi dasar setiap solusi sinkronisasi data.

Anda dapat Start atau Stop tugas sinkronisasi di kolom Aksi. Anda juga dapat Edit atau View tugas sinkronisasi dari daftar drop-down Lainnya.
Untuk tugas yang telah dimulai, Anda dapat melihat status dasar tugas di Execution Overview. Anda juga dapat mengklik area ikhtisar yang sesuai untuk melihat detail eksekusi.

Tugas sinkronisasi real-time dari tabel Hologres ke Kafka terdiri dari tiga langkah berikut:
Structure Migration: mencakup metode pembuatan tabel tujuan (tabel yang sudah ada atau pembuatan tabel otomatis). Jika Anda memilih pembuatan tabel otomatis, pernyataan bahasa definisi data (DDL) untuk membuat tabel ditampilkan.
Full Initialization: Jika Anda memilih Full Synchronization untuk Synchronization Step tugas Anda, kemajuan inisialisasi penuh ditampilkan di sini.
Real-time Data Synchronization: mencakup informasi statistik tentang sinkronisasi real-time, seperti lalu lintas baca dan tulis real-time, data kotor, failover, dan log operasi.
Jalankan ulang tugas sinkronisasi
Dalam beberapa kasus khusus, jika Anda ingin memodifikasi bidang untuk disinkronkan, bidang dalam tabel tujuan, atau informasi nama tabel, Anda juga dapat mengklik Rerun di kolom Operation tugas sinkronisasi yang diinginkan. Dengan cara ini, sistem menyinkronkan perubahan yang dibuat ke tujuan. Data di tabel yang sudah disinkronkan dan tidak dimodifikasi tidak akan disinkronkan lagi.
Langsung klik Rerun tanpa memodifikasi konfigurasi tugas sinkronisasi untuk mengaktifkan sistem menjalankan ulang tugas sinkronisasi.
Modifikasi konfigurasi tugas sinkronisasi lalu klik Complete. Klik Apply Updates yang ditampilkan di kolom Operasi tugas sinkronisasi untuk menjalankan ulang tugas sinkronisasi agar konfigurasi terbaru diterapkan.
Lampiran: Deskripsi format output
Canal CDC
Canal CDC adalah format data CDC yang didefinisikan oleh Alibaba Canal.
Json
Json adalah format yang menggunakan nama bidang dalam log biner Hologres sebagai kunci dan menyerialisasi isi data bidang menjadi string sebagai nilai. Lalu, kunci dan nilai diorganisasikan sebagai string berformat JSON dan ditulis ke topik Kafka.
