Data Integration mendukung sinkronisasi real-time data dari tabel tunggal dalam sumber data seperti Kafka dan LogHub ke OSS. Topik ini menjelaskan cara menggunakan DataWorks Data Integration untuk menyinkronkan data dari Kafka ke danau data OSS secara real-time.
Batasan
Versi layanan Kafka yang digunakan harus berkisar antara 0.10.2 hingga 2.2.0.
Prasyarat
Anda telah membeli kelompok sumber daya tanpa server atau kelompok sumber daya eksklusif untuk Integrasi Data.
Anda telah membuat sumber data Kafka dan sumber data OSS. Untuk informasi lebih lanjut, lihat Buat sumber data untuk Integrasi Data.
Anda telah menetapkan koneksi jaringan antara kelompok sumber daya dan sumber data. Untuk informasi lebih lanjut, lihat Solusi konektivitas jaringan.
Prosedur
Langkah 1: Pilih jenis tugas sinkronisasi
Buka halaman Integrasi Data.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Integration.
Di panel navigasi sisi kiri, klik Synchronization Task. Kemudian, klik Create Synchronization Task di bagian atas halaman untuk membuka halaman pembuatan tugas sinkronisasi. Konfigurasikan informasi dasar berikut:
Source And Destination:
Kafka→OSSNew Node Name: Tentukan nama untuk tugas sinkronisasi.
Synchronization Method:
Tabel tunggal real-time.
Langkah 2: Konfigurasi jaringan dan sumber daya
Di bagian Network And Resource Configuration, pilih Resource Group yang ingin Anda gunakan untuk tugas sinkronisasi. Anda dapat mengalokasikan Task Resource Usage dalam CU untuk tugas tersebut.
Untuk Source Data Source, pilih sumber data
kafkayang telah ditambahkan. Untuk Destination Data Source, pilih sumber dataOSSyang telah ditambahkan, lalu klik Test Connectivity.
Setelah memastikan bahwa kedua sumber data terhubung, klik Next.
Langkah 3: Konfigurasi tautan sinkronisasi
1. Konfigurasi sumber data Kafka
Di wizard bagian atas halaman konfigurasi, klik Kafka dan edit Kafka Source Information.

Di bagian Kafka Source Information, pilih topik Kafka dari mana Anda ingin menyinkronkan data.
Pertahankan nilai default untuk parameter lainnya, atau modifikasi konfigurasinya sesuai kebutuhan bisnis Anda.
Klik Data Sampling di pojok kanan atas.
Di kotak dialog yang muncul, konfigurasikan parameter Start Time dan Sampled Data Records, lalu klik Start Collection. Sistem akan mengambil sampel data dari topik Kafka yang Anda tentukan. Anda dapat melihat pratinjau data di topik Kafka. Data di topik Kafka digunakan sebagai data masukan untuk pratinjau data dan konfigurasi visualisasi node pemrosesan data.
Di bagian Output Field Configuration, pilih bidang yang ingin Anda sinkronkan.
2. Konfigurasi node pemrosesan data
Anda dapat mengklik ikon
untuk menambahkan metode pemrosesan data. Metode pemrosesan data berikut didukung: Data Masking, Replace String, Data filtering, JSON Parsing, dan Edit Field and Assign Value. Anda dapat mengatur metode pemrosesan data berdasarkan kebutuhan bisnis Anda. Saat tugas sinkronisasi dijalankan, data diproses berdasarkan urutan pemrosesan yang Anda tentukan.

Setelah mengonfigurasi node pemrosesan data, Anda dapat mengklik Preview Data Output di pojok kanan atas halaman konfigurasi. Di kotak dialog yang muncul, Anda dapat mengklik Re-obtain Output Of Ancestor Node untuk memungkinkan node pemrosesan data memproses data yang diambil sampel dari topik Kafka yang ditentukan dan melihat hasil pemrosesan.

Sebelum melihat hasil yang dihasilkan setelah data masukan diproses oleh node pemrosesan data, Anda harus mengonfigurasi pengaturan Data Sampling untuk sumber data Kafka.
3. Konfigurasi sumber data OSS
Di wizard bagian atas halaman konfigurasi, klik OSS untuk mengedit OSS Destination Information.

Di bagian OSS Destination Information, pilih informasi dasar tentang objek OSS ke mana Anda ingin menulis data.
Write Format: Format berikut didukung: Hudi, Paimon, dan lceberg.
Select Metadatabase Auto-build Location: Jika Anda telah mengaktifkan Data Lake Formation (DLF) dalam Akun Alibaba Cloud Anda, sistem secara otomatis membuat metadatabase dan metatable di DLF saat data disinkronkan ke danau data.
CatatanPembuatan metadatabase lintas wilayah tidak didukung.
Storage Path: Pilih jalur OSS tempat Anda ingin menyimpan data yang disinkronkan.
Destination Database: Pilih nama database ke mana Anda ingin menulis data. Anda juga dapat memilih Create Database untuk membuat metadatabase DLF dan tentukan Database Name.
Destination Table: Pilih metode pembuatan objek OSS ke mana Anda ingin menulis data. Nilai valid: Create Table dan Use Existing Table.
Table Name: Masukkan atau pilih nama objek OSS ke mana Anda ingin menulis data.
(Opsional) Modifikasi skema tabel tujuan.
Jika Anda memilih Create tables automatically untuk parameter Tabel Tujuan, klik Edit Table Schema. Di kotak dialog yang muncul, edit skema tabel tujuan yang akan dibuat secara otomatis. Anda juga dapat mengklik Re-generate Table Schema Based on Output Column of Ancestor Node untuk meregenerasi skema berdasarkan kolom output node leluhur. Anda dapat memilih kolom dari skema yang dihasilkan dan mengonfigurasikan kolom tersebut sebagai kunci utama.
Konfigurasikan pemetaan antara bidang di sumber dan bidang di tujuan.
Setelah menyelesaikan konfigurasi sebelumnya, sistem secara otomatis menetapkan pemetaan antara bidang di sumber dan bidang di tujuan berdasarkan prinsip same-name mapping. Anda dapat memodifikasi pemetaan sesuai kebutuhan bisnis Anda. Satu bidang di sumber dapat dipetakan ke beberapa bidang di tujuan. Beberapa bidang di sumber tidak dapat dipetakan ke bidang yang sama di tujuan. Jika bidang di sumber tidak memiliki bidang yang dipetakan di tujuan, data di bidang di sumber tidak disinkronkan ke tujuan.
4. Konfigurasi aturan peringatan
Untuk mencegah kegagalan tugas sinkronisasi menyebabkan latensi pada sinkronisasi data bisnis, Anda dapat mengonfigurasi aturan peringatan yang berbeda untuk tugas sinkronisasi.
Di pojok kanan atas halaman, klik Configure Alert Rule untuk membuka panel Configure Alert Rule.
Di panel Konfigurasi Aturan Peringatan, klik Add Alert Rule. Di kotak dialog Tambah Aturan Peringatan, konfigurasikan parameter untuk mengonfigurasi aturan peringatan.
CatatanAturan peringatan yang Anda konfigurasikan pada langkah ini berlaku untuk sub-tugas sinkronisasi real-time yang akan dihasilkan oleh tugas sinkronisasi. Setelah konfigurasi tugas sinkronisasi selesai, Anda dapat merujuk ke Kelola tugas sinkronisasi real-time untuk membuka halaman Tugas Sinkronisasi Real-time dan memodifikasi aturan peringatan yang dikonfigurasikan untuk sub-tugas sinkronisasi real-time.
Kelola aturan peringatan.
Anda dapat mengaktifkan atau menonaktifkan aturan peringatan yang dibuat. Anda juga dapat menentukan penerima peringatan yang berbeda berdasarkan tingkat keparahan peringatan.
5. Konfigurasi parameter lanjutan
DataWorks memungkinkan Anda memodifikasi konfigurasi parameter tertentu. Anda dapat mengubah nilai parameter ini berdasarkan kebutuhan bisnis Anda.
Untuk mencegah kesalahan tak terduga atau masalah kualitas data, kami sarankan Anda memahami arti parameter sebelum mengubah nilai parameter.
Di pojok kanan atas halaman konfigurasi, klik Konfigurasi Parameter Lanjutan.
Di panel Konfigurasi Parameter Lanjutan, ubah nilai parameter yang diinginkan.
Langkah 6: Konfigurasi kemampuan DDL
Operasi DDL mungkin dilakukan pada sumber. Anda dapat mengklik Configure DDL Capability di pojok kanan atas halaman untuk mengonfigurasi aturan untuk memproses pesan DDL dari sumber berdasarkan kebutuhan bisnis Anda.
Untuk informasi lebih lanjut, lihat Konfigurasikan aturan untuk memproses pesan DDL.
Langkah 7: Konfigurasi kelompok sumber daya
Anda dapat mengklik Configure Resource Group di pojok kanan atas halaman untuk melihat dan mengubah kelompok sumber daya yang digunakan untuk menjalankan tugas sinkronisasi saat ini.
Langkah 8: Lakukan uji coba pada tugas sinkronisasi
Setelah konfigurasi sebelumnya selesai, Anda dapat mengklik Perform Simulated Running di pojok kanan atas halaman konfigurasi untuk memungkinkan tugas sinkronisasi menyinkronkan data yang diambil sampel ke tabel tujuan. Anda dapat melihat hasil sinkronisasi di tabel tujuan. Jika konfigurasi tertentu dari tugas sinkronisasi tidak valid, terjadi pengecualian selama uji coba, atau data kotor dihasilkan, sistem melaporkan kesalahan secara real-time. Ini dapat membantu Anda memeriksa konfigurasi tugas sinkronisasi dan menentukan apakah hasil yang diharapkan dapat diperoleh sesegera mungkin.
Di kotak dialog yang muncul, konfigurasikan parameter untuk pengambilan sampel data dari tabel yang ditentukan, termasuk parameter Start At dan Sampled Data Records.
Klik Start Collection untuk memungkinkan tugas sinkronisasi mengambil sampel data dari sumber.
Klik Preview untuk memungkinkan tugas sinkronisasi menyinkronkan data yang diambil sampel ke tujuan.
Langkah 9: Jalankan tugas sinkronisasi
Setelah konfigurasi tugas sinkronisasi selesai, klik Complete di bagian bawah halaman.
Di bagian Tasks halaman Synchronization Task, temukan tugas sinkronisasi yang dibuat dan klik Start di kolom Operation.
Klik name or ID tugas sinkronisasi di bagian Tasks dan lihat proses berjalan rinci dari tugas sinkronisasi.
Lakukan operasi O&M pada tugas sinkronisasi
Lihat status tugas sinkronisasi
Setelah tugas sinkronisasi dibuat, Anda dapat pergi ke halaman Tugas Sinkronisasi untuk melihat semua tugas sinkronisasi yang dibuat di ruang kerja dan informasi dasar setiap tugas sinkronisasi.

Anda dapat mengklik Start atau Stop di kolom Operasi untuk memulai atau menghentikan tugas sinkronisasi. Anda juga dapat memilih Lebih Banyak untuk melakukan operasi seperti Edit dan View pada tugas sinkronisasi.
Untuk tugas yang telah dimulai, Anda dapat melihat status berjalan dasar tugas di kolom Execution Overview. Anda juga dapat mengklik area ikhtisar yang sesuai untuk melihat detail eksekusi.

Tugas sinkronisasi real-time dari Kafka ke OSS memiliki tahapan berikut:
Schema Migration: Tab ini menampilkan informasi seperti apakah objek tujuan adalah objek baru atau objek yang sudah ada. Untuk objek baru, pernyataan DDL yang digunakan untuk membuat objek ditampilkan.
Real-time Synchronization: Tab ini menampilkan statistik tentang sinkronisasi real-time, termasuk detail sinkronisasi real-time, catatan DDL, dan informasi peringatan.
Jalankan ulang tugas sinkronisasi
Dalam beberapa kasus khusus, jika Anda ingin memodifikasi bidang untuk disinkronkan, bidang di tabel tujuan, atau informasi nama tabel, Anda juga dapat mengklik Rerun di kolom Operation tugas sinkronisasi yang diinginkan. Dengan cara ini, sistem menyinkronkan perubahan yang dibuat ke tujuan. Data di tabel yang sudah disinkronkan dan tidak dimodifikasi tidak akan disinkronkan lagi.
Langsung klik Rerun tanpa memodifikasi konfigurasi tugas sinkronisasi untuk memungkinkan sistem menjalankan ulang tugas sinkronisasi.
Modifikasi konfigurasi tugas sinkronisasi lalu klik Complete. Klik Apply Updates yang ditampilkan di kolom Operasi tugas sinkronisasi untuk menjalankan ulang tugas sinkronisasi agar konfigurasi terbaru berlaku.