DataWorks memungkinkan Anda menggunakan tugas sinkronisasi ekstrak, transformasi, dan muat (ETL) waktu nyata untuk menyinkronkan data dari Kafka ke StarRocks. Tugas ini menginisialisasi skema tabel tujuan StarRocks berdasarkan struktur topik Kafka yang ditentukan. Kemudian, tugas tersebut menyinkronkan data penuh dari topik Kafka yang ditentukan ke tabel tujuan StarRocks sekaligus dan menyinkronkan data inkremental secara real-time. Topik ini menjelaskan cara membuat tugas sinkronisasi ETL waktu nyata untuk menyinkronkan data dari Kafka ke StarRocks.
Keterbatasan
Versi layanan Kafka yang ingin digunakan harus berkisar antara 0.10.2 hingga 2.2.0.
Prasyarat
Anda telah membeli Kelompok Sumber Daya Tanpa Server.
Anda telah membuat sumber data Kafka dan StarRocks. Untuk informasi lebih lanjut, lihat Buat Sumber Data di Data Integration.
Anda telah menetapkan koneksi jaringan antara kelompok sumber daya dan sumber data. Untuk informasi lebih lanjut, lihat Solusi Konektivitas Jaringan.
Prosedur
1. Pilih jenis tugas sinkronisasi
Pergi ke halaman Data Integration.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Integration.
Di panel navigasi sisi kiri, klik Synchronization Task, lalu klik Create Synchronization Task di bagian atas halaman untuk masuk ke halaman pembuatan tugas. Konfigurasikan informasi dasar berikut:
Source And Destination:
Kafka→StarRocksNew Task Name: Sesuaikan nama untuk tugas sinkronisasi.
Synchronization Type:
Sinkronisasi Waktu Nyata Tabel Tunggal.
2. Konfigurasikan jaringan dan sumber daya
Di bagian Network And Resource Configuration, pilih Resource Group untuk tugas sinkronisasi. Anda dapat mengalokasikan jumlah CU untuk Task Resource Usage.
Untuk Source Data Source, pilih sumber data
Kafkayang telah ditambahkan. Untuk Destination Data Source, pilih sumber dataStarRocksyang telah ditambahkan, lalu klik Test Connectivity.
Setelah memastikan bahwa kedua sumber data sumber dan tujuan berhasil terhubung, klik Next.
3. Konfigurasikan tautan sinkronisasi
1. Konfigurasikan sumber Kafka
Klik sumber data Kafka di bagian atas halaman untuk mengedit Kafka Source Information.

Di bagian Kafka Source Information, pilih Topik dari kluster Kafka yang ingin disinkronkan.
Pertahankan nilai default untuk parameter lainnya, atau ubah konfigurasinya sesuai kebutuhan bisnis Anda.
Klik Data Sampling di sudut kanan atas.
Di kotak dialog yang muncul, konfigurasikan parameter Start Time dan Sampled Data Records dan klik Start Collection. Sistem akan mengambil sampel data dari topik Kafka yang ditentukan. Anda dapat melihat pratinjau data dalam topik Kafka. Data dalam topik Kafka digunakan sebagai data masukan untuk pratinjau data dan konfigurasi visualisasi node pemrosesan data.
Di bagian Output Field Configuration, pilih bidang yang ingin disinkronkan sesuai kebutuhan.
2. Konfigurasikan node pemrosesan data
Anda dapat mengklik ikon
untuk menambahkan metode pemrosesan data. Metode pemrosesan data berikut didukung: Data Masking, Replace String, Data filtering, JSON Parsing, dan Edit Field and Assign Value. Anda dapat mengatur metode pemrosesan data berdasarkan kebutuhan bisnis Anda. Saat tugas sinkronisasi dijalankan, data diproses berdasarkan urutan pemrosesan yang ditentukan.

Setelah mengonfigurasi node pemrosesan data, Anda dapat mengklik Preview Data Output di sudut kanan atas. Di kotak dialog yang muncul, klik Re-obtain Output Of Ancestor Node untuk memungkinkan node pemrosesan data memproses data yang disampel dari topik Kafka yang ditentukan dan melihat pratinjau hasil pemrosesan.

Sebelum melihat hasil yang dihasilkan setelah data masukan diproses oleh node pemrosesan data, Anda harus mengonfigurasi pengaturan Data Sampling untuk sumber data Kafka.
3. Konfigurasikan tujuan StarRocks
Klik tujuan data StarRocks di bagian atas halaman untuk mengedit StarRocks Destination Information.

Di bagian StarRocks Destination Information, pilih apakah akan Create Tables Automatically atau Use Existing Table untuk tabel StarRocks tempat Anda ingin menulis data.
Jika Anda memilih untuk membuat tabel secara otomatis, sistem akan membuat tabel dengan nama yang sama dengan tabel sumber secara default. Anda dapat mengubah nama tabel tujuan secara manual.
Jika Anda memilih untuk menggunakan tabel yang ada, pilih tabel target dari daftar drop-down.
(Opsional) Ubah skema tabel tujuan.
Jika Anda memilih Create Tables Automatically, klik Edit Table Schema. Di kotak dialog yang muncul, edit skema tabel tujuan. Anda juga dapat mengklik Re-generate Table Schema Based On Output Column Of Ancestor Node untuk meregenerasi skema tabel berdasarkan kolom keluaran node leluhur. Anda dapat memilih kolom dari skema tabel yang dihasilkan dan mengonfigurasikan kolom tersebut sebagai kunci utama dan kolom bucket.
CatatanTabel tujuan harus memiliki kunci utama dan kolom bucket. Jika tidak, konfigurasi tidak dapat disimpan.
Konfigurasikan pemetaan antara bidang di sumber dan bidang di tujuan.
Setelah menyelesaikan konfigurasi sebelumnya, sistem secara otomatis menetapkan pemetaan antara bidang di sumber dan bidang di tujuan berdasarkan prinsip same-name mapping. Anda dapat mengubah pemetaan sesuai kebutuhan bisnis Anda. Satu bidang di sumber dapat dipetakan ke beberapa bidang di tujuan. Beberapa bidang di sumber tidak dapat dipetakan ke bidang yang sama di tujuan. Jika sebuah bidang di sumber tidak memiliki bidang yang dipetakan di tujuan, data di bidang tersebut di sumber tidak akan disinkronkan ke tujuan.
4. Konfigurasikan aturan peringatan
Untuk mencegah kegagalan tugas sinkronisasi menyebabkan latensi pada sinkronisasi data bisnis, Anda dapat mengonfigurasi aturan peringatan yang berbeda untuk tugas sinkronisasi.
Di sudut kanan atas halaman, klik Configure Alert Rule untuk pergi ke panel Configure Alert Rule.
Di panel Konfigurasikan Aturan Peringatan, klik Add Alert Rule. Di kotak dialog Tambah Aturan Peringatan, konfigurasikan parameter untuk mengonfigurasi aturan peringatan.
CatatanAturan peringatan yang dikonfigurasikan pada langkah ini berlaku untuk sub-tugas sinkronisasi waktu nyata yang akan dihasilkan oleh tugas sinkronisasi. Setelah konfigurasi tugas sinkronisasi selesai, Anda dapat merujuk ke Kelola Tugas Sinkronisasi Waktu Nyata untuk pergi ke halaman Tugas Sinkronisasi Waktu Nyata dan memodifikasi aturan peringatan yang dikonfigurasikan untuk sub-tugas sinkronisasi waktu nyata.
Kelola aturan peringatan.
Anda dapat mengaktifkan atau menonaktifkan aturan peringatan yang dibuat. Anda juga dapat menentukan penerima peringatan yang berbeda berdasarkan tingkat keparahan peringatan.
5. Konfigurasikan parameter lanjutan
DataWorks memungkinkan Anda memodifikasi konfigurasi parameter tertentu. Anda dapat mengubah nilai parameter ini sesuai kebutuhan bisnis Anda.
Untuk mencegah kesalahan tak terduga atau masalah kualitas data, kami sarankan Anda memahami arti dari parameter sebelum mengubah nilai parameter tersebut.
Di sudut kanan atas halaman konfigurasi, klik Konfigurasikan Parameter Lanjutan.
Di panel Konfigurasikan Parameter Lanjutan, ubah nilai parameter yang diinginkan.
6. Konfigurasikan kelompok sumber daya
Anda dapat mengklik Configure Resource Group di sudut kanan atas halaman untuk melihat dan mengubah kelompok sumber daya yang digunakan untuk menjalankan tugas sinkronisasi saat ini.
7. Lakukan uji coba pada tugas sinkronisasi
Setelah konfigurasi sebelumnya selesai, Anda dapat mengklik Perform Simulated Running di sudut kanan atas halaman konfigurasi untuk memungkinkan tugas sinkronisasi menyinkronkan data yang disampel ke tabel tujuan. Anda dapat melihat hasil sinkronisasi di tabel tujuan. Jika konfigurasi tertentu dari tugas sinkronisasi tidak valid, terjadi pengecualian selama uji coba, atau data kotor dihasilkan, sistem akan melaporkan kesalahan secara real-time. Ini dapat membantu Anda memeriksa konfigurasi tugas sinkronisasi dan menentukan apakah hasil yang diharapkan dapat diperoleh secepat mungkin.
Di kotak dialog yang muncul, konfigurasikan parameter untuk pengambilan sampel data dari tabel yang ditentukan, termasuk parameter Start At dan Sampled Data Records.
Klik Start Collection untuk memungkinkan tugas sinkronisasi mengambil sampel data dari sumber.
Klik Preview untuk memungkinkan tugas sinkronisasi menyinkronkan data yang disampel ke tujuan.
8. Jalankan tugas sinkronisasi
Setelah konfigurasi tugas sinkronisasi selesai, klik Complete di bagian bawah halaman.
Di bagian Tasks halaman Synchronization Task, temukan tugas sinkronisasi yang dibuat dan klik Start di kolom Operation.
Klik name or ID tugas sinkronisasi di bagian Tasks dan lihat proses berjalan rinci dari tugas sinkronisasi.
Lakukan operasi O&M pada tugas sinkronisasi data
Lihat status tugas sinkronisasi
Setelah tugas sinkronisasi dibuat, Anda dapat pergi ke halaman Tugas Sinkronisasi untuk melihat semua tugas sinkronisasi yang dibuat di ruang kerja dan informasi dasar setiap tugas sinkronisasi.

Anda dapat Start atau Stop tugas sinkronisasi di kolom Tindakan. Di menu Lainnya, Anda dapat Edit, View, dan melakukan operasi lainnya pada tugas sinkronisasi.
Untuk tugas yang telah dimulai, Anda dapat melihat status berjalan dasar di bagian Running Details, atau klik area yang sesuai untuk melihat detail eksekusi.

Tugas sinkronisasi waktu nyata dari Kafka ke StarRocks memiliki dua tahap:
Schema Migration: Tab ini menampilkan informasi seperti metode pembuatan tabel tujuan (menggunakan tabel yang ada atau membuat tabel). Jika metode pembuatan tabel tujuan adalah membuat tabel, pernyataan DDL yang digunakan untuk membuat tabel ditampilkan.
Real-time Data Synchronization: Tab ini menampilkan statistik tentang sinkronisasi waktu nyata, catatan DDL, dan informasi peringatan.
Jalankan ulang tugas sinkronisasi
Dalam beberapa kasus khusus, jika Anda ingin mengubah bidang yang ingin disinkronkan, bidang di tabel tujuan, atau informasi nama tabel, Anda juga dapat mengklik Rerun di kolom Operation tugas sinkronisasi yang diinginkan. Dengan cara ini, sistem akan menyinkronkan perubahan yang dibuat ke tujuan. Data di tabel yang sudah disinkronkan dan tidak dimodifikasi tidak akan disinkronkan lagi.
Klik langsung Rerun tanpa mengubah konfigurasi tugas sinkronisasi untuk memungkinkan sistem menjalankan ulang tugas sinkronisasi.
Ubah konfigurasi tugas sinkronisasi lalu klik Complete. Klik Apply Updates yang ditampilkan di kolom Operasi tugas sinkronisasi untuk menjalankan ulang tugas sinkronisasi agar konfigurasi terbaru berlaku.