Data Integration mendukung sinkronisasi data real-time dari tabel tunggal di sumber seperti DataHub, Kafka, dan LogHub ke MaxCompute. Topik ini menjelaskan cara menyinkronkan data real-time dari satu tabel LogHub (SLS) ke MaxCompute.
Prasyarat
Anda telah membeli Serverless resource group atau exclusive resource group for Data Integration.
Anda telah membuat sumber data LogHub (SLS) dan sumber data MaxCompute. Untuk informasi selengkapnya, lihat Data Source Configuration.
Anda telah menetapkan konektivitas jaringan antara resource group dan sumber data. Untuk informasi selengkapnya, lihat Overview of network connection solutions.
Batasan
Sinkronisasi data sumber ke tabel eksternal MaxCompute tidak didukung.
Prosedur
Langkah 1: Pilih jenis tugas sinkronisasi
Buka halaman Data Integration.
Masuk ke DataWorks console. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down, lalu klik Go to Data Integration.
Di panel navigasi kiri, klik Synchronization Task. Di bagian atas halaman, klik Create Synchronization Task untuk membuka halaman pembuatan tugas. Konfigurasikan informasi dasar sebagai berikut.
Source:
LogHub.Destination:
MaxCompute.Task Name: Anda dapat memasukkan nama kustom untuk tugas sinkronisasi.
Task Type:
Single Logstore Realtime Sync.
Langkah 2: Konfigurasikan jaringan dan resource
Pada bagian Network and Resource Configuration, pilih Resource Group untuk tugas sinkronisasi. Untuk Task Resource Usage, alokasikan CUs sesuai kebutuhan Anda.
Atur Source ke sumber data
LogHubdan Destination ke sumber dataMaxCompute. Lalu, klik Test Connectivity.
Setelah memastikan sumber dan tujuan terhubung, klik Next.
Langkah 3: Konfigurasikan tautan sinkronisasi
1. Konfigurasikan sumber SLS
Di bagian atas halaman, klik sumber SLS dan edit Informasi Sumber.

Pada bagian Source Information, pilih logstore di LogHub yang akan disinkronkan.
Di pojok kanan atas, klik Data Sampling.
Pada kotak dialog yang muncul, tentukan Start Time dan Sampled Data Records, lalu klik Start Collection. Aksi ini mengambil sampel data dari logstore dan menghasilkan pratinjau. Anda dapat menggunakan pratinjau ini untuk mengonfigurasi pemrosesan data dan visualisasi pada node berikutnya.
Setelah memilih logstore, datanya secara otomatis dimuat ke bagian Configure Output Field, dan nama bidang yang sesuai dihasilkan. Anda dapat menyesuaikan Data Type, Delete bidang, atau menggunakan opsi Add Output Field sesuai kebutuhan.
CatatanJika bidang yang dikonfigurasi tidak ada di SLS, nilai bidang tersebut akan dioutput sebagai NULL ke node downstream.
2. Edit node pemrosesan data
Anda dapat mengklik ikon
untuk menambahkan metode pemrosesan data. Metode pemrosesan data berikut didukung: Data Masking, Replace String, Data filtering, JSON Parsing, dan Edit Field and Assign Value. Anda dapat mengatur urutan metode pemrosesan data sesuai kebutuhan bisnis. Saat tugas sinkronisasi dijalankan, data diproses berdasarkan urutan pemrosesan yang Anda tentukan.

Setelah mengonfigurasi node pemrosesan data, klik tombol Preview Data Output di pojok kanan atas. Pada kotak dialog yang muncul, klik Re-obtain Output of Ancestor Node untuk mensimulasikan output yang dihasilkan node saat ini dari data log yang diambil sampelnya.

Fitur pratinjau output data bergantung pada Data Sampling dari sumber LogHub (SLS). Oleh karena itu, Anda harus menyelesaikan pengambilan sampel data pada formulir sumber agar pratinjau tersedia.
3. Konfigurasikan tujuan MaxCompute
Di bagian atas halaman, klik tujuan MaxCompute dan edit Destination Information.

Pada area Destination Information, pilih Create tables automatically atau Use Existing Table.
Jika Anda memilih Automatically Create Table, tabel dengan nama yang sama dengan tabel sumber akan dibuat secara default. Anda dapat mengubah nama tabel tujuan sesuai kebutuhan.
Jika Anda memilih Use Existing Table, pilih tabel tujuan dari daftar drop-down.
(Opsional) Ubah skema tabel tujuan.
Jika Anda memilih Create tables automatically untuk parameter Destination Table, klik Edit Table Schema. Pada kotak dialog yang muncul, edit skema tabel tujuan yang akan dibuat secara otomatis. Anda juga dapat mengklik Re-generate Table Schema Based on Output Column of Ancestor Node untuk menghasilkan ulang skema berdasarkan kolom output dari node leluhur. Anda dapat memilih kolom dari skema yang dihasilkan dan mengonfigurasi kolom tersebut sebagai primary key.
CatatanTabel tujuan harus memiliki primary key. Jika tidak, konfigurasi tidak dapat disimpan.
Konfigurasikan pemetaan antara bidang di sumber dan bidang di tujuan.
Setelah menyelesaikan konfigurasi sebelumnya, sistem secara otomatis membuat pemetaan antara bidang di sumber dan bidang di tujuan berdasarkan prinsip Map Fields with Same Name. Anda dapat mengubah pemetaan tersebut sesuai kebutuhan bisnis. Satu bidang di sumber dapat dipetakan ke beberapa bidang di tujuan. Beberapa bidang di sumber tidak boleh dipetakan ke bidang yang sama di tujuan. Jika suatu bidang di sumber tidak memiliki bidang yang dipetakan di tujuan, data dalam bidang tersebut tidak akan disinkronkan ke tujuan.
Pengaturan partisi.
Pilih metode partisi. Metode yang didukung adalah Automatic Time-based Partitioning dan Dynamic Partitioning By Field Value.
4. Konfigurasikan aturan alert
Untuk mencegah kegagalan tugas sinkronisasi menyebabkan latensi pada sinkronisasi data bisnis, Anda dapat mengonfigurasi berbagai aturan alert untuk tugas sinkronisasi.
Di pojok kanan atas halaman, klik Configure Alert Rule untuk membuka panel Alert Rule Configurations for Real-time Synchronization Subnode.
Pada panel Configure Alert Rule, klik Add Alert Rule. Pada kotak dialog Add Alert Rule, konfigurasikan parameter untuk menetapkan aturan alert.
CatatanAturan alert yang Anda konfigurasi pada langkah ini berlaku untuk subtask sinkronisasi real-time yang akan dihasilkan oleh tugas sinkronisasi. Setelah konfigurasi tugas sinkronisasi selesai, Anda dapat merujuk ke Manage real-time synchronization tasks untuk membuka halaman Real-time Synchronization Task dan mengubah aturan alert yang dikonfigurasi untuk subtask sinkronisasi real-time.
Kelola aturan alert.
Anda dapat mengaktifkan atau menonaktifkan aturan alert yang telah dibuat. Anda juga dapat menentukan penerima alert yang berbeda berdasarkan tingkat keparahan alert.
5. Konfigurasikan parameter lanjutan
DataWorks memungkinkan Anda mengubah konfigurasi parameter tertentu. Anda dapat mengubah nilai parameter tersebut sesuai kebutuhan bisnis.
Untuk mencegah error tak terduga atau masalah kualitas data, kami sarankan Anda memahami makna parameter sebelum mengubah nilainya.
Di pojok kanan atas halaman konfigurasi, klik Configure Advanced Parameters.
Pada panel Configure Advanced Parameters, ubah nilai parameter yang diinginkan.
6. Konfigurasikan resource group
Anda dapat mengklik Configure Resource Group di pojok kanan atas halaman untuk melihat dan mengubah resource group yang digunakan untuk menjalankan tugas sinkronisasi saat ini.
7. Lakukan simulasi running
Setelah konfigurasi selesai, Anda dapat mengklik Perform Simulated Running di pojok kanan atas halaman konfigurasi agar tugas sinkronisasi menyinkronkan data sampel ke tabel tujuan. Anda dapat melihat hasil sinkronisasi di tabel tujuan. Jika konfigurasi tertentu pada tugas sinkronisasi tidak valid, terjadi exception selama test run, atau dihasilkan dirty data, sistem akan melaporkan error secara real-time. Hal ini membantu Anda memeriksa konfigurasi tugas sinkronisasi dan menentukan apakah hasil yang diharapkan dapat diperoleh sedini mungkin.
Pada kotak dialog yang muncul, konfigurasikan parameter untuk pengambilan sampel data dari tabel yang ditentukan, termasuk parameter Start At dan Sampled Data Records.
Klik Start Collection agar tugas sinkronisasi mengambil sampel data dari sumber.
Klik Preview agar tugas sinkronisasi menyinkronkan data sampel ke tujuan.
8. Jalankan tugas sinkronisasi
Setelah konfigurasi tugas sinkronisasi selesai, klik Complete di bagian bawah halaman.
Pada halaman , temukan tugas sinkronisasi yang telah dibuat, lalu klik Start di kolom Operation.
Klik Name or ID tugas sinkronisasi di bagian Tasks dan lihat proses running detail tugas sinkronisasi tersebut.
Sinkronisasi Tugas O&M
Lihat status running tugas
Setelah membuat tugas sinkronisasi, Anda dapat melihat daftar tugas sinkronisasi beserta informasi dasarnya di halaman Sync Task.

Di kolom Actions, Anda dapat Start atau Stop tugas sinkronisasi. Anda juga dapat mengklik More untuk melakukan operasi lain, seperti Edit dan View.
Anda dapat melihat status tugas yang sedang berjalan di Execution Overview dan mengklik tugas tertentu untuk melihat detail eksekusinya.

Tugas sinkronisasi dari LogHub (SLS) ke MaxCompute melibatkan dua langkah: Schema Migration dan Real-time Data Synchronization.
Schema Migration: Menentukan apakah akan menggunakan tabel tujuan yang sudah ada atau membuat tabel baru secara otomatis. Jika Anda memilih pembuatan tabel otomatis, pernyataan Data Definition Language (DDL) untuk tabel tersebut akan ditampilkan.
Real-time Data Synchronization: Menyediakan statistik performa, seperti informasi runtime real-time, catatan DDL, dan informasi alert.
Rerun tugas sinkronisasi
Dalam beberapa kasus khusus, jika Anda ingin mengubah bidang yang akan disinkronkan, bidang di tabel tujuan, atau informasi nama tabel, Anda juga dapat mengklik Rerun di kolom Operation tugas sinkronisasi yang diinginkan. Dengan demikian, sistem akan menyinkronkan perubahan yang dilakukan pada tujuan. Data di tabel yang telah disinkronkan sebelumnya dan tidak diubah tidak akan disinkronkan ulang.
Klik langsung Rerun tanpa mengubah konfigurasi tugas sinkronisasi agar sistem menjalankan ulang tugas sinkronisasi tersebut.
Ubah konfigurasi tugas sinkronisasi lalu klik Complete. Klik Apply Updates yang ditampilkan di kolom Operation tugas sinkronisasi untuk menjalankan ulang tugas sinkronisasi agar konfigurasi terbaru berlaku.