全部产品
Search
文档中心

DataWorks:Sinkronisasi real-time tabel tunggal LogHub (SLS) ke Data Lake Formation

更新时间:Nov 10, 2025

Data Integration mendukung sinkronisasi real-time data tabel tunggal dari sumber seperti LogHub (SLS) dan Kafka ke Data Lake Formation melalui ETL. Topik ini menjelaskan cara menyinkronkan data tabel tunggal secara real-time dari LogHub (SLS) ke Data Lake Formation.

Batasan

Hanya kelompok sumber daya Serverless yang didukung.

Prasyarat

Prosedur

1. Pilih jenis tugas sinkronisasi

  1. Buka halaman Data Integration.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Integration > Data Integration. Di halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar tarik-turun, lalu klik Go to Data Integration.

  2. Di panel navigasi kiri, klik Sync Task, lalu klik Create Sync Task di bagian atas halaman untuk membuka halaman pembuatan tugas sinkronisasi. Konfigurasikan informasi dasar berikut:

    • Data Source And Destination: LogHubData Lake Formation

    • Task Name: Sesuaikan nama untuk tugas sinkronisasi.

    • Sync Type: Single Table Real-time.

2. Konfigurasi jaringan dan sumber daya

  1. Di bagian Network And Resources, pilih Resource Group untuk tugas sinkronisasi. Anda dapat mengalokasikan jumlah unit komputasi (CUs) untuk Task Resource Usage.

  2. Untuk Source Data Source, pilih sumber data LogHub yang telah ditambahkan. Untuk Destination Data Source, pilih sumber data Data Lake Formation yang telah ditambahkan, lalu klik Test Connectivity.image

  3. Setelah memastikan bahwa sumber dan tujuan terhubung dengan sukses, klik Next.

3. Konfigurasi tautan sinkronisasi

1. Konfigurasi sumber LogHub (SLS)

Klik sumber data SLS di bagian atas halaman untuk mengedit SLS Source Information.

image

  1. Di bagian SLS Source Information, pilih logstore di LogHub (SLS) yang ingin Anda sinkronkan.

    Pertahankan nilai default untuk parameter lain, atau ubah konfigurasinya sesuai kebutuhan bisnis Anda.

  2. Klik Data Sampling di pojok kanan atas.

    Di kotak dialog yang muncul, tentukan Start Time dan Number Of Samples, lalu klik tombol Start Collection. Anda dapat melakukan pengambilan sampel data di logstore dan melihat pratinjau data, yang memberikan masukan untuk pratinjau data dan konfigurasi visual node pemrosesan data selanjutnya.

  3. Setelah Anda memilih logstore, data di logstore akan dimuat secara otomatis di bagian Output Field Configuration, dan nama bidang yang sesuai akan dihasilkan. Anda dapat menyesuaikan Data Type, Delete bidang, dan Manually Add Output Fields.

    Catatan

    Jika konfigurasi atau bidang tidak ada di sumber data Simple Log Service, nilai NULL akan ditulis ke tujuan.

2. Edit node pemrosesan data

Anda dapat mengklik ikon image untuk menambahkan metode pemrosesan data. Metode pemrosesan data berikut didukung: Data Masking, Replace String, Data filtering, JSON Parsing, dan Edit Field and Assign Value. Anda dapat mengatur urutan metode pemrosesan data sesuai kebutuhan bisnis Anda. Saat tugas sinkronisasi dijalankan, data akan diproses berdasarkan urutan pemrosesan yang Anda tentukan.

image

Setelah menyelesaikan konfigurasi node pemrosesan data, Anda dapat mengklik tombol Data Output Preview di pojok kanan atas. Di kotak dialog yang muncul, klik Retrieve Upstream Output Again untuk mensimulasikan hasil data sampel logstore setelah diproses oleh node pemrosesan data saat ini.

image

Catatan

Pratinjau keluaran data sangat bergantung pada Data Sampling dari sumber LogHub (SLS). Sebelum menjalankan pratinjau keluaran data, Anda perlu menyelesaikan pengambilan sampel data di formulir sumber LogHub (SLS).

3. Konfigurasi informasi tujuan Data Lake Formation

Klik tujuan data Data Lake Formation di bagian atas halaman untuk mengedit informasi tujuan Data Lake Formation.

image

  1. Di bagian Data Lake Formation Destination Information, pilih apakah akan Automatically Create Table atau Use Existing Table untuk tabel Data Lake Formation tempat Anda ingin menulis data.

    • Jika Anda memilih membuat tabel secara otomatis, tabel dengan nama yang sama dengan tabel sumber data akan dibuat secara default. Anda dapat mengubah nama tabel tujuan secara manual.

    • Jika Anda memilih menggunakan tabel yang sudah ada, pilih tabel tujuan tempat Anda ingin menyinkronkan data dari daftar tarik-turun.

  2. (Opsional) Ubah skema tabel tujuan.

    Jika Anda memilih Create tables automatically untuk parameter Tabel Tujuan, klik Edit Table Schema. Di kotak dialog yang muncul, edit skema tabel tujuan yang akan dibuat secara otomatis. Anda juga dapat mengklik Re-generate Table Schema Based on Output Column of Ancestor Node untuk menghasilkan ulang skema berdasarkan kolom keluaran dari node leluhur. Anda dapat memilih kolom dari skema yang dihasilkan dan mengonfigurasi kolom tersebut sebagai kunci utama.

    Catatan

    Tabel tujuan harus memiliki kunci utama. Jika tidak, konfigurasi tidak dapat disimpan.

  3. Konfigurasi pemetaan antara bidang di sumber dan bidang di tujuan.

    Setelah menyelesaikan konfigurasi sebelumnya, sistem akan secara otomatis membuat pemetaan antara bidang di sumber dan bidang di tujuan berdasarkan prinsip same-name mapping. Anda dapat memodifikasi pemetaan tersebut sesuai kebutuhan bisnis Anda. Satu bidang di sumber dapat dipetakan ke beberapa bidang di tujuan. Beberapa bidang di sumber tidak dapat dipetakan ke bidang yang sama di tujuan. Jika suatu bidang di sumber tidak memiliki bidang yang dipetakan di tujuan, data di bidang tersebut tidak akan disinkronkan ke tujuan.

4. Konfigurasi aturan peringatan

Untuk mencegah kegagalan tugas sinkronisasi menyebabkan latensi pada sinkronisasi data bisnis, Anda dapat mengonfigurasi berbagai aturan peringatan untuk tugas sinkronisasi.

  1. Di pojok kanan atas halaman, klik Configure Alert Rule untuk membuka panel Configure Alert Rule.

  2. Di panel Configure Alert Rule, klik Add Alert Rule. Di kotak dialog Add Alert Rule, konfigurasikan parameter untuk mengatur aturan peringatan.

    Catatan

    Aturan peringatan yang Anda konfigurasi dalam langkah ini berlaku untuk subtask sinkronisasi real-time yang akan dihasilkan oleh tugas sinkronisasi. Setelah konfigurasi tugas sinkronisasi selesai, Anda dapat merujuk ke Manage real-time synchronization tasks untuk membuka halaman Tugas Sinkronisasi Real-time dan memodifikasi aturan peringatan yang dikonfigurasi untuk subtask sinkronisasi real-time.

  3. Kelola aturan peringatan.

    Anda dapat mengaktifkan atau menonaktifkan aturan peringatan yang telah dibuat. Anda juga dapat menentukan penerima peringatan yang berbeda berdasarkan tingkat keparahan peringatan.

5. Konfigurasi parameter lanjutan

DataWorks memungkinkan Anda memodifikasi konfigurasi parameter tertentu. Anda dapat mengubah nilai parameter tersebut sesuai kebutuhan bisnis Anda.

Catatan

Untuk mencegah kesalahan tak terduga atau masalah kualitas data, kami sarankan agar Anda memahami makna parameter sebelum mengubah nilainya.

  1. Di pojok kanan atas halaman konfigurasi, klik Configure Advanced Parameters.

  2. Di panel Configure Advanced Parameters, ubah nilai parameter yang diinginkan.

6. Konfigurasi kelompok sumber daya

Anda dapat mengklik Configure Resource Group di pojok kanan atas halaman untuk melihat dan mengubah kelompok sumber daya yang digunakan untuk menjalankan tugas sinkronisasi saat ini.

7. Lakukan pengujian pada tugas sinkronisasi

Setelah konfigurasi sebelumnya selesai, Anda dapat mengklik Perform Simulated Running di pojok kanan atas halaman konfigurasi untuk mengaktifkan tugas sinkronisasi agar menyinkronkan data sampel ke tabel tujuan. Anda dapat melihat hasil sinkronisasi di tabel tujuan. Jika konfigurasi tertentu dari tugas sinkronisasi tidak valid, terjadi pengecualian selama pengujian, atau data kotor dihasilkan, sistem akan melaporkan kesalahan secara real-time. Hal ini membantu Anda memeriksa konfigurasi tugas sinkronisasi dan menentukan apakah hasil yang diharapkan dapat diperoleh sesegera mungkin.

  1. Di kotak dialog yang muncul, konfigurasikan parameter untuk pengambilan sampel data dari tabel yang ditentukan, termasuk parameter Start At dan Sampled Data Records.

  2. Klik Start Collection untuk mengaktifkan tugas sinkronisasi agar mengambil sampel data dari sumber.

  3. Klik Preview untuk mengaktifkan tugas sinkronisasi agar menyinkronkan data sampel ke tujuan.

8. Jalankan tugas sinkronisasi

  1. Setelah konfigurasi tugas sinkronisasi selesai, klik Complete di bagian bawah halaman.

  2. Di bagian Tasks halaman Synchronization Task, temukan tugas sinkronisasi yang telah dibuat dan klik Start di kolom Operation.

  3. Klik name or ID tugas sinkronisasi di bagian Tasks dan lihat proses berjalan detail dari tugas sinkronisasi.

Sinkronisasi operasi dan pemeliharaan tugas

Lihat status berjalan tugas

Setelah tugas sinkronisasi dibuat, Anda dapat membuka halaman Tugas Sinkronisasi untuk melihat semua tugas sinkronisasi yang dibuat di ruang kerja dan informasi dasar masing-masing tugas.

image

  • Anda dapat Start atau Stop tugas sinkronisasi di kolom Operation. Di menu More, Anda dapat Edit, View, dan melakukan operasi lain pada tugas sinkronisasi.

  • Untuk tugas yang telah dijalankan, Anda dapat melihat status berjalan dasar di Execution Overview, atau klik area ikhtisar yang sesuai untuk melihat detail eksekusi.

image

Tugas sinkronisasi dari LogHub (SLS) ke Data Lake Formation terdiri dari dua langkah: Schema Migration dan Real-time Data Synchronization:

  • Schema Migration: Termasuk metode pembuatan tabel tujuan (tabel yang sudah ada atau pembuatan tabel otomatis). Jika pemilihan pembuatan tabel otomatis dipilih, DDL untuk membuat tabel akan ditampilkan.

  • Real-time Data Synchronization: Termasuk informasi statistik untuk sinkronisasi real-time, termasuk informasi berjalan real-time, catatan DDL, informasi peringatan, dan lainnya.

Jalankan ulang tugas sinkronisasi

Dalam beberapa kasus khusus, jika Anda ingin memodifikasi bidang yang akan disinkronkan, bidang di tabel tujuan, atau informasi nama tabel, Anda juga dapat mengklik Rerun di kolom Operation tugas sinkronisasi yang diinginkan. Dengan cara ini, sistem akan menyinkronkan perubahan yang dilakukan ke tujuan. Data di tabel yang telah disinkronkan dan tidak dimodifikasi tidak akan disinkronkan lagi.

  • Klik langsung Rerun tanpa memodifikasi konfigurasi tugas sinkronisasi untuk mengaktifkan sistem menjalankan ulang tugas sinkronisasi.

  • Modifikasi konfigurasi tugas sinkronisasi lalu klik Complete. Klik Apply Updates yang ditampilkan di kolom Operation tugas sinkronisasi untuk menjalankan ulang tugas sinkronisasi agar konfigurasi terbaru berlaku.