全部产品
Search
文档中心

DataWorks:Sinkronisasi data dari Simple Log Service Logstore ke data lake OSS-HDFS secara real time

更新时间:Nov 10, 2025

Data Integration mendukung sinkronisasi data secara real time dari satu tabel tunggal di sumber seperti Kafka dan LogHub ke OSS. Topik ini menjelaskan cara menyinkronkan data dari Simple Log Service Logstore ke data lake OSS-HDFS secara real time.

Prasyarat

Prosedur

Langkah 1: Pilih jenis tugas sinkronisasi

  1. Buka halaman Data Integration.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih Data Integration > Data Integration. Di halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar tarik-turun lalu klik Go to Data Integration.

  2. Di panel navigasi sebelah kiri, klik Synchronization Task, lalu klik Create Synchronization Task di bagian atas halaman. Di halaman yang muncul, konfigurasikan informasi dasar berikut:

    • Source And Destination: LogHubOSS-HDFS

    • New Node Name: Tentukan nama untuk tugas sinkronisasi.

    • Synchronization Method: Single Logstore Realtime Sync.

Langkah 2: Konfigurasi pengaturan jaringan dan sumber daya

  1. Di bagian Network And Resource Configuration, pilih Resource Group untuk tugas sinkronisasi. Anda dapat mengalokasikan jumlah unit komputasi (CU) untuk Task Resource Usage.

  2. Untuk Source, pilih sumber data LogHub yang telah ditambahkan; untuk Destination, pilih sumber data OSS-HDFS yang telah ditambahkan, lalu klik Test Connectivity.image

  3. Setelah memastikan bahwa sumber dan tujuan terhubung, klik Next.

Langkah 3: Konfigurasi tautan sinkronisasi

1. Konfigurasi sumber Kafka

Di wizard di bagian atas halaman, klik SLS untuk mengonfigurasi SLS Source Information.

image

  1. Di bagian SLS Source Information, pilih Logstore dari mana Anda ingin menyinkronkan data.

  2. Klik Data Sampling di pojok kanan atas.

    Di kotak dialog yang muncul, tentukan parameter Start Time dan Sampled Data Records, lalu klik Start Collection. Sistem akan mengumpulkan data sampel dari Logstore. Anda dapat melihat pratinjau data di Logstore, yang memberikan masukan untuk pratinjau data dan konfigurasi visual pada node pemrosesan data selanjutnya.

  3. Setelah memilih Logstore, sistem secara otomatis memuat data dari Logstore dan menghasilkan nama bidang di bagian Output Field Configuration. Anda dapat menyesuaikan Data Type, Delete bidang, dan Manually Add Output Fields.

    Catatan

    Jika suatu bidang keluaran tidak ada di sumber data Simple Log Service, nilai NULL akan ditulis ke tujuan.

2. Edit node pemrosesan data

Anda dapat mengklik ikon image untuk menambahkan metode pemrosesan data. Metode pemrosesan data berikut didukung: Data Masking, Replace String, Data filtering, JSON Parsing, dan Edit Field and Assign Value. Anda dapat mengatur urutan metode pemrosesan data sesuai kebutuhan bisnis Anda. Saat tugas sinkronisasi dijalankan, data akan diproses berdasarkan urutan pemrosesan yang Anda tentukan.

image

Setelah menyelesaikan konfigurasi node pemrosesan data, Anda dapat mengklik Preview Data Output di pojok kanan atas. Di kotak dialog yang muncul, klik Retrieve Upstream Output Again untuk mensimulasikan hasil setelah data sampel dari Logstore diproses oleh node pemrosesan data saat ini.

Catatan

Fitur Preview Data Output sangat bergantung pada Data Sampling dari sumber Simple Log Service. Sebelum melakukan pratinjau keluaran data, Anda harus menyelesaikan pengambilan sampel data di formulir sumber Simple Log Service.

3. Konfigurasi informasi tujuan OSS-HDFS

Di wizard di bagian atas halaman, klik OSS-HDFS untuk mengonfigurasi OSS-HDFS Destination Information.

image

  1. Di bagian OSS-HDFS Destination Information, pilih informasi dasar tentang tujuan OSS-HDFS tempat Anda ingin menulis data.

    • Write Format: Tiga format penulisan didukung: Hudi, Paimon, dan lceberg.

    • Select Metadatabase Auto-build Location: Jika Anda telah mengaktifkan Data Lake Formation (DLF) untuk akun Anda, Anda dapat secara otomatis membuat metadatabase dan metatable di DLF saat menyinkronkan data ke data lake.

      Catatan

      Pembuatan metadatabase dan metatable lintas wilayah tidak didukung.

    • Storage Path Selection: Pilih jalur OSS tempat data disimpan setelah disinkronkan ke data lake.

    • Destination Database: Pilih database tujuan tempat Anda ingin menulis data. Anda dapat memilih Create Database untuk membuat metadatabase DLF dan menentukan Database Name.

    • Destination Table: Pilih apakah akan Auto Create Table atau Use Existing Table untuk tabel OSS tempat Anda ingin menulis data.

    • Table Name: Masukkan atau pilih nama tabel OSS tempat Anda ingin menulis data.

  2. (Opsional) Ubah skema tabel tujuan.

    Jika Anda memilih Create tables automatically untuk parameter Destination Table, klik Edit Table Schema. Di kotak dialog yang muncul, edit skema tabel tujuan yang akan dibuat secara otomatis. Anda juga dapat mengklik Re-generate Table Schema Based on Output Column of Ancestor Node untuk membuat ulang skema berdasarkan kolom keluaran dari node leluhur. Anda dapat memilih kolom dari skema yang dihasilkan dan mengonfigurasi kolom tersebut sebagai kunci utama.

  3. Konfigurasi pemetaan antara bidang di sumber dan bidang di tujuan.

    Setelah menyelesaikan konfigurasi di atas, sistem secara otomatis membuat pemetaan antara bidang di sumber dan bidang di tujuan berdasarkan prinsip same-name mapping. Anda dapat memodifikasi pemetaan tersebut sesuai kebutuhan bisnis Anda. Satu bidang di sumber dapat dipetakan ke beberapa bidang di tujuan. Beberapa bidang di sumber tidak dapat dipetakan ke bidang yang sama di tujuan. Jika suatu bidang di sumber tidak memiliki bidang yang dipetakan di tujuan, data dalam bidang tersebut tidak akan disinkronkan ke tujuan.

4. Konfigurasi aturan peringatan

Untuk mencegah kegagalan tugas sinkronisasi menyebabkan latensi pada sinkronisasi data bisnis, Anda dapat mengonfigurasi berbagai aturan peringatan untuk tugas sinkronisasi.

  1. Di pojok kanan atas halaman, klik Configure Alert Rule untuk membuka panel Configure Alert Rule.

  2. Di panel Configure Alert Rule, klik Add Alert Rule. Di kotak dialog Add Alert Rule, konfigurasikan parameter untuk mengatur aturan peringatan.

    Catatan

    Aturan peringatan yang Anda konfigurasi pada langkah ini berlaku untuk subtask sinkronisasi real time yang akan dihasilkan oleh tugas sinkronisasi. Setelah konfigurasi tugas sinkronisasi selesai, Anda dapat merujuk ke Manage real-time synchronization tasks untuk membuka halaman Real-time Synchronization Task dan memodifikasi aturan peringatan yang dikonfigurasi untuk subtask sinkronisasi real time.

  3. Kelola aturan peringatan.

    Anda dapat mengaktifkan atau menonaktifkan aturan peringatan yang telah dibuat. Anda juga dapat menentukan penerima peringatan yang berbeda berdasarkan tingkat keparahan peringatan.

5. Konfigurasi parameter lanjutan

DataWorks memungkinkan Anda memodifikasi konfigurasi parameter tertentu. Anda dapat mengubah nilai parameter tersebut sesuai kebutuhan bisnis Anda.

Catatan

Untuk mencegah kesalahan tak terduga atau masalah kualitas data, kami menyarankan agar Anda memahami makna parameter sebelum mengubah nilainya.

  1. Di pojok kanan atas halaman konfigurasi, klik Configure Advanced Parameters.

  2. Di panel Configure Advanced Parameters, ubah nilai parameter yang diinginkan.

Langkah 6: Konfigurasi kemampuan DDL

Operasi DDL mungkin dilakukan pada sumber. Anda dapat mengklik Configure DDL Capability di pojok kanan atas halaman untuk mengonfigurasi aturan guna memproses pesan DDL dari sumber sesuai kebutuhan bisnis Anda.

Catatan

Untuk informasi selengkapnya, lihat Configure rules to process DDL messages.

Langkah 7: Konfigurasi grup sumber daya

Anda dapat mengklik Configure Resource Group di pojok kanan atas halaman untuk melihat dan mengubah grup sumber daya yang digunakan untuk menjalankan tugas sinkronisasi saat ini.

Langkah 8: Lakukan simulasi jalankan

Setelah konfigurasi di atas selesai, Anda dapat mengklik Perform Simulated Running di pojok kanan atas halaman konfigurasi untuk mengaktifkan tugas sinkronisasi agar menyinkronkan data sampel ke tabel tujuan. Anda dapat melihat hasil sinkronisasi di tabel tujuan. Jika konfigurasi tertentu dari tugas sinkronisasi tidak valid, terjadi pengecualian selama uji coba, atau data kotor dihasilkan, sistem akan melaporkan kesalahan secara real time. Hal ini membantu Anda memeriksa konfigurasi tugas sinkronisasi dan menentukan apakah hasil yang diharapkan dapat diperoleh sesegera mungkin.

  1. Di kotak dialog yang muncul, konfigurasikan parameter untuk pengambilan sampel data dari tabel yang ditentukan, termasuk parameter Start At dan Sampled Data Records.

  2. Klik Start Collection untuk mengaktifkan tugas sinkronisasi agar mengambil sampel data dari sumber.

  3. Klik Preview untuk mengaktifkan tugas sinkronisasi agar menyinkronkan data sampel ke tujuan.

Langkah 9: Jalankan tugas sinkronisasi

  1. Setelah konfigurasi tugas sinkronisasi selesai, klik Complete di bagian bawah halaman.

  2. Di bagian Tasks pada halaman Synchronization Task, temukan tugas sinkronisasi yang telah dibuat dan klik Start di kolom Operation.

  3. Klik name or ID tugas sinkronisasi di bagian Tasks dan lihat proses berjalan detail dari tugas sinkronisasi tersebut.

Sinkronisasi Tugas O&M

Lihat status berjalan tugas sinkronisasi

Setelah tugas sinkronisasi dibuat, Anda dapat membuka halaman Synchronization Task untuk melihat semua tugas sinkronisasi yang dibuat di ruang kerja dan informasi dasar masing-masing tugas sinkronisasi.

image

  • Anda dapat Start atau Stop tugas sinkronisasi di kolom Actions. Anda juga dapat memilih More untuk Edit, View, atau melakukan operasi lain pada tugas sinkronisasi.

  • Untuk tugas yang sedang berjalan, Anda dapat melihat status berjalan dasar di kolom Execution Overview. Anda juga dapat mengklik area ikhtisar yang sesuai untuk melihat detail eksekusi.

image

Tugas sinkronisasi dari Simple Log Service ke OSS-HDFS mencakup tahapan Schema Migration dan Real-time Data Synchronization:

  • Schema Migration: Tab ini menampilkan informasi seperti apakah tabel tujuan merupakan tabel baru atau tabel yang sudah ada. Untuk tabel baru, pernyataan DDL yang digunakan untuk membuat tabel akan ditampilkan.

  • Real-time Data Synchronization: Tab ini menampilkan statistik tentang sinkronisasi real time, termasuk detail sinkronisasi real time, catatan DDL, dan informasi peringatan.

Jalankan ulang tugas sinkronisasi

Dalam beberapa kasus khusus, jika Anda ingin memodifikasi bidang yang akan disinkronkan, bidang di tabel tujuan, atau informasi nama tabel, Anda juga dapat mengklik Rerun di kolom Operation tugas sinkronisasi yang diinginkan. Dengan demikian, sistem akan menyinkronkan perubahan yang dilakukan ke tujuan. Data di tabel yang sudah disinkronkan dan tidak dimodifikasi tidak akan disinkronkan lagi.

  • Klik langsung Rerun tanpa memodifikasi konfigurasi tugas sinkronisasi untuk mengaktifkan sistem menjalankan ulang tugas sinkronisasi.

  • Modifikasi konfigurasi tugas sinkronisasi lalu klik Complete. Klik Apply Updates yang ditampilkan di kolom Operation tugas sinkronisasi untuk menjalankan ulang tugas sinkronisasi agar konfigurasi terbaru berlaku.