全部产品
Search
文档中心

DataWorks:Konfigurasi LogHub Reader

更新时间:Jul 06, 2025

LogHub Reader membaca data dari topik LogHub secara real-time menggunakan SDK LogHub dan mendukung penggabungan serta pemisahan shard. Setelah shard digabungkan atau dipisah, mungkin terdapat duplikasi catatan data, namun tidak ada data yang hilang.

Informasi latar belakang

Tabel berikut menguraikan bidang metadata yang disediakan oleh LogHub Reader untuk sinkronisasi real-time.

Bidang yang disediakan oleh LogHub Reader untuk sinkronisasi real-time

Tipe data

Deskripsi

__time__

STRING

Bidang cadangan Layanan Log Sederhana. Bidang ini menentukan waktu ketika log ditulis ke Layanan Log Sederhana. Nilai bidang ini adalah timestamp UNIX dalam detik.

__source__

STRING

Bidang cadangan Layanan Log Sederhana. Bidang ini menentukan perangkat sumber dari mana log dikumpulkan.

__topic__

STRING

Bidang cadangan Layanan Log Sederhana. Bidang ini menentukan nama topik untuk log.

__tag__:__receive_time__

STRING

Waktu ketika log tiba di server. Jika Anda mengaktifkan fitur pencatatan alamat IP publik, bidang ini ditambahkan ke setiap log mentah ketika server menerima log. Nilai bidang ini adalah timestamp UNIX dalam detik.

__tag__:__client_ip__

STRING

Alamat IP publik dari perangkat sumber. Jika Anda mengaktifkan fitur pencatatan alamat IP publik, bidang ini ditambahkan ke setiap log mentah ketika server menerima log.

__tag__:__path__

STRING

Path file log yang dikumpulkan oleh Logtail. Logtail secara otomatis menambahkan bidang ini ke log.

__tag__:__hostname__

STRING

Nama host perangkat dari mana Logtail mengumpulkan data. Logtail secara otomatis menambahkan bidang ini ke log.

Prosedur

  1. Buka halaman DataStudio.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.

  2. Di panel Alur Kerja Terjadwal pada halaman DataStudio, gerakkan penunjuk di atas ikon 新建 dan pilih Create Node > Data Integration > Real-time Synchronization.

    Sebagai alternatif, temukan alur kerja yang diinginkan di panel Alur Kerja Terjadwal, klik kanan nama alur kerja, dan pilih Create Node > Data Integration > Real-time Synchronization.

  3. Dalam kotak dialog Create Node, atur parameter Sync Method menjadi End-to-end ETL dan konfigurasikan parameter Name dan Path.

  4. Klik Confirm.

  5. Pada tab konfigurasi node sinkronisasi real-time, seret LogHub di bagian Input ke kanvas di sebelah kanan.

  6. Klik node LogHub. Di panel yang muncul, konfigurasikan parameter.

    image

    Parameter

    Deskripsi

    Data source

    Nama sumber data LogHub yang telah Anda tambahkan ke DataWorks. Anda hanya dapat memilih sumber data LogHub.

    Jika tidak ada sumber data yang tersedia, klik New data source di sebelah kanan untuk pergi ke halaman Data Sources di Management Center untuk menambahkan sumber data LogHub. Untuk informasi lebih lanjut, lihat Tambahkan sumber data LogHub (SLS).

    Logstore

    Nama Penyimpanan log dari mana Anda ingin membaca data. Anda dapat mengklik Data preview untuk melihat pratinjau data di Penyimpanan log yang dipilih.

    Advanced configuration

    Menentukan apakah akan membagi data di Penyimpanan log. Jika Anda mengatur parameter Tugas Pemisahan menjadi Split, Anda harus mengonfigurasi parameter Split rules.

    Anda dapat menentukan aturan sharding dalam format shardId % X = Y. Persamaan ini digunakan untuk mendapatkan sisa pembagian shardId dengan X. shardId menunjukkan ID tugas sharding, X menunjukkan jumlah total shard, dan Y menunjukkan ID shard tempat tugas sharding berlaku. Rentang nilai Y adalah [0, X-1]. Sebagai contoh, shardId % 5 = 3 menunjukkan bahwa data sumber yang ingin Anda sinkronkan dibagi menjadi lima shard, dan tugas sharding ditugaskan untuk berlaku pada shard yang ID-nya adalah 3.

    Output Fields

    Bidang dari mana Anda ingin menyinkronkan data. Untuk informasi tentang deskripsi bidang, lihat Informasi latar belakang.

  7. Di bilah alat atas tab konfigurasi node sinkronisasi real-time, klik ikon 保存 untuk menyimpan node.