全部产品
Search
文档中心

DataWorks:Sinkronisasi real-time seluruh database MySQL ke data lake OSS-HDFS

更新时间:Nov 10, 2025

Topik ini menjelaskan cara menggunakan Data Integration DataWorks untuk menyinkronkan data dari MySQL ke data lake di OSS-HDFS secara real time.

Prasyarat

Batasan

Nilai dalam kolom kunci primer pada sumber tidak boleh NULL atau string kosong. Jika tidak, kesalahan mungkin dilaporkan saat tugas sinkronisasi terkait dijalankan.

Kemampuan sinkronisasi real-time seluruh database ke data lake

  • Anda dapat menggunakan tugas sinkronisasi yang dibuat dalam contoh ini untuk menyinkronkan struktur data dari sumber data MySQL ke data lake di OSS-HDFS. Anda juga dapat menggunakan tugas tersebut untuk menyinkronkan data historis dari semua atau tabel tertentu dalam database MySQL ke data lake di Object Storage Service (OSS) sekaligus, serta menyinkronkan data inkremental dari database MySQL ke data lake secara real time.

  • Tugas sinkronisasi yang dibuat dalam contoh ini dapat menyinkronkan perubahan data yang dihasilkan oleh operasi penambahan kolom yang dilakukan pada sumber. Jika tabel baru ditambahkan ke sumber setelah tugas sinkronisasi mulai berjalan, sistem akan secara otomatis menambahkan tabel tersebut ke tujuan selama proses sinkronisasi data.

    Penting

    Perubahan data yang dihasilkan oleh operasi DDL seperti penghapusan tabel dan penggantian nama tabel tidak dapat disinkronkan. Jika operasi DDL ini dilakukan pada tabel sumber, tugas sinkronisasi terkait akan gagal.

  • Jika Anda telah mengaktifkan layanan Data Lake Formation (DLF) menggunakan akun saat ini, sistem akan secara otomatis membuat metadatabase dan tabel metadata terkait di DLF.

Prosedur

1. Pilih jenis tugas sinkronisasi

  1. Buka halaman Integrasi Data.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih Data Integration > Data Integration. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Integration.

  2. Di panel navigasi sebelah kiri, klik Synchronization Task. Lalu, klik Create Synchronization Task di bagian atas halaman. Pada halaman yang muncul, konfigurasikan informasi dasar berikut:

    • Source And Destination: MySQLOSS-HDFS

    • New Node Name: Tentukan nama untuk tugas sinkronisasi.

    • Synchronization Method: Real-time migration of entire database.

    • Synchronization Mode: Pilih Full Initialization dan Incremental Synchronization.

2. Konfigurasi jaringan dan sumber daya

  1. Pada bagian Network And Resource Configuration, pilih Resource Group untuk tugas sinkronisasi. Anda dapat mengalokasikan jumlah unit komputasi (CU) yang dapat digunakan oleh tugas tersebut dengan memilih opsi Occupy.

  2. Untuk Source, pilih sumber data MySQL yang telah ditambahkan, dan untuk Destination, pilih sumber data OSS-HDFS yang telah ditambahkan, lalu klik Test Connectivity.image

  3. Setelah memastikan bahwa sumber data dan tujuan terhubung, klik Next.

3. Konfigurasi pengaturan dasar untuk tujuan

  • Writing Format: Anda dapat memilih salah satu format berikut: Hudi, Paimon, dan lceberg.

  • Select Storage Path: Pilih path di OSS tempat data yang disinkronkan disimpan.

  • Location For Creating Metadatabase: Anda dapat memilih apakah akan secara otomatis membuat metadatabase di DLF.

    Catatan

    Metadatabase hanya dapat dibuat secara otomatis di DLF yang diaktifkan di wilayah yang sama dengan ruang kerja Anda.

4. Pilih database dan tabel dari mana Anda ingin menyinkronkan data

Pada langkah ini, Anda dapat memilih tabel dari mana Anda ingin menyinkronkan data dalam daftar Source Table dan klik ikon image untuk memindahkan tabel yang dipilih ke daftar Selected Tables.

image

  • Select Specific Databases And Tables:

    • Di bidang Database Filter dan Table Filter pada bagian Source Table, Anda dapat memasukkan fitur nama database atau tabel untuk memfilter database dan tabel dari mana Anda ingin menyinkronkan data. Pilih semua database dan tabel dari mana Anda ingin menyinkronkan data dan klik ikon image untuk memindahkannya ke bagian Selected Tables.

    • Di bagian Selected Tables, Anda dapat memasukkan fitur nama database atau tabel di bidang Database Filter dan Table Filter untuk memfilter database dan tabel dari mana Anda tidak ingin menyinkronkan data. Pilih semua database dan tabel dari mana Anda tidak ingin menyinkronkan data dan klik ikon image untuk memindahkannya ke bagian Source Table.

  • Use Regular Expressions To Select Tables (Support Adding Or Removing Tables By Using Regular Expressions During Runtime):

    Anda dapat memfilter tabel dengan menggunakan ekspresi reguler yang dikonfigurasi di bidang Database Filter dan Table Filter. Klik Confirm Selection untuk memilih database dan tabel dari mana Anda ingin menyinkronkan data.

    Catatan

    Misalnya, jika Anda ingin memfilter database yang namanya diawali dengan a dan tabel yang namanya diawali dengan order, Anda dapat mengisi bidang Database Filter dengan a.* dan bidang Table Filter dengan order.*.

5. Konfigurasi pemetaan antara tabel sumber dan tabel tujuan

Setelah Anda memilih tabel dari mana Anda ingin menyinkronkan data, tabel yang dipilih akan secara otomatis ditampilkan di bagian Mapping Rules for Destination Tables. Properti tabel tujuan menunggu untuk dipetakan. Anda harus menentukan secara manual pemetaan antara tabel sumber dan tabel tujuan untuk menentukan hubungan pembacaan dan penulisan data. Kemudian, Anda dapat mengklik Refresh di kolom Actions untuk langsung merefresh pemetaan antara tabel sumber dan tabel tujuan, atau setelah mengonfigurasi pengaturan terkait tabel tujuan.

Catatan
  • Anda dapat memilih tabel yang ingin disinkronkan dan mengklik Batch Refresh Mapping Results. Jika tidak ada aturan pemetaan yang dikonfigurasi, aturan nama tabel default adalah ${table name}. Jika tabel dengan nama yang sama tidak ada di tujuan, sistem akan secara otomatis membuat tabel tersebut.

  • Di kolom Modify Mapping Rule For Destination Database Name, Anda dapat mengklik Configure untuk menyesuaikan aturan nama database tujuan.

    Anda dapat menggabungkan variabel bawaan dan string tertentu menjadi nama database tujuan akhir. Anda dapat mengedit variabel bawaan. Misalnya, saat membuat aturan pemetaan, Anda dapat menambahkan akhiran ke variabel yang menunjukkan nama database sumber untuk membentuk nama database tujuan.

  • Anda dapat mengklik Edit di kolom Customize Mapping Rules for Destination Table Names untuk mengonfigurasi aturan pemetaan nama tabel tujuan sesuai kebutuhan bisnis Anda.

    Anda dapat menggabungkan variabel bawaan dan string tertentu menjadi nama tabel tujuan. Anda dapat mengedit variabel bawaan. Misalnya, saat membuat aturan pemetaan, Anda dapat menambahkan akhiran ke variabel yang menunjukkan nama tabel sumber untuk membentuk nama tabel tujuan.

a. Ubah pemetaan tipe data untuk bidang

Pemetaan default sudah ada antara tipe data bidang sumber dan tipe data bidang tujuan. Anda dapat mengklik Edit Mapping of Field Data Types di pojok kanan atas bagian Mapping Rules for Destination Tables untuk mengonfigurasi pemetaan tipe data antara bidang sumber dan bidang tujuan sesuai kebutuhan bisnis Anda. Setelah konfigurasi selesai, klik Apply and Refresh Mapping.

b. Ubah skema tabel tujuan untuk menambahkan bidang ke tabel dan memberikan nilai ke bidang tersebut

Jika tabel tujuan berada dalam status to-be-created, Anda dapat melakukan langkah-langkah berikut untuk menambahkan bidang ke tabel dan memberikan nilai ke bidang tersebut:

  1. Tambahkan bidang ke satu atau beberapa tabel tujuan.

    • Tambahkan bidang ke satu tabel tujuan: Temukan tabel tujuan yang ingin Anda tambahkan bidangnya dan klik ikon image.png di kolom Destination Table Name. Di kotak dialog yang muncul, tambahkan bidang.

    • Tambahkan bidang ke beberapa tabel tujuan sekaligus: Pilih tabel tujuan yang ingin Anda tambahkan bidangnya secara bersamaan, klik Batch Modify di bagian bawah halaman, lalu klik Destination Table Schema - Batch Modify and Add Field.

  2. Berikan nilai ke bidang tersebut. Anda dapat melakukan salah satu operasi berikut untuk memberikan nilai ke bidang tersebut:

    • Berikan nilai ke bidang yang ditambahkan ke satu tabel tujuan: Temukan tabel tujuan tempat Anda ingin memberikan nilai ke bidang yang baru ditambahkan dan klik Configure di kolom Value assignment. Di kotak dialog Additional Field, berikan nilai ke bidang tersebut.

    • Berikan nilai ke bidang yang ditambahkan ke beberapa tabel tujuan sekaligus: Pilih tabel tujuan tempat Anda ingin memberikan nilai ke bidang yang baru ditambahkan, klik Batch Modify di bagian bawah halaman, lalu klik Value assignment untuk memberikan nilai ke bidang yang sama di tabel tujuan yang dipilih secara bersamaan.

    Catatan

    Anda dapat mengklik ikon image untuk mengganti metode pemberian nilai dan memberikan konstanta serta variabel ke bidang yang ditambahkan ke tabel tujuan.

c. Konfigurasi aturan pemrosesan DML

Data Integration menyediakan aturan pemrosesan DML default. Anda juga dapat mengonfigurasi aturan pemrosesan DML untuk tabel tujuan sesuai kebutuhan bisnis Anda.

  • Konfigurasi aturan pemrosesan DML untuk satu tabel tujuan: Temukan tabel tujuan yang ingin Anda konfigurasikan aturan pemrosesan DML-nya dan klik Configure di kolom Configure DML Rule untuk mengonfigurasi aturan pemrosesan DML untuk tabel tersebut.

  • Konfigurasi aturan pemrosesan DML untuk beberapa tabel tujuan sekaligus: Pilih tabel tujuan yang ingin Anda konfigurasikan aturan pemrosesan DML-nya, klik Batch Modify di bagian bawah halaman, lalu klik Configure DML Rule.

6. Konfigurasi aturan peringatan

Untuk mencegah kegagalan tugas sinkronisasi menyebabkan latensi pada sinkronisasi data bisnis, Anda dapat mengonfigurasi berbagai aturan peringatan untuk tugas sinkronisasi tersebut.

  1. Di pojok kanan atas halaman, klik Configure Alert Rule untuk membuka panel Configure Alert Rule.

  2. Di panel Configure Alert Rule, klik Add Alert Rule. Di kotak dialog Add Alert Rule, konfigurasikan parameter untuk mengatur aturan peringatan.

    Catatan

    Aturan peringatan yang Anda konfigurasi pada langkah ini berlaku untuk sub-tugas sinkronisasi real-time yang akan dihasilkan oleh tugas sinkronisasi. Setelah konfigurasi tugas sinkronisasi selesai, Anda dapat merujuk ke Kelola tugas sinkronisasi real-time untuk membuka halaman Tugas Sinkronisasi Real-time dan memodifikasi aturan peringatan yang dikonfigurasi untuk sub-tugas sinkronisasi real-time tersebut.

  3. Kelola aturan peringatan.

    Anda dapat mengaktifkan atau menonaktifkan aturan peringatan yang telah dibuat. Anda juga dapat menentukan penerima peringatan yang berbeda berdasarkan tingkat keparahan peringatan.

7. Konfigurasi parameter lanjutan

Anda dapat mengubah nilai parameter tertentu yang dikonfigurasi untuk tugas sinkronisasi sesuai kebutuhan bisnis Anda. Misalnya, Anda dapat menentukan nilai yang sesuai untuk parameter Maximum read connections untuk mencegah tugas sinkronisasi saat ini memberikan tekanan berlebihan pada database sumber dan memengaruhi produksi data.

Catatan

Untuk mencegah kesalahan tak terduga atau masalah kualitas data, kami sarankan agar Anda memahami makna parameter sebelum mengubah nilainya.

  1. Di pojok kanan atas halaman konfigurasi, klik Configure Advanced Parameters.

  2. Di panel Configure Advanced Parameters, ubah nilai parameter yang diinginkan.

8. Konfigurasi aturan pemrosesan DDL

Operasi DDL mungkin dilakukan pada sumber. Anda dapat mengklik Configure DDL Capability di pojok kanan atas halaman untuk mengonfigurasi aturan guna memproses pesan DDL dari sumber sesuai kebutuhan bisnis Anda.

Catatan

Untuk informasi lebih lanjut, lihat Konfigurasi aturan untuk memproses pesan DDL.

9. Konfigurasi kelompok sumber daya

Anda dapat mengklik Configure Resource Group di pojok kanan atas halaman untuk melihat dan mengubah kelompok sumber daya yang digunakan untuk menjalankan tugas sinkronisasi saat ini.

10. Jalankan tugas sinkronisasi

  1. Setelah konfigurasi tugas sinkronisasi selesai, klik Complete di bagian bawah halaman.

  2. Di bagian Nodes pada halaman Data Integration, temukan tugas sinkronisasi yang telah dibuat dan klik Start di kolom Actions.

  3. Klik name or ID tugas sinkronisasi di bagian Tasks dan lihat proses berjalan detail dari tugas sinkronisasi tersebut.

Lakukan operasi O&M pada tugas sinkronisasi

Lihat status tugas sinkronisasi

Setelah Anda membuat tugas sinkronisasi, Anda dapat melihat daftar tugas sinkronisasi yang telah dibuat dan informasi dasar tentang setiap tugas sinkronisasi di halaman Synchronization Task.image

  • Anda dapat mengklik Start atau Stop di kolom Actions untuk memulai atau menghentikan tugas sinkronisasi. Anda juga dapat mengklik More di kolom Actions dan memilih Edit atau View untuk melakukan operasi lain pada tugas sinkronisasi tersebut.

  • Untuk tugas yang sedang berjalan, Anda dapat melihat status dasar tugas tersebut di Execution Overview. Anda juga dapat mengklik area ikhtisar yang sesuai untuk melihat detail eksekusi.image

    Tugas sinkronisasi real-time untuk menyinkronkan seluruh database MySQL ke OSS-HDFS terdiri dari tiga langkah:

    • Schema Migration: Tab ini menampilkan informasi seperti apakah tabel tujuan merupakan tabel baru atau tabel yang sudah ada. Untuk tabel baru, pernyataan DDL yang digunakan untuk membuat tabel tersebut ditampilkan.

    • Full Data Initialization: Tab ini menampilkan informasi seperti tabel sumber dan tabel tujuan yang terlibat dalam sinkronisasi batch, progres sinkronisasi, dan jumlah catatan data yang telah disinkronkan.

    • Real-time Synchronization: Tab ini menampilkan informasi statistik tentang sinkronisasi real-time, termasuk progres sinkronisasi, catatan DDL, catatan DML, dan informasi peringatan.

Jalankan ulang tugas sinkronisasi

Dalam beberapa kasus khusus, jika Anda menambahkan atau menghapus tabel dari sumber, atau mengubah skema atau nama tabel tujuan, Anda dapat mengklik More di kolom Actions tugas sinkronisasi tersebut, lalu klik Rerun untuk menjalankan ulang tugas setelah perubahan tersebut. Selama proses menjalankan ulang, tugas sinkronisasi hanya akan menyinkronkan data dari tabel yang baru ditambahkan ke tujuan atau hanya dari tabel sumber yang dipetakan ke tabel tujuan yang skema atau namanya diubah.

  • Jika Anda ingin menjalankan ulang tugas sinkronisasi tanpa mengubah konfigurasi tugas tersebut, klik More di kolom Actions lalu klik Rerun untuk menjalankan ulang tugas guna melakukan sinkronisasi penuh dan sinkronisasi inkremental lagi.

  • Jika Anda ingin menjalankan ulang tugas sinkronisasi setelah menambahkan atau menghapus tabel dari tugas tersebut, klik Complete setelah perubahan dilakukan. Dalam hal ini, Apply Updates akan ditampilkan di kolom Actions tugas sinkronisasi tersebut. Klik Apply Updates untuk memicu sistem menjalankan ulang tugas sinkronisasi tersebut. Selama proses menjalankan ulang, tugas sinkronisasi akan menyinkronkan data dari tabel yang baru ditambahkan ke tujuan. Data di tabel asli tidak akan disinkronkan lagi.