全部产品
Search
文档中心

DataWorks:Sinkronisasi offline seluruh database MySQL ke data lake OSS

更新时间:Nov 10, 2025

Data Integration mendukung sinkronisasi offline seluruh database dari sumber seperti AnalyticDB for MySQL 3.0, MySQL, Oracle, PolarDB, dan PostgreSQL ke OSS. Topik ini menjelaskan cara menyinkronkan data dari seluruh database MySQL ke data lake OSS secara offline, dengan MySQL sebagai sumber dan OSS sebagai tujuan.

Prasyarat

Prosedur

1. Pilih jenis tugas sinkronisasi

  1. Buka halaman Data Integration.

    Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih Data Integration > Data Integration. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Integration.

  2. Di panel navigasi sebelah kiri, klik Sync Task. Di bagian atas halaman, klik Create Sync Task untuk membuka halaman pembuatan tugas sinkronisasi. Konfigurasikan informasi dasar.

    • Source And Destination: MySQLOSS

    • New Task Name: Masukkan nama kustom untuk tugas sinkronisasi.

    • Synchronization Type: Offline Full Database.

    • Synchronization Steps: Pilih Full Synchronization dan Incremental Synchronization.

2. Konfigurasi jaringan dan sumber daya

  1. Pada bagian Network And Resource Configuration, pilih Resource Group untuk tugas sinkronisasi. Anda dapat mengalokasikan CU untuk Task Resource Usage.

  2. Untuk Source Data Source, pilih sumber data MySQL Anda. Untuk Destination Data Source, pilih sumber data OSS Anda. Lalu, klik Test Connectivity.image

  3. Setelah memastikan bahwa sumber data dan tujuan terhubung, klik Next.

3. Konfigurasi pengaturan dasar tujuan

Sinkronisasi offline seluruh database ke OSS mendukung berbagai format penulisan, seperti Paimon, Iceberg, CSV, text, Parquet, dan ORC.

Parameter konfigurasi bervariasi tergantung pada format penulisan. Konfigurasikan parameter sesuai kebutuhan:

Paimon, Iceberg

Parameter

Deskripsi

Storage Path Selection

Pilih jalur OSS tempat data disimpan setelah dimasukkan ke dalam data lake.

Select Metadatabase Auto-build Location

Pilih apakah akan secara otomatis membuat metadatabase di DLF.

Catatan

Anda hanya dapat membuat metadatabase di instans DLF yang berada di wilayah yang sama.

CSV, text

Parameter

Deskripsi

Destination Root Path

Format: di_to_oss_path/${bizdate}/. Parameter penjadwalan ${bizdate} menunjukkan waktu data. Nilai penjadwalan adalah $bizdate. Nilai ini adalah hari sebelum tanggal penjadwalan. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan.

Catatan

Ketika Anda menggunakan parameter penjadwalan $bizdate, parameter tersebut harus disertakan dalam Recurring Schedule Parameter Configuration pada pengaturan Full And Incremental Control.

Column Delimiter

Karakter yang memisahkan bidang dalam data Anda, seperti koma (,). Jika pemisah tidak terlihat, masukkan kode Unicode-nya, seperti \\u001b atau \\u007c.

Prefix Conflict

Saat menulis data, jika objek tujuan memiliki awalan yang sama dengan objek yang akan ditulis, Anda dapat melakukan salah satu operasi berikut:

  • Replace Original File: Menghapus file dengan awalan yang sama dan membuat file baru untuk menggantinya.

  • Keep Original File: Menyimpan file asli dan membuat file baru dengan nama file asli ditambah akhiran acak.

  • Exit With An Error: Tugas sinkronisasi berhenti.

Output Table Header

Tentukan apakah akan mengeluarkan header tabel sebagai konten.

Parquet, ORC

Parameter yang dikonfigurasi

Deskripsi

Destination Root Path

Format: di_to_oss_path/${bizdate}/. Parameter penjadwalan ${bizdate} menunjukkan waktu data. Nilai penjadwalan adalah $bizdate. Nilai ini adalah hari sebelum tanggal penjadwalan. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan.

Catatan

Ketika Anda menggunakan parameter penjadwalan $bizdate, parameter tersebut harus disertakan dalam Recurring Schedule Parameter Configuration pada pengaturan Full And Incremental Control.

Prefix Conflict

Saat menulis data, jika objek tujuan memiliki awalan yang sama dengan objek yang akan ditulis, Anda dapat melakukan salah satu operasi berikut:

  • Replace Original File: Menghapus file dengan awalan yang sama dan membuat file baru untuk menggantinya.

  • Keep Original File: Menyimpan file asli dan membuat file baru dengan nama file asli ditambah akhiran acak.

  • Exit With An Error: Tugas sinkronisasi berhenti.

4. Pilih database dan tabel yang akan disinkronkan

Di area Source Table, pilih tabel yang akan disinkronkan dari sumber data. Klik ikon image untuk memindahkan tabel ke daftar Selected Tables.

image

5. Konfigurasi kontrol penuh dan inkremental

  1. Konfigurasikan jenis sinkronisasi penuh dan inkremental untuk tugas.

    • Jika Anda memilih kedua opsi Full Sync dan Incremental Sync di Sync Step, tugas secara default diatur sebagai sinkronisasi penuh satu kali dan sinkronisasi inkremental berulang. Pengaturan ini tidak dapat diubah.

    • Jika Anda memilih Full Sync di Sync Step, Anda dapat mengonfigurasi tugas sebagai sinkronisasi penuh satu kali atau sinkronisasi penuh berulang.

    • Jika Anda memilih Incremental Sync di Sync Step, Anda dapat mengonfigurasi tugas sebagai sinkronisasi inkremental satu kali atau berulang.

      Catatan

      Langkah-langkah berikut menggunakan contoh tugas sinkronisasi penuh satu kali dan sinkronisasi inkremental berulang.

  2. Konfigurasikan parameter penjadwalan berulang.

    Jika Anda ingin tugas berjalan sesuai jadwal berulang, klik Recurring Schedule Parameters.

6. Konfigurasi pemetaan tabel tujuan

Setelah memilih tabel yang akan disinkronkan, tabel tersebut akan ditampilkan secara otomatis di halaman saat ini. Secara default, properti file objek memiliki status 'mapping to be refreshed'. Anda harus menentukan dan mengonfirmasi pemetaan antara tabel sumber dan file objek, yang menentukan hubungan baca-tulis data. Anda dapat langsung merefresh pemetaan atau menyesuaikan aturan file objek sebelum mengklik Refresh Mapping untuk melanjutkan.

Catatan
  • Anda dapat memilih tabel yang akan disinkronkan dan mengklik Batch Refresh Mapping. Jika tidak ada aturan pemetaan yang dikonfigurasi, konvensi penamaan default untuk objek OSS tujuan adalah ${Source Table Name}/data_${Data Timestamp}.

  • Karena diperlukan penjadwalan berulang, Anda harus menentukan properti untuk tugas penjadwalan berulang. Properti ini mencakup Scheduling Cycle, Rerun Property, dan Scheduling Resource Group. Konfigurasi penjadwalan untuk sinkronisasi ini konsisten dengan konfigurasi penjadwalan node di Data Studio. Untuk informasi selengkapnya tentang parameter, lihat Penjadwalan node.

  • Berdasarkan Sync Step yang dipilih, atur Incremental Condition dan Full Condition. Kondisi ini menerapkan klausa WHERE untuk memfilter data sumber. Masukkan hanya isi klausa, bukan kata kunci WHERE. Jika Anda mengaktifkan penjadwalan berulang, Anda dapat menggunakan parameter sistem.

  • Di kolom Custom Destination Path Mapping dan Custom Destination Filename Mapping, klik Configure untuk menyesuaikan jalur penyimpanan dan konvensi penamaan untuk objek OSS tujuan. Untuk informasi selengkapnya, lihat Lampiran: Deskripsi jalur dan nama file OSS tujuan.

1. Edit pemetaan tipe field

Tugas sinkronisasi secara default memetakan tipe field sumber ke tipe field tujuan. Untuk menyesuaikan pemetaan ini, klik Edit Field Type Mapping di pojok kanan atas tabel. Setelah mengonfigurasi pemetaan, klik Apply And Refresh Mapping.

2. Tambahkan field ke file objek dan tetapkan nilai

Anda dapat menambahkan field baru ke file objek yang tidak ada dalam skema tabel asli. Untuk melakukannya, lakukan langkah-langkah berikut:

  • Tambahkan field dan tetapkan nilai untuk satu tabel: Klik Configure di kolom Add Field To Object File. Di halaman Add Field, klik Add Field untuk menambahkan field ke file objek dan menetapkan nilainya.

  • Tetapkan nilai secara batch: Pilih beberapa tabel. Di bagian bawah daftar, pilih Batch Modify > Add Field To Object File untuk menambahkan field yang sama ke tabel tujuan dan menetapkan nilai secara batch.

    Catatan

    Anda dapat menetapkan konstanta dan variabel. Klik ikon image untuk mengganti mode penetapan nilai.

3. Sesuaikan parameter lanjutan

Untuk kontrol detail halus terhadap tugas, klik Configure di kolom Customize Advanced Parameters.

Penting

Ubah parameter ini hanya jika Anda benar-benar memahami fungsinya. Pengaturan yang salah dapat menyebabkan kesalahan tak terduga atau masalah kualitas data.

4. Tetapkan kolom chunking sumber

Di kolom chunking sumber, Anda dapat memilih field dari tabel sumber dalam daftar drop-down atau memilih Do Not Chunk.

7. Konfigurasi parameter lanjutan

Tugas sinkronisasi menyediakan beberapa parameter yang dapat Anda ubah sesuai kebutuhan. Misalnya, Anda dapat membatasi jumlah maksimum koneksi untuk mencegah tugas sinkronisasi memberikan tekanan berlebihan pada database produksi Anda.

Catatan

Ubah parameter ini hanya jika Anda benar-benar memahami fungsinya. Pengaturan yang salah dapat menyebabkan kesalahan tak terduga atau masalah kualitas data.

  1. Di pojok kanan atas halaman, klik Advanced Parameter Configuration untuk membuka halaman konfigurasi parameter lanjutan.

  2. Di halaman Advanced Parameter Configuration, ubah nilai parameter.

8. Konfigurasi kelompok sumber daya

Di pojok kanan atas halaman, klik Resource Group Configuration untuk melihat atau mengganti kelompok sumber daya untuk tugas saat ini.

9. Jalankan tugas sinkronisasi

  1. Setelah selesai mengonfigurasi, klik Complete Configuration di bagian bawah halaman.

  2. Di halaman Data Integration > Sync Task, temukan tugas sinkronisasi yang telah dibuat dan klik Start di kolom Actions.

  3. Di Task List, klik Name/ID tugas untuk melihat detail eksekusi.

10. Konfigurasi peringatan

Setelah tugas dijalankan, pekerjaan terjadwal akan dibuat di Operation Center. Untuk mencegah kesalahan tugas menyebabkan latensi sinkronisasi data, Anda dapat mengatur kebijakan alarm untuk tugas sinkronisasi.

  1. Di Task List, temukan tugas sinkronisasi yang sedang berjalan. Di kolom Actions, pilih More > Edit untuk membuka halaman pengeditan tugas.

  2. Klik Next. Lalu, klik Alarm Configuration di pojok kanan atas halaman untuk membuka halaman pengaturan alarm.

  3. Di kolom Scheduling Information, klik pekerjaan terjadwal untuk membuka halaman detail tugas di Operation Center dan ambil Task ID.

  4. Di panel navigasi sebelah kiri Operation Center, pilih Task Monitoring > Monitoring Alarms > Rule Management untuk membuka halaman Manajemen Aturan.

  5. Klik Create Custom Rule dan atur Rule Object, Trigger Method, dan Alarm Behavior. Untuk informasi selengkapnya, lihat Manajemen aturan.

    Di kolom Rule Object, cari tugas target menggunakan Task ID yang diperoleh dan atur peringatan.

O&M tugas sinkronisasi

Lihat status tugas yang sedang berjalan

Setelah membuat tugas sinkronisasi, Anda dapat melihat daftar tugas sinkronisasi yang telah dibuat beserta informasi dasarnya di halaman tugas sinkronisasi.

image

  • Di kolom Operation, Anda dapat Start atau Stop tugas sinkronisasi. Dari menu More, Anda dapat melakukan operasi lain, seperti Edit dan View.

  • Untuk tugas yang sedang berjalan, Anda dapat melihat status dasar pelaksanaannya di bagian Execution Overview. Anda juga dapat mengklik area ikhtisar yang sesuai untuk melihat detail eksekusi.image

    Dalam tugas sinkronisasi offline seluruh database dari MySQL ke OSS:

    • Jika langkah sinkronisasi tugas Anda adalah Full Synchronization, migrasi skema dan sinkronisasi penuh akan ditampilkan.

    • Jika langkah sinkronisasi tugas Anda adalah Incremental Synchronization, migrasi skema dan sinkronisasi inkremental akan ditampilkan.

    • Jika langkah sinkronisasi tugas Anda adalah Full Synchronization + Incremental Synchronization, migrasi skema, sinkronisasi penuh, dan sinkronisasi inkremental akan ditampilkan.

Jalankan ulang tugas

  • Klik Rerun untuk menjalankan ulang tugas tanpa mengubah konfigurasi tugas.

    Efek: Operasi ini menjalankan ulang tugas satu kali atau memperbarui properti tugas berulang.

  • Untuk menjalankan ulang tugas setelah memodifikasinya dengan menambahkan atau menghapus tabel, edit tugas dan klik Complete. Status tugas kemudian berubah menjadi Apply Update. Klik Apply Update untuk segera memicu jalankan ulang tugas yang telah dimodifikasi.

    Efek: Hanya tabel baru yang disinkronkan. Tabel yang sebelumnya telah disinkronkan tidak disinkronkan lagi.

  • Setelah Anda mengedit tugas (misalnya, dengan mengubah nama tabel tujuan atau beralih ke tabel tujuan yang berbeda) dan mengklik Complete, operasi yang tersedia untuk tugas berubah menjadi Apply Update. Klik Apply Update untuk segera memicu jalankan ulang tugas yang telah dimodifikasi.

    Efek: Tabel yang dimodifikasi disinkronkan. Tabel yang tidak dimodifikasi tidak disinkronkan lagi.

Kasus penggunaan

Jika Anda memiliki dependensi data downstream dan perlu melakukan operasi pengembangan data, Anda dapat merujuk ke Penjadwalan node untuk mengatur node upstream dan downstream. Informasi node tugas yang dipicu otomatis dapat dilihat di kolom Recurring Configuration.

image

Lampiran: Deskripsi jalur dan nama file OSS tujuan akhir

DataWorks Data Integration menyediakan aturan kustom untuk memetakan jalur OSS tujuan dan nama file OSS tujuan selama langkah 6. Configure destination table mapping.

  • Aturan kustom bawaan untuk memetakan jalur OSS tujuan: default_path_convert_rule.

    Aturan ini menggunakan nama database sumber sebagai jalur OSS tujuan. Misalnya, jika nama database sumber adalah di_ide_yufa, nama ini digunakan sebagai jalur tujuan di OSS. Jalur penyimpanan di OSS adalah di_ide_yufa.

  • Dua aturan kustom bawaan tersedia untuk memetakan nama file OSS tujuan:

    • default_file_convert_rule_with_schedule_params: Aturan ini didefinisikan sebagai ${srcTableName}/data_${bizdate}. Nama tabel sumber ${srcTableName} digunakan sebagai bagian dari jalur OSS, dan file objek diberi nama data_ diikuti oleh nilai parameter penjadwalan ${bizdate}.

      Catatan

      Misalnya, jika nama tabel sumber adalah base_c_app_config dan nilai tanggal penjadwalan adalah 20230101, nama objek tujuan yang dihasilkan di OSS adalah base_c_app_config/data_20230101.

    • default_file_convert_rule: Aturan ini didefinisikan sebagai ${srcTableName}/data. Nama tabel sumber ${srcTableName} digunakan sebagai bagian dari jalur OSS, dan nama file objek default adalah data.

      Catatan

      Misalnya, jika nama tabel sumber adalah base_c_app_config, nama objek tujuan yang dikonversi adalah base_c_app_config/data.

  • Jalur penulisan file OSS akhir dan nama file dibentuk dengan menggabungkan ketiga bagian berikut.

    • Jalur root tujuan.image

    • Jalur file objek yang diperoleh dari pemetaan jalur OSS tujuan kustom.

    • Nama file objek yang diperoleh dari aturan pemetaan nama file OSS tujuan kustom.

      image