Data Integration mendukung sinkronisasi offline seluruh database dari sumber seperti AnalyticDB for MySQL 3.0, MySQL, Oracle, PolarDB, dan PostgreSQL ke OSS. Topik ini menjelaskan cara menyinkronkan data dari seluruh database MySQL ke data lake OSS secara offline, dengan MySQL sebagai sumber dan OSS sebagai tujuan.
Prasyarat
Anda telah membeli kelompok sumber daya Serverless atau grup sumber daya eksklusif untuk Data Integration.
Anda telah membuat sumber data MySQL dan sumber data OSS. Untuk informasi selengkapnya, lihat Konfigurasi Sumber Data.
CatatanAnda harus mengaktifkan fitur binary logging (binlog). Untuk informasi selengkapnya, lihat Sumber data MySQL.
Anda telah menyiapkan koneksi jaringan antara kelompok sumber daya dan sumber data. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
Prosedur
1. Pilih jenis tugas sinkronisasi
Buka halaman Data Integration.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Integration.
Di panel navigasi sebelah kiri, klik Sync Task. Di bagian atas halaman, klik Create Sync Task untuk membuka halaman pembuatan tugas sinkronisasi. Konfigurasikan informasi dasar.
Source And Destination:
MySQL→OSSNew Task Name: Masukkan nama kustom untuk tugas sinkronisasi.
Synchronization Type:
Offline Full Database.Synchronization Steps: Pilih Full Synchronization dan Incremental Synchronization.
2. Konfigurasi jaringan dan sumber daya
Pada bagian Network And Resource Configuration, pilih Resource Group untuk tugas sinkronisasi. Anda dapat mengalokasikan CU untuk Task Resource Usage.
Untuk Source Data Source, pilih sumber data
MySQLAnda. Untuk Destination Data Source, pilih sumber dataOSSAnda. Lalu, klik Test Connectivity.
Setelah memastikan bahwa sumber data dan tujuan terhubung, klik Next.
3. Konfigurasi pengaturan dasar tujuan
Sinkronisasi offline seluruh database ke OSS mendukung berbagai format penulisan, seperti Paimon, Iceberg, CSV, text, Parquet, dan ORC.
Parameter konfigurasi bervariasi tergantung pada format penulisan. Konfigurasikan parameter sesuai kebutuhan:
Paimon, Iceberg
Parameter | Deskripsi |
Storage Path Selection | Pilih jalur OSS tempat data disimpan setelah dimasukkan ke dalam data lake. |
Select Metadatabase Auto-build Location | Pilih apakah akan secara otomatis membuat metadatabase di DLF. Catatan Anda hanya dapat membuat metadatabase di instans DLF yang berada di wilayah yang sama. |
CSV, text
Parameter | Deskripsi |
Destination Root Path | Format: Catatan Ketika Anda menggunakan parameter penjadwalan |
Column Delimiter | Karakter yang memisahkan bidang dalam data Anda, seperti koma (,). Jika pemisah tidak terlihat, masukkan kode Unicode-nya, seperti |
Prefix Conflict | Saat menulis data, jika objek tujuan memiliki awalan yang sama dengan objek yang akan ditulis, Anda dapat melakukan salah satu operasi berikut:
|
Output Table Header | Tentukan apakah akan mengeluarkan header tabel sebagai konten. |
Parquet, ORC
Parameter yang dikonfigurasi | Deskripsi |
Destination Root Path | Format: Catatan Ketika Anda menggunakan parameter penjadwalan |
Prefix Conflict | Saat menulis data, jika objek tujuan memiliki awalan yang sama dengan objek yang akan ditulis, Anda dapat melakukan salah satu operasi berikut:
|
4. Pilih database dan tabel yang akan disinkronkan
Di area Source Table, pilih tabel yang akan disinkronkan dari sumber data. Klik ikon
untuk memindahkan tabel ke daftar Selected Tables.

5. Konfigurasi kontrol penuh dan inkremental
Konfigurasikan jenis sinkronisasi penuh dan inkremental untuk tugas.
Jika Anda memilih kedua opsi Full Sync dan Incremental Sync di Sync Step, tugas secara default diatur sebagai sinkronisasi penuh satu kali dan sinkronisasi inkremental berulang. Pengaturan ini tidak dapat diubah.
Jika Anda memilih Full Sync di Sync Step, Anda dapat mengonfigurasi tugas sebagai sinkronisasi penuh satu kali atau sinkronisasi penuh berulang.
Jika Anda memilih Incremental Sync di Sync Step, Anda dapat mengonfigurasi tugas sebagai sinkronisasi inkremental satu kali atau berulang.
CatatanLangkah-langkah berikut menggunakan contoh tugas sinkronisasi penuh satu kali dan sinkronisasi inkremental berulang.
Konfigurasikan parameter penjadwalan berulang.
Jika Anda ingin tugas berjalan sesuai jadwal berulang, klik Recurring Schedule Parameters.
6. Konfigurasi pemetaan tabel tujuan
Setelah memilih tabel yang akan disinkronkan, tabel tersebut akan ditampilkan secara otomatis di halaman saat ini. Secara default, properti file objek memiliki status 'mapping to be refreshed'. Anda harus menentukan dan mengonfirmasi pemetaan antara tabel sumber dan file objek, yang menentukan hubungan baca-tulis data. Anda dapat langsung merefresh pemetaan atau menyesuaikan aturan file objek sebelum mengklik Refresh Mapping untuk melanjutkan.
Anda dapat memilih tabel yang akan disinkronkan dan mengklik Batch Refresh Mapping. Jika tidak ada aturan pemetaan yang dikonfigurasi, konvensi penamaan default untuk objek OSS tujuan adalah
${Source Table Name}/data_${Data Timestamp}.Karena diperlukan penjadwalan berulang, Anda harus menentukan properti untuk tugas penjadwalan berulang. Properti ini mencakup Scheduling Cycle, Rerun Property, dan Scheduling Resource Group. Konfigurasi penjadwalan untuk sinkronisasi ini konsisten dengan konfigurasi penjadwalan node di Data Studio. Untuk informasi selengkapnya tentang parameter, lihat Penjadwalan node.
Berdasarkan Sync Step yang dipilih, atur Incremental Condition dan Full Condition. Kondisi ini menerapkan klausa WHERE untuk memfilter data sumber. Masukkan hanya isi klausa, bukan kata kunci WHERE. Jika Anda mengaktifkan penjadwalan berulang, Anda dapat menggunakan parameter sistem.
Di kolom Custom Destination Path Mapping dan Custom Destination Filename Mapping, klik Configure untuk menyesuaikan jalur penyimpanan dan konvensi penamaan untuk objek OSS tujuan. Untuk informasi selengkapnya, lihat Lampiran: Deskripsi jalur dan nama file OSS tujuan.
1. Edit pemetaan tipe field
Tugas sinkronisasi secara default memetakan tipe field sumber ke tipe field tujuan. Untuk menyesuaikan pemetaan ini, klik Edit Field Type Mapping di pojok kanan atas tabel. Setelah mengonfigurasi pemetaan, klik Apply And Refresh Mapping.
2. Tambahkan field ke file objek dan tetapkan nilai
Anda dapat menambahkan field baru ke file objek yang tidak ada dalam skema tabel asli. Untuk melakukannya, lakukan langkah-langkah berikut:
Tambahkan field dan tetapkan nilai untuk satu tabel: Klik Configure di kolom Add Field To Object File. Di halaman Add Field, klik Add Field untuk menambahkan field ke file objek dan menetapkan nilainya.
Tetapkan nilai secara batch: Pilih beberapa tabel. Di bagian bawah daftar, pilih untuk menambahkan field yang sama ke tabel tujuan dan menetapkan nilai secara batch.
CatatanAnda dapat menetapkan konstanta dan variabel. Klik ikon
untuk mengganti mode penetapan nilai.
3. Sesuaikan parameter lanjutan
Untuk kontrol detail halus terhadap tugas, klik Configure di kolom Customize Advanced Parameters.
Ubah parameter ini hanya jika Anda benar-benar memahami fungsinya. Pengaturan yang salah dapat menyebabkan kesalahan tak terduga atau masalah kualitas data.
4. Tetapkan kolom chunking sumber
Di kolom chunking sumber, Anda dapat memilih field dari tabel sumber dalam daftar drop-down atau memilih Do Not Chunk.
7. Konfigurasi parameter lanjutan
Tugas sinkronisasi menyediakan beberapa parameter yang dapat Anda ubah sesuai kebutuhan. Misalnya, Anda dapat membatasi jumlah maksimum koneksi untuk mencegah tugas sinkronisasi memberikan tekanan berlebihan pada database produksi Anda.
Ubah parameter ini hanya jika Anda benar-benar memahami fungsinya. Pengaturan yang salah dapat menyebabkan kesalahan tak terduga atau masalah kualitas data.
Di pojok kanan atas halaman, klik Advanced Parameter Configuration untuk membuka halaman konfigurasi parameter lanjutan.
Di halaman Advanced Parameter Configuration, ubah nilai parameter.
8. Konfigurasi kelompok sumber daya
Di pojok kanan atas halaman, klik Resource Group Configuration untuk melihat atau mengganti kelompok sumber daya untuk tugas saat ini.
9. Jalankan tugas sinkronisasi
Setelah selesai mengonfigurasi, klik Complete Configuration di bagian bawah halaman.
Di halaman , temukan tugas sinkronisasi yang telah dibuat dan klik Start di kolom Actions.
Di Task List, klik Name/ID tugas untuk melihat detail eksekusi.
10. Konfigurasi peringatan
Setelah tugas dijalankan, pekerjaan terjadwal akan dibuat di Operation Center. Untuk mencegah kesalahan tugas menyebabkan latensi sinkronisasi data, Anda dapat mengatur kebijakan alarm untuk tugas sinkronisasi.
Di Task List, temukan tugas sinkronisasi yang sedang berjalan. Di kolom Actions, pilih untuk membuka halaman pengeditan tugas.
Klik Next. Lalu, klik Alarm Configuration di pojok kanan atas halaman untuk membuka halaman pengaturan alarm.
Di kolom Scheduling Information, klik pekerjaan terjadwal untuk membuka halaman detail tugas di Operation Center dan ambil Task ID.
Di panel navigasi sebelah kiri Operation Center, pilih untuk membuka halaman Manajemen Aturan.
Klik Create Custom Rule dan atur Rule Object, Trigger Method, dan Alarm Behavior. Untuk informasi selengkapnya, lihat Manajemen aturan.
Di kolom Rule Object, cari tugas target menggunakan Task ID yang diperoleh dan atur peringatan.
O&M tugas sinkronisasi
Lihat status tugas yang sedang berjalan
Setelah membuat tugas sinkronisasi, Anda dapat melihat daftar tugas sinkronisasi yang telah dibuat beserta informasi dasarnya di halaman tugas sinkronisasi.

Di kolom Operation, Anda dapat Start atau Stop tugas sinkronisasi. Dari menu More, Anda dapat melakukan operasi lain, seperti Edit dan View.
Untuk tugas yang sedang berjalan, Anda dapat melihat status dasar pelaksanaannya di bagian Execution Overview. Anda juga dapat mengklik area ikhtisar yang sesuai untuk melihat detail eksekusi.

Dalam tugas sinkronisasi offline seluruh database dari MySQL ke OSS:
Jika langkah sinkronisasi tugas Anda adalah Full Synchronization, migrasi skema dan sinkronisasi penuh akan ditampilkan.
Jika langkah sinkronisasi tugas Anda adalah Incremental Synchronization, migrasi skema dan sinkronisasi inkremental akan ditampilkan.
Jika langkah sinkronisasi tugas Anda adalah Full Synchronization + Incremental Synchronization, migrasi skema, sinkronisasi penuh, dan sinkronisasi inkremental akan ditampilkan.
Jalankan ulang tugas
Klik Rerun untuk menjalankan ulang tugas tanpa mengubah konfigurasi tugas.
Efek: Operasi ini menjalankan ulang tugas satu kali atau memperbarui properti tugas berulang.
Untuk menjalankan ulang tugas setelah memodifikasinya dengan menambahkan atau menghapus tabel, edit tugas dan klik Complete. Status tugas kemudian berubah menjadi Apply Update. Klik Apply Update untuk segera memicu jalankan ulang tugas yang telah dimodifikasi.
Efek: Hanya tabel baru yang disinkronkan. Tabel yang sebelumnya telah disinkronkan tidak disinkronkan lagi.
Setelah Anda mengedit tugas (misalnya, dengan mengubah nama tabel tujuan atau beralih ke tabel tujuan yang berbeda) dan mengklik Complete, operasi yang tersedia untuk tugas berubah menjadi Apply Update. Klik Apply Update untuk segera memicu jalankan ulang tugas yang telah dimodifikasi.
Efek: Tabel yang dimodifikasi disinkronkan. Tabel yang tidak dimodifikasi tidak disinkronkan lagi.
Kasus penggunaan
Jika Anda memiliki dependensi data downstream dan perlu melakukan operasi pengembangan data, Anda dapat merujuk ke Penjadwalan node untuk mengatur node upstream dan downstream. Informasi node tugas yang dipicu otomatis dapat dilihat di kolom Recurring Configuration.

Lampiran: Deskripsi jalur dan nama file OSS tujuan akhir
DataWorks Data Integration menyediakan aturan kustom untuk memetakan jalur OSS tujuan dan nama file OSS tujuan selama langkah 6. Configure destination table mapping.
Aturan kustom bawaan untuk memetakan jalur OSS tujuan:
default_path_convert_rule.Aturan ini menggunakan nama database sumber sebagai jalur OSS tujuan. Misalnya, jika nama database sumber adalah di_ide_yufa, nama ini digunakan sebagai jalur tujuan di OSS. Jalur penyimpanan di OSS adalah di_ide_yufa.
Dua aturan kustom bawaan tersedia untuk memetakan nama file OSS tujuan:
default_file_convert_rule_with_schedule_params: Aturan ini didefinisikan sebagai${srcTableName}/data_${bizdate}. Nama tabel sumber${srcTableName}digunakan sebagai bagian dari jalur OSS, dan file objek diberi namadata_diikuti oleh nilai parameter penjadwalan${bizdate}.CatatanMisalnya, jika nama tabel sumber adalah base_c_app_config dan nilai tanggal penjadwalan adalah 20230101, nama objek tujuan yang dihasilkan di OSS adalah base_c_app_config/data_20230101.
default_file_convert_rule: Aturan ini didefinisikan sebagai${srcTableName}/data. Nama tabel sumber${srcTableName}digunakan sebagai bagian dari jalur OSS, dan nama file objek default adalahdata.CatatanMisalnya, jika nama tabel sumber adalah base_c_app_config, nama objek tujuan yang dikonversi adalah base_c_app_config/data.
Jalur penulisan file OSS akhir dan nama file dibentuk dengan menggabungkan ketiga bagian berikut.
Jalur root tujuan.

Jalur file objek yang diperoleh dari pemetaan jalur OSS tujuan kustom.
Nama file objek yang diperoleh dari aturan pemetaan nama file OSS tujuan kustom.
