全部产品
Search
文档中心

DataWorks:Mengonfigurasi tugas sinkronisasi batch di antarmuka tanpa kode

更新时间:Nov 10, 2025

Data Integration menyediakan antarmuka tanpa kode yang memungkinkan Anda melakukan sinkronisasi periodik data lengkap atau inkremental dari tabel sumber—termasuk tabel ter-shard—ke tabel tujuan tanpa menulis kode. Anda dapat mengonfigurasi tugas sinkronisasi dengan memilih sumber dan tujuan melalui antarmuka pengguna serta mengatur parameter penjadwalan di DataWorks. Topik ini menjelaskan konfigurasi umum untuk tugas sinkronisasi batch di antarmuka tanpa kode. Konfigurasi dapat berbeda tergantung pada sumber data yang digunakan. Untuk informasi lebih lanjut, lihat Sumber data yang didukung dan solusi sinkronisasi.

Persiapan

Langkah 1: Membuat node sinkronisasi batch

Pengembangan Data Baru

  1. Masuk ke Konsol DataWorks. Beralih ke wilayah tujuan. Di panel navigasi sebelah kiri, pilih Data Development & O&M > Data Development. Pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Enter Data Development.

  2. Buat alur kerja. Untuk informasi lebih lanjut, lihat Mengatur alur kerja.

  3. Buat node sinkronisasi batch. Anda dapat menggunakan salah satu metode berikut:

    • Metode 1: Klik ikon image di pojok kanan atas daftar alur kerja dan pilih Create Node > Data Integration > Batch Synchronization.

    • Metode 2: Klik ganda nama alur kerja dan seret node Batch Synchronization dari direktori Data Integration ke editor alur kerja di sebelah kanan.

  4. Konfigurasikan informasi dasar, sumber, dan tujuan untuk node tersebut, lalu klik Confirm.

Pengembangan Data Sebelumnya

  1. Masuk ke Konsol DataWorks. Beralih ke wilayah tujuan. Di panel navigasi sebelah kiri, klik Data Development & O&M > Data Development. Pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Enter Data Development.

  2. Buat alur kerja. Untuk informasi lebih lanjut, lihat Membuat alur kerja.

  3. Buat node sinkronisasi batch. Anda dapat menggunakan salah satu metode berikut:

    • Metode 1: Perluas alur kerja, klik kanan Data Integration, lalu pilih Create Node > Batch Synchronization.

    • Metode 2: Klik ganda nama alur kerja dan seret node Batch Synchronization dari direktori Data Integration ke editor alur kerja di sebelah kanan.

  4. Buat node sinkronisasi batch sesuai petunjuk.

Langkah 2: Mengonfigurasi sumber data dan kelompok sumber daya

  1. Pilih sumber data dan tujuan data untuk tugas sinkronisasi batch.

  2. Pilih kelompok sumber daya dan kuota sumber daya untuk menjalankan tugas. Untuk konfigurasi kuota sumber daya yang direkomendasikan, lihat Metrik kinerja Data Integration.

  3. Uji konektivitas jaringan antara sumber data dan kelompok sumber daya. Jika koneksi gagal, konfigurasikan koneksi jaringan sesuai petunjuk atau seperti yang dijelaskan dalam dokumentasi. Untuk informasi lebih lanjut, lihat Mengonfigurasi koneksi jaringan.

Catatan
  • Jika Anda telah membuat kelompok sumber daya tetapi tidak ditampilkan, periksa apakah kelompok sumber daya tersebut telah dihubungkan ke ruang kerja. Untuk informasi lebih lanjut, lihat Menggunakan kelompok sumber daya Serverless untuk Data Integration dan Menggunakan grup sumber daya eksklusif untuk Integrasi Data.

  • Kelompok sumber daya Serverless memungkinkan Anda menentukan batas atas untuk unit komputasi (CU) tugas sinkronisasi. Jika tugas sinkronisasi Anda gagal karena kesalahan kehabisan memori (OOM) akibat sumber daya yang tidak mencukupi, Anda dapat menyesuaikan penggunaan CU untuk kelompok sumber daya tersebut.

Langkah 3: Mengonfigurasi sumber dan tujuan

Di bagian sumber dan tujuan, konfigurasikan tabel tempat membaca data dan tabel tempat menulis data. Anda juga dapat menentukan rentang data yang akan disinkronkan.

Penting

Konfigurasi plugin dapat bervariasi. Bagian berikut memberikan contoh konfigurasi umum. Untuk memeriksa apakah plugin mendukung konfigurasi tertentu dan cara menerapkannya, lihat dokumentasi plugin tersebut. Untuk informasi lebih lanjut, lihat Daftar sumber data.

  • Sumber

  • Operasi

    Deskripsi

    Mengonfigurasi rentang sinkronisasi

    • Beberapa jenis sumber mendukung penyaringan data. Anda dapat menentukan kondisi (klausa WHERE tanpa kata kunci `where`) untuk menyaring data sumber. Saat waktu proses, tugas hanya akan menyinkronkan data yang memenuhi kondisi tersebut. Untuk informasi lebih lanjut, lihat Skenario: Mengonfigurasi tugas sinkronisasi batch untuk data inkremental.

    • Untuk melakukan sinkronisasi inkremental, Anda dapat menggabungkan kondisi filter ini dengan parameter penjadwalan agar menjadi dinamis. Misalnya, dengan gmt_create >= '${bizdate}', tugas hanya akan menyinkronkan data baru dari hari tersebut setiap kali dijalankan. Anda juga perlu memberikan nilai untuk variabel yang didefinisikan di sini saat mengonfigurasi properti penjadwalan. Untuk informasi lebih lanjut, lihat Format parameter penjadwalan yang didukung.

      Metode untuk mengonfigurasi sinkronisasi inkremental berbeda-beda tergantung pada sumber data (plugin).
    • Jika Anda tidak mengonfigurasi kondisi filter, tugas secara default akan menyinkronkan semua data dari tabel.

    Mengonfigurasi kunci shard untuk database relasional

    Tentukan bidang dalam data sumber yang akan digunakan sebagai kunci shard. Tugas sinkronisasi akan membagi data menjadi beberapa tugas berdasarkan kunci ini untuk pembacaan data batch secara konkuren.

    • Kami merekomendasikan menggunakan kunci primer tabel untuk `splitPk` karena kunci primer biasanya terdistribusi merata. Hal ini membantu mencegah hot spot data pada shard yang dibuat.

    • Saat ini, `splitPk` hanya mendukung data integer untuk sharding. Tidak mendukung string, bilangan titik mengambang, tanggal, atau tipe lainnya. Jika Anda menentukan tipe yang tidak didukung, fitur `splitPk` akan diabaikan, dan tugas akan menggunakan saluran tunggal untuk sinkronisasi.

    • Jika Anda tidak menentukan `splitPk`, atau nilainya kosong, tugas sinkronisasi data akan menggunakan saluran tunggal untuk menyinkronkan data tabel.

    • Tidak semua plugin mendukung penentuan kunci shard untuk mengonfigurasi logika sharding tugas. Informasi di atas hanya sebagai contoh. Lihat dokumentasi plugin spesifik Anda. Untuk informasi lebih lanjut, lihat Sumber data yang didukung dan solusi sinkronisasi.

  • Pemrosesan data

    Penting

    Pemrosesan data adalah fitur yang tersedia di Pengembangan Data versi baru. Jika Anda menggunakan versi sebelumnya, Anda harus meningkatkan ruang kerja Anda untuk menggunakan fitur ini. Untuk informasi tentang cara meningkatkan, lihat Panduan peningkatan DataStudio.

    Pemrosesan data memungkinkan Anda memproses data dari tabel sumber menggunakan metode seperti penggantian string, pemrosesan berbantuan AI, dan vektorisasi data sebelum menulis data yang telah diproses ke tabel tujuan.

    image

    1. Klik sakelar untuk mengaktifkan pemrosesan data.

    2. Di Data Processing List, klik Add Node dan pilih jenis pemrosesan data: String Replacement, AI-assisted Processing, atau Data Vectorization. Anda dapat menambahkan beberapa node pemrosesan data, yang akan diproses oleh DataWorks secara berurutan.

    3. Konfigurasikan aturan pemrosesan data sesuai petunjuk. Untuk pemrosesan berbantuan AI dan vektorisasi data, lihat Pemrosesan data cerdas.

      Catatan

      Pemrosesan data memerlukan sumber daya komputasi tambahan, yang meningkatkan beban sumber daya dan waktu proses tugas sinkronisasi data. Untuk menghindari memengaruhi efisiensi sinkronisasi, pertahankan logika pemrosesan sesederhana mungkin.

  • Tujuan

    Operasi

    Deskripsi

    Mengonfigurasi pernyataan yang dieksekusi sebelum dan sesudah sinkronisasi

    Beberapa sumber data mendukung eksekusi pernyataan SQL pada tujuan sebelum data ditulis (pra-sinkronisasi) dan setelah data ditulis (pasca-sinkronisasi).

    MySQL Writer mendukung item konfigurasi `preSql` dan `postSql`, yang memungkinkan Anda mengeksekusi perintah MySQL sebelum atau setelah data ditulis ke MySQL. Misalnya, Anda dapat mengonfigurasi perintah MySQL truncate table tablename di item konfigurasi Pre-SQL Statement (preSql) untuk menghapus data yang ada dari tabel sebelum sinkronisasi.

    Menentukan mode penulisan untuk konflik

    Tentukan cara menulis data ke tujuan ketika terjadi konflik, seperti konflik path atau kunci primer. Konfigurasi ini bervariasi tergantung pada atribut sumber data dan dukungan plugin writer. Untuk detail konfigurasi, lihat dokumentasi plugin writer spesifik.

Langkah 4: Mengonfigurasi pemetaan bidang

Setelah memilih sumber dan tujuan, Anda harus menentukan pemetaan antara kolom sumber dan kolom tujuan. Tugas akan menulis data dari bidang sumber ke bidang tujuan yang sesuai berdasarkan pemetaan ini.

Selama sinkronisasi, ketidakcocokan tipe bidang antara sumber dan tujuan dapat menghasilkan data kotor dan menyebabkan kegagalan penulisan. Untuk mengatur toleransi terhadap data kotor, lihat pengaturan Channel Control pada langkah berikutnya.

Catatan
  • Jika bidang sumber tidak dipetakan ke bidang tujuan, datanya tidak akan disinkronkan.

  • Jika pemetaan otomatis tidak sesuai harapan Anda, Anda dapat menyesuaikan pemetaan secara manual.

  • Jika Anda tidak memerlukan pemetaan untuk bidang tertentu, Anda dapat menghapus baris yang menghubungkan bidang sumber dan tujuan secara manual. Data dari bidang sumber tersebut tidak akan disinkronkan.

Pemetaan berdasarkan nama dan pemetaan berdasarkan baris didukung. Anda juga dapat melakukan operasi berikut:

  • Memberikan nilai ke bidang tujuan: Anda dapat menggunakan Tambah baris untuk menambahkan konstanta, parameter penjadwalan, atau variabel bawaan ke tabel tujuan, seperti '123', '${scheduling_parameter}', atau '#{built_in_variable}#'.

    Catatan

    Saat Anda mengonfigurasi penjadwalan pada langkah berikutnya, Anda dapat memberikan nilai ke parameter penjadwalan. Untuk informasi lebih lanjut tentang cara menggunakan parameter penjadwalan, lihat Format parameter penjadwalan yang didukung.

  • Menambahkan variabel bawaan: Anda dapat menambahkan variabel bawaan secara manual dan memetakannya ke bidang tujuan untuk mengeluarkannya ke node hilir.

    Variabel bawaan yang tersedia untuk setiap plugin adalah sebagai berikut:

    Variabel bawaan

    Deskripsi

    Plugin yang didukung

    '#{DATASOURCE_NAME_SRC}#'

    Nama sumber data sumber

    • MySQL Reader

    • MySQL (sharded) Reader

    • PolarDB Reader

    • PolarDB (sharded) Reader

    • PostgreSQL Reader

    • PolarDB-O Reader

    • PolarDB-O (sharded) Reader

    '#{DB_NAME_SRC}#'

    Nama database tempat tabel sumber berada

    • MySQL Reader

    • MySQL (sharded) Reader

    • PolarDB Reader

    • PolarDB (sharded) Reader

    • PostgreSQL Reader

    • PolarDB-O Reader

    • PolarDB-O (sharded) Reader

    '#{SCHEMA_NAME_SRC}#'

    Nama skema tempat tabel sumber berada

    • PolarDB Reader

    • PolarDB (sharded) Reader

    • PostgreSQL Reader

    • PolarDB-O Reader

    • PolarDB-O (sharded) Reader

    '#{TABLE_NAME_SRC}#'

    Nama tabel sumber

    • MySQL Reader

    • MySQL (sharded) Reader

    • PolarDB Reader

    • PolarDB (sharded) Reader

    • PostgreSQL Reader

    • PolarDB-O Reader

    • PolarDB-O (sharded) Reader

  • Edit Source Fields: Klik Manually Edit Mapping untuk melakukan operasi berikut:

    • Gunakan fungsi yang didukung oleh database sumber untuk memproses bidang. Misalnya, Anda dapat menggunakan `Max(id)` untuk hanya menyinkronkan nilai maksimum.

    • Edit bidang sumber secara manual jika tidak semua bidang ditarik selama proses pemetaan bidang.

    Catatan

    MaxCompute Reader tidak mendukung penggunaan fungsi.

Langkah 5: Mengonfigurasi saluran

Penting

Di Pengembangan Data versi baru, fitur Konfigurasi Saluran berada di bagian Advanced Configuration di sisi kanan antarmuka konfigurasi tugas.

Anda dapat menggunakan kontrol saluran untuk mengonfigurasi properti yang terkait dengan proses sinkronisasi data. Untuk informasi lebih lanjut tentang parameter tersebut, lihat Hubungan antara konkurensi dan throttling untuk sinkronisasi batch.

Parameter

Deskripsi

Maximum Concurrency

Menentukan jumlah maksimum thread untuk membaca dari sumber atau menulis ke tujuan secara konkuren untuk tugas saat ini.

Catatan
  • Karena faktor-faktor seperti spesifikasi sumber daya, konkurensi aktual saat waktu proses mungkin kurang dari atau sama dengan nilai yang dikonfigurasi di sini. Biaya untuk kelompok sumber daya uji didasarkan pada konkurensi aktual. Untuk informasi lebih lanjut, lihat Metrik kinerja.

  • Biaya penjadwalan tugas terkait dengan jumlah tugas sinkronisasi batch, bukan konkurensi yang dikonfigurasi untuk tugas tersebut.

Synchronization Rate

Mengontrol laju sinkronisasi.

  • Throttling: Anda dapat mengontrol laju sinkronisasi dengan throttling untuk melindungi database sumber dan menghindari tekanan berlebihan akibat kecepatan ekstraksi yang tinggi. Batas kecepatan minimum adalah 1 MB/detik.

  • Tanpa throttling: Tanpa throttling, tugas akan memberikan kinerja transfer maksimum yang mungkin dalam batas konkurensi yang dikonfigurasi dan lingkungan perangkat keras yang tersedia.

Catatan

Ukuran lalu lintas adalah metrik dari Data Integration itu sendiri dan tidak mewakili lalu lintas kartu antarmuka jaringan (NIC) yang sebenarnya. Biasanya, lalu lintas NIC adalah 1 hingga 2 kali lalu lintas saluran. Inflasi lalu lintas aktual tergantung pada serialisasi transfer sistem penyimpanan data.

Dirty Data Policy

Data kotor mengacu pada catatan yang gagal ditulis ke tujuan karena pengecualian seperti konflik tipe atau pelanggaran batasan. Sinkronisasi batch mendukung definisi kebijakan data kotor, yang memungkinkan Anda menetapkan toleransi terhadap data kotor dan dampaknya terhadap tugas.

  • Jika tidak dikonfigurasi, data kotor diizinkan secara default, artinya tidak akan memengaruhi eksekusi tugas.

  • Jika diatur ke 0, tidak ada data kotor yang diizinkan. Jika ada data kotor yang dihasilkan selama sinkronisasi, tugas akan gagal.

  • Jika data kotor diizinkan dan ambang batas ditetapkan:

    • Jika jumlah data kotor berada dalam ambang batas, tugas sinkronisasi akan mengabaikan data kotor tersebut (tidak akan ditulis ke tujuan) dan berjalan secara normal.

    • Jika jumlah data kotor melebihi ambang batas, tugas sinkronisasi akan gagal.

Penting

Jumlah data kotor yang berlebihan dapat memengaruhi kecepatan keseluruhan tugas sinkronisasi.

Distributed Processing Capability

Mengontrol apakah akan menggunakan mode terdistribusi untuk mengeksekusi tugas saat ini.

  • Diaktifkan: Mode eksekusi terdistribusi dapat membagi tugas Anda menjadi beberapa proses yang berjalan secara konkuren, menembus hambatan proses tunggal dan meningkatkan efisiensi sinkronisasi.

  • Dimatikan: Tugas berjalan sebagai proses tunggal.

Jika Anda memiliki persyaratan tinggi terhadap kinerja sinkronisasi, Anda dapat menggunakan mode terdistribusi. Mode terdistribusi juga dapat menggunakan sumber daya mesin yang terfragmentasi, yang ramah terhadap pemanfaatan sumber daya.

Penting
  • Kemampuan pemrosesan terdistribusi hanya dapat diaktifkan ketika konkurensi 8 atau lebih besar.

  • Mengaktifkan sakelar pemrosesan terdistribusi mengonsumsi lebih banyak sumber daya. Jika terjadi kesalahan OOM saat waktu proses, coba matikan sakelar ini.

Time Zone

Jika sumber dan tujuan memerlukan sinkronisasi lintas zona waktu, Anda dapat mengatur zona waktu sumber untuk melakukan konversi zona waktu.

Catatan

Selain konfigurasi di atas, kecepatan sinkronisasi keseluruhan juga dipengaruhi oleh faktor-faktor seperti kinerja sumber data sumber dan lingkungan jaringan sinkronisasi. Untuk informasi lebih lanjut tentang kecepatan sinkronisasi dan optimasi, lihat Mempercepat atau membatasi kecepatan tugas sinkronisasi batch.

Langkah 6: Mengonfigurasi properti penjadwalan

Untuk tugas sinkronisasi batch yang dijadwalkan secara berkala, Anda perlu mengonfigurasi properti penjadwalannya. Di halaman edit node, klik Scheduling Configuration di sebelah kanan untuk mengonfigurasinya.

Anda harus mengonfigurasi parameter penjadwalan, kebijakan penjadwalan, waktu penjadwalan, dan dependensi penjadwalan untuk tugas sinkronisasi. Proses konfigurasi sama seperti node pengembangan data lainnya dan tidak dijelaskan dalam topik ini.

Untuk informasi lebih lanjut tentang cara menggunakan parameter penjadwalan, lihat Skenario umum parameter penjadwalan di Data Integration.

Langkah 7: Menguji dan menerbitkan tugas

  • Konfigurasikan parameter uji.

    Di halaman konfigurasi tugas sinkronisasi batch, Anda dapat mengklik Test Configuration di sebelah kanan dan mengonfigurasi parameter berikut untuk menjalankan pengujian.

    Item konfigurasi

    Deskripsi

    Resource Group

    Pilih kelompok sumber daya yang terhubung ke sumber data.

    Script Parameters

    Berikan nilai ke parameter placeholder dalam tugas sinkronisasi data. Misalnya, jika tugas dikonfigurasi dengan parameter ${bizdate}, Anda perlu mengonfigurasi parameter tanggal dalam format yyyymmdd.

  • Jalankan tugas.

    Klik ikon image Jalankan di bilah alat untuk menjalankan dan menguji tugas di Pengembangan Data. Setelah tugas dijalankan, Anda dapat membuat node jenis tabel tujuan untuk mengkueri data tabel tujuan dan memeriksa apakah data yang disinkronkan sesuai harapan Anda.

  • Terbitkan tugas.

    Setelah tugas berhasil dijalankan dan perlu dijadwalkan secara berkala, klik ikon image di bilah alat halaman konfigurasi node untuk menerbitkan tugas ke lingkungan produksi. Untuk informasi lebih lanjut tentang cara menerbitkan tugas, lihat Menerbitkan tugas.

Batasan

  • Beberapa sumber data tidak mendukung konfigurasi tugas sinkronisasi batch di antarmuka tanpa kode.

    Setelah Anda memilih sumber data, jika muncul pesan yang menunjukkan bahwa antarmuka tanpa kode tidak didukung, klik ikon image.png di bilah alat untuk beralih ke editor kode dan lanjutkan mengonfigurasi tugas. Untuk informasi lebih lanjut, lihat Mengonfigurasi tugas di editor kode.

    image.png

  • Antarmuka tanpa kode mudah digunakan tetapi tidak mendukung beberapa fitur lanjutan. Jika Anda memerlukan manajemen konfigurasi yang lebih detail halus, Anda dapat mengklik ikon konversi ke skrip di bilah alat untuk beralih ke editor kode guna mengonfigurasi tugas sinkronisasi batch.

Langkah selanjutnya

Setelah tugas diterbitkan ke lingkungan produksi, Anda dapat membuka Pusat Operasi di lingkungan produksi untuk melihat tugas terjadwal. Untuk informasi lebih lanjut tentang cara menjalankan dan mengelola tugas sinkronisasi batch, memantau statusnya, serta melakukan O&M pada kelompok sumber daya, lihat O&M untuk tugas sinkronisasi batch.

Referensi