Data Integration menyediakan antarmuka tanpa kode yang memungkinkan Anda melakukan sinkronisasi periodik data lengkap atau inkremental dari tabel sumber—termasuk tabel ter-shard—ke tabel tujuan tanpa menulis kode. Anda dapat mengonfigurasi tugas sinkronisasi dengan memilih sumber dan tujuan melalui antarmuka pengguna serta mengatur parameter penjadwalan di DataWorks. Topik ini menjelaskan konfigurasi umum untuk tugas sinkronisasi batch di antarmuka tanpa kode. Konfigurasi dapat berbeda tergantung pada sumber data yang digunakan. Untuk informasi lebih lanjut, lihat Sumber data yang didukung dan solusi sinkronisasi.
Persiapan
Konfigurasikan sumber data. Sebelum mengonfigurasi tugas sinkronisasi Data Integration, pastikan Anda telah mengonfigurasi database sumber dan tujuan di Manajemen Sumber Data di DataWorks. Untuk informasi lebih lanjut tentang konfigurasi sumber data, lihat Daftar sumber data.
CatatanUntuk informasi lebih lanjut tentang sumber data yang didukung oleh sinkronisasi batch dan konfigurasinya, lihat Sumber data yang didukung dan solusi sinkronisasi.
Untuk informasi lebih lanjut tentang fitur sumber data, lihat Manajemen Sumber Data.
Beli kelompok sumber daya dengan spesifikasi yang sesuai dan hubungkan ke ruang kerja. Untuk informasi lebih lanjut, lihat Menggunakan kelompok sumber daya Serverless untuk Data Integration dan Menggunakan grup sumber daya eksklusif untuk Integrasi Data.
Buat koneksi jaringan antara kelompok sumber daya dan sumber data. Untuk informasi lebih lanjut, lihat Mengonfigurasi koneksi jaringan.
Langkah 1: Membuat node sinkronisasi batch
Pengembangan Data Baru
Masuk ke Konsol DataWorks. Beralih ke wilayah tujuan. Di panel navigasi sebelah kiri, pilih . Pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Enter Data Development.
Buat alur kerja. Untuk informasi lebih lanjut, lihat Mengatur alur kerja.
Buat node sinkronisasi batch. Anda dapat menggunakan salah satu metode berikut:
Metode 1: Klik ikon
di pojok kanan atas daftar alur kerja dan pilih .Metode 2: Klik ganda nama alur kerja dan seret node Batch Synchronization dari direktori Data Integration ke editor alur kerja di sebelah kanan.
Konfigurasikan informasi dasar, sumber, dan tujuan untuk node tersebut, lalu klik Confirm.
Pengembangan Data Sebelumnya
Masuk ke Konsol DataWorks. Beralih ke wilayah tujuan. Di panel navigasi sebelah kiri, klik . Pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Enter Data Development.
Buat alur kerja. Untuk informasi lebih lanjut, lihat Membuat alur kerja.
Buat node sinkronisasi batch. Anda dapat menggunakan salah satu metode berikut:
Metode 1: Perluas alur kerja, klik kanan Data Integration, lalu pilih .
Metode 2: Klik ganda nama alur kerja dan seret node Batch Synchronization dari direktori Data Integration ke editor alur kerja di sebelah kanan.
Buat node sinkronisasi batch sesuai petunjuk.
Langkah 2: Mengonfigurasi sumber data dan kelompok sumber daya
Pilih sumber data dan tujuan data untuk tugas sinkronisasi batch.
Pilih kelompok sumber daya dan kuota sumber daya untuk menjalankan tugas. Untuk konfigurasi kuota sumber daya yang direkomendasikan, lihat Metrik kinerja Data Integration.
Uji konektivitas jaringan antara sumber data dan kelompok sumber daya. Jika koneksi gagal, konfigurasikan koneksi jaringan sesuai petunjuk atau seperti yang dijelaskan dalam dokumentasi. Untuk informasi lebih lanjut, lihat Mengonfigurasi koneksi jaringan.
Jika Anda telah membuat kelompok sumber daya tetapi tidak ditampilkan, periksa apakah kelompok sumber daya tersebut telah dihubungkan ke ruang kerja. Untuk informasi lebih lanjut, lihat Menggunakan kelompok sumber daya Serverless untuk Data Integration dan Menggunakan grup sumber daya eksklusif untuk Integrasi Data.
Kelompok sumber daya Serverless memungkinkan Anda menentukan batas atas untuk unit komputasi (CU) tugas sinkronisasi. Jika tugas sinkronisasi Anda gagal karena kesalahan kehabisan memori (OOM) akibat sumber daya yang tidak mencukupi, Anda dapat menyesuaikan penggunaan CU untuk kelompok sumber daya tersebut.
Langkah 3: Mengonfigurasi sumber dan tujuan
Di bagian sumber dan tujuan, konfigurasikan tabel tempat membaca data dan tabel tempat menulis data. Anda juga dapat menentukan rentang data yang akan disinkronkan.
Konfigurasi plugin dapat bervariasi. Bagian berikut memberikan contoh konfigurasi umum. Untuk memeriksa apakah plugin mendukung konfigurasi tertentu dan cara menerapkannya, lihat dokumentasi plugin tersebut. Untuk informasi lebih lanjut, lihat Daftar sumber data.
Sumber
Beberapa jenis sumber mendukung penyaringan data. Anda dapat menentukan kondisi (klausa
WHEREtanpa kata kunci `where`) untuk menyaring data sumber. Saat waktu proses, tugas hanya akan menyinkronkan data yang memenuhi kondisi tersebut. Untuk informasi lebih lanjut, lihat Skenario: Mengonfigurasi tugas sinkronisasi batch untuk data inkremental.Untuk melakukan sinkronisasi inkremental, Anda dapat menggabungkan kondisi filter ini dengan parameter penjadwalan agar menjadi dinamis. Misalnya, dengan
gmt_create >= '${bizdate}', tugas hanya akan menyinkronkan data baru dari hari tersebut setiap kali dijalankan. Anda juga perlu memberikan nilai untuk variabel yang didefinisikan di sini saat mengonfigurasi properti penjadwalan. Untuk informasi lebih lanjut, lihat Format parameter penjadwalan yang didukung.Metode untuk mengonfigurasi sinkronisasi inkremental berbeda-beda tergantung pada sumber data (plugin).
Jika Anda tidak mengonfigurasi kondisi filter, tugas secara default akan menyinkronkan semua data dari tabel.
Kami merekomendasikan menggunakan kunci primer tabel untuk `splitPk` karena kunci primer biasanya terdistribusi merata. Hal ini membantu mencegah hot spot data pada shard yang dibuat.
Saat ini, `splitPk` hanya mendukung data integer untuk sharding. Tidak mendukung string, bilangan titik mengambang, tanggal, atau tipe lainnya. Jika Anda menentukan tipe yang tidak didukung, fitur `splitPk` akan diabaikan, dan tugas akan menggunakan saluran tunggal untuk sinkronisasi.
Jika Anda tidak menentukan `splitPk`, atau nilainya kosong, tugas sinkronisasi data akan menggunakan saluran tunggal untuk menyinkronkan data tabel.
Tidak semua plugin mendukung penentuan kunci shard untuk mengonfigurasi logika sharding tugas. Informasi di atas hanya sebagai contoh. Lihat dokumentasi plugin spesifik Anda. Untuk informasi lebih lanjut, lihat Sumber data yang didukung dan solusi sinkronisasi.
Pemrosesan data
PentingPemrosesan data adalah fitur yang tersedia di Pengembangan Data versi baru. Jika Anda menggunakan versi sebelumnya, Anda harus meningkatkan ruang kerja Anda untuk menggunakan fitur ini. Untuk informasi tentang cara meningkatkan, lihat Panduan peningkatan DataStudio.
Pemrosesan data memungkinkan Anda memproses data dari tabel sumber menggunakan metode seperti penggantian string, pemrosesan berbantuan AI, dan vektorisasi data sebelum menulis data yang telah diproses ke tabel tujuan.

Klik sakelar untuk mengaktifkan pemrosesan data.
Di Data Processing List, klik Add Node dan pilih jenis pemrosesan data: String Replacement, AI-assisted Processing, atau Data Vectorization. Anda dapat menambahkan beberapa node pemrosesan data, yang akan diproses oleh DataWorks secara berurutan.
Konfigurasikan aturan pemrosesan data sesuai petunjuk. Untuk pemrosesan berbantuan AI dan vektorisasi data, lihat Pemrosesan data cerdas.
CatatanPemrosesan data memerlukan sumber daya komputasi tambahan, yang meningkatkan beban sumber daya dan waktu proses tugas sinkronisasi data. Untuk menghindari memengaruhi efisiensi sinkronisasi, pertahankan logika pemrosesan sesederhana mungkin.
Tujuan
Operasi
Deskripsi
Mengonfigurasi pernyataan yang dieksekusi sebelum dan sesudah sinkronisasi
Beberapa sumber data mendukung eksekusi pernyataan SQL pada tujuan sebelum data ditulis (pra-sinkronisasi) dan setelah data ditulis (pasca-sinkronisasi).
MySQL Writer mendukung item konfigurasi `preSql` dan `postSql`, yang memungkinkan Anda mengeksekusi perintah MySQL sebelum atau setelah data ditulis ke MySQL. Misalnya, Anda dapat mengonfigurasi perintah MySQL
truncate table tablenamedi item konfigurasi Pre-SQL Statement (preSql) untuk menghapus data yang ada dari tabel sebelum sinkronisasi.Menentukan mode penulisan untuk konflik
Tentukan cara menulis data ke tujuan ketika terjadi konflik, seperti konflik path atau kunci primer. Konfigurasi ini bervariasi tergantung pada atribut sumber data dan dukungan plugin writer. Untuk detail konfigurasi, lihat dokumentasi plugin writer spesifik.
Operasi | Deskripsi |
Mengonfigurasi rentang sinkronisasi | |
Mengonfigurasi kunci shard untuk database relasional | Tentukan bidang dalam data sumber yang akan digunakan sebagai kunci shard. Tugas sinkronisasi akan membagi data menjadi beberapa tugas berdasarkan kunci ini untuk pembacaan data batch secara konkuren. |
Langkah 4: Mengonfigurasi pemetaan bidang
Setelah memilih sumber dan tujuan, Anda harus menentukan pemetaan antara kolom sumber dan kolom tujuan. Tugas akan menulis data dari bidang sumber ke bidang tujuan yang sesuai berdasarkan pemetaan ini.
Selama sinkronisasi, ketidakcocokan tipe bidang antara sumber dan tujuan dapat menghasilkan data kotor dan menyebabkan kegagalan penulisan. Untuk mengatur toleransi terhadap data kotor, lihat pengaturan Channel Control pada langkah berikutnya.
Jika bidang sumber tidak dipetakan ke bidang tujuan, datanya tidak akan disinkronkan.
Jika pemetaan otomatis tidak sesuai harapan Anda, Anda dapat menyesuaikan pemetaan secara manual.
Jika Anda tidak memerlukan pemetaan untuk bidang tertentu, Anda dapat menghapus baris yang menghubungkan bidang sumber dan tujuan secara manual. Data dari bidang sumber tersebut tidak akan disinkronkan.
Pemetaan berdasarkan nama dan pemetaan berdasarkan baris didukung. Anda juga dapat melakukan operasi berikut:
Memberikan nilai ke bidang tujuan: Anda dapat menggunakan Tambah baris untuk menambahkan konstanta, parameter penjadwalan, atau variabel bawaan ke tabel tujuan, seperti '123', '${scheduling_parameter}', atau '#{built_in_variable}#'.
CatatanSaat Anda mengonfigurasi penjadwalan pada langkah berikutnya, Anda dapat memberikan nilai ke parameter penjadwalan. Untuk informasi lebih lanjut tentang cara menggunakan parameter penjadwalan, lihat Format parameter penjadwalan yang didukung.
Menambahkan variabel bawaan: Anda dapat menambahkan variabel bawaan secara manual dan memetakannya ke bidang tujuan untuk mengeluarkannya ke node hilir.
Variabel bawaan yang tersedia untuk setiap plugin adalah sebagai berikut:
Variabel bawaan
Deskripsi
Plugin yang didukung
'
#{DATASOURCE_NAME_SRC}#'Nama sumber data sumber
MySQL Reader
MySQL (sharded) Reader
PolarDB Reader
PolarDB (sharded) Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O (sharded) Reader
'
#{DB_NAME_SRC}#'Nama database tempat tabel sumber berada
MySQL Reader
MySQL (sharded) Reader
PolarDB Reader
PolarDB (sharded) Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O (sharded) Reader
'
#{SCHEMA_NAME_SRC}#'Nama skema tempat tabel sumber berada
PolarDB Reader
PolarDB (sharded) Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O (sharded) Reader
'
#{TABLE_NAME_SRC}#'Nama tabel sumber
MySQL Reader
MySQL (sharded) Reader
PolarDB Reader
PolarDB (sharded) Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O (sharded) Reader
Edit Source Fields: Klik Manually Edit Mapping untuk melakukan operasi berikut:
Gunakan fungsi yang didukung oleh database sumber untuk memproses bidang. Misalnya, Anda dapat menggunakan `Max(id)` untuk hanya menyinkronkan nilai maksimum.
Edit bidang sumber secara manual jika tidak semua bidang ditarik selama proses pemetaan bidang.
CatatanMaxCompute Reader tidak mendukung penggunaan fungsi.
Langkah 5: Mengonfigurasi saluran
Di Pengembangan Data versi baru, fitur Konfigurasi Saluran berada di bagian Advanced Configuration di sisi kanan antarmuka konfigurasi tugas.
Anda dapat menggunakan kontrol saluran untuk mengonfigurasi properti yang terkait dengan proses sinkronisasi data. Untuk informasi lebih lanjut tentang parameter tersebut, lihat Hubungan antara konkurensi dan throttling untuk sinkronisasi batch.
Parameter | Deskripsi |
Maximum Concurrency | Menentukan jumlah maksimum thread untuk membaca dari sumber atau menulis ke tujuan secara konkuren untuk tugas saat ini. Catatan
|
Synchronization Rate | Mengontrol laju sinkronisasi.
Catatan Ukuran lalu lintas adalah metrik dari Data Integration itu sendiri dan tidak mewakili lalu lintas kartu antarmuka jaringan (NIC) yang sebenarnya. Biasanya, lalu lintas NIC adalah 1 hingga 2 kali lalu lintas saluran. Inflasi lalu lintas aktual tergantung pada serialisasi transfer sistem penyimpanan data. |
Dirty Data Policy | Data kotor mengacu pada catatan yang gagal ditulis ke tujuan karena pengecualian seperti konflik tipe atau pelanggaran batasan. Sinkronisasi batch mendukung definisi kebijakan data kotor, yang memungkinkan Anda menetapkan toleransi terhadap data kotor dan dampaknya terhadap tugas.
Penting Jumlah data kotor yang berlebihan dapat memengaruhi kecepatan keseluruhan tugas sinkronisasi. |
Distributed Processing Capability | Mengontrol apakah akan menggunakan mode terdistribusi untuk mengeksekusi tugas saat ini.
Jika Anda memiliki persyaratan tinggi terhadap kinerja sinkronisasi, Anda dapat menggunakan mode terdistribusi. Mode terdistribusi juga dapat menggunakan sumber daya mesin yang terfragmentasi, yang ramah terhadap pemanfaatan sumber daya. Penting
|
Time Zone | Jika sumber dan tujuan memerlukan sinkronisasi lintas zona waktu, Anda dapat mengatur zona waktu sumber untuk melakukan konversi zona waktu. |
Selain konfigurasi di atas, kecepatan sinkronisasi keseluruhan juga dipengaruhi oleh faktor-faktor seperti kinerja sumber data sumber dan lingkungan jaringan sinkronisasi. Untuk informasi lebih lanjut tentang kecepatan sinkronisasi dan optimasi, lihat Mempercepat atau membatasi kecepatan tugas sinkronisasi batch.
Langkah 6: Mengonfigurasi properti penjadwalan
Untuk tugas sinkronisasi batch yang dijadwalkan secara berkala, Anda perlu mengonfigurasi properti penjadwalannya. Di halaman edit node, klik Scheduling Configuration di sebelah kanan untuk mengonfigurasinya.
Anda harus mengonfigurasi parameter penjadwalan, kebijakan penjadwalan, waktu penjadwalan, dan dependensi penjadwalan untuk tugas sinkronisasi. Proses konfigurasi sama seperti node pengembangan data lainnya dan tidak dijelaskan dalam topik ini.
Untuk informasi tentang konfigurasi penjadwalan di Pengembangan Data versi baru, lihat Penjadwalan node (versi baru).
Untuk informasi tentang konfigurasi penjadwalan di Pengembangan Data versi sebelumnya, lihat Konfigurasi penjadwalan node (versi sebelumnya).
Untuk informasi lebih lanjut tentang cara menggunakan parameter penjadwalan, lihat Skenario umum parameter penjadwalan di Data Integration.
Langkah 7: Menguji dan menerbitkan tugas
Konfigurasikan parameter uji.
Di halaman konfigurasi tugas sinkronisasi batch, Anda dapat mengklik Test Configuration di sebelah kanan dan mengonfigurasi parameter berikut untuk menjalankan pengujian.
Item konfigurasi
Deskripsi
Resource Group
Pilih kelompok sumber daya yang terhubung ke sumber data.
Script Parameters
Berikan nilai ke parameter placeholder dalam tugas sinkronisasi data. Misalnya, jika tugas dikonfigurasi dengan parameter
${bizdate}, Anda perlu mengonfigurasi parameter tanggal dalam formatyyyymmdd.Jalankan tugas.
Klik ikon
Jalankan di bilah alat untuk menjalankan dan menguji tugas di Pengembangan Data. Setelah tugas dijalankan, Anda dapat membuat node jenis tabel tujuan untuk mengkueri data tabel tujuan dan memeriksa apakah data yang disinkronkan sesuai harapan Anda.Terbitkan tugas.
Setelah tugas berhasil dijalankan dan perlu dijadwalkan secara berkala, klik ikon
di bilah alat halaman konfigurasi node untuk menerbitkan tugas ke lingkungan produksi. Untuk informasi lebih lanjut tentang cara menerbitkan tugas, lihat Menerbitkan tugas.
Batasan
Beberapa sumber data tidak mendukung konfigurasi tugas sinkronisasi batch di antarmuka tanpa kode.
Setelah Anda memilih sumber data, jika muncul pesan yang menunjukkan bahwa antarmuka tanpa kode tidak didukung, klik ikon
di bilah alat untuk beralih ke editor kode dan lanjutkan mengonfigurasi tugas. Untuk informasi lebih lanjut, lihat Mengonfigurasi tugas di editor kode.
Antarmuka tanpa kode mudah digunakan tetapi tidak mendukung beberapa fitur lanjutan. Jika Anda memerlukan manajemen konfigurasi yang lebih detail halus, Anda dapat mengklik ikon konversi ke skrip di bilah alat untuk beralih ke editor kode guna mengonfigurasi tugas sinkronisasi batch.
Langkah selanjutnya
Setelah tugas diterbitkan ke lingkungan produksi, Anda dapat membuka Pusat Operasi di lingkungan produksi untuk melihat tugas terjadwal. Untuk informasi lebih lanjut tentang cara menjalankan dan mengelola tugas sinkronisasi batch, memantau statusnya, serta melakukan O&M pada kelompok sumber daya, lihat O&M untuk tugas sinkronisasi batch.