Topik ini menjelaskan cara menggunakan antarmuka pengguna (UI) tanpa kode untuk mengonfigurasi node sinkronisasi batch yang dijadwalkan secara berkala serta cara melakukan commit dan menerapkan node tersebut.
Prasyarat
- Data sumber yang diperlukan telah dikonfigurasi. Sebelum mengonfigurasi node sinkronisasi data, Anda harus menyiapkan data sumber dari mana Anda ingin membaca data dan ke mana Anda ingin menulis data. Dengan demikian, Anda dapat memilih data sumber saat mengonfigurasi node sinkronisasi batch. Untuk informasi lebih lanjut tentang jenis data sumber, Plugin Reader, dan Plugin Writer yang didukung oleh sinkronisasi batch, lihat Jenis Data Sumber yang Didukung, Plugin Reader, dan Plugin Writer. Catatan Untuk informasi tentang item-item yang perlu dipahami sebelum mengonfigurasi data sumber, lihat Ikhtisar.
- Grup sumber daya eksklusif untuk Data Integration yang sesuai dengan kebutuhan bisnis Anda telah dibeli. Untuk informasi lebih lanjut, lihat Buat dan Gunakan Grup Sumber Daya Eksklusif untuk Data Integration.
- Koneksi jaringan antara grup sumber daya eksklusif untuk Data Integration dan data sumber telah dibuat. Untuk informasi lebih lanjut, lihat Solusi Konektivitas Jaringan.
Pergi ke halaman DataStudio
- Masuk ke Konsol DataWorks.
- Di panel navigasi kiri, klik Workspaces.
- Di bilah navigasi atas, pilih wilayah tempat workspace berada. Di halaman Workspaces, temukan workspace dan klik DataStudio di kolom Actions. Halaman DataStudio akan terbuka.
Prosedur
- Langkah 1: Buat Node Sinkronisasi Batch
- Langkah 2: Konfigurasikan Node Sinkronisasi Batch
- Buat koneksi jaringan antara grup sumber daya eksklusif untuk Data Integration dan data sumber.
- Pilih tabel dari mana Anda ingin membaca data dan tabel ke mana Anda ingin menulis data, serta tentukan kondisi filter saat mengonfigurasi sumber.
- Konfigurasikan pemetaan bidang.
- Konfigurasikan kebijakan kontrol saluran, seperti laju transmisi maksimum dan pengaturan untuk data kotor.
- Konfigurasikan properti penjadwalan untuk node sinkronisasi batch.
- Langkah 3: Commit dan Terapkan Node Sinkronisasi Batch
Langkah 1: Buat node sinkronisasi batch
- Buat alur kerja. Untuk informasi lebih lanjut, lihat Buat Alur Kerja.
- Buat node sinkronisasi batch.Anda dapat menggunakan salah satu metode berikut untuk membuat node sinkronisasi batch:
- Metode 1: Masuk ke Konsol DataWorks. Di panel navigasi kiri, klik Workspaces. Di halaman Workspaces, temukan workspace tempat Anda ingin membuat node sinkronisasi batch dan klik DataStudio di kolom Actions. Di panel Scheduled Workflow halaman DataStudio, temukan alur kerja yang telah dibuat dan klik namanya. Klik kanan Data Integration dan pilih .
- Metode 2: Masuk ke Konsol DataWorks. Di panel navigasi kiri, klik Workspaces. Di halaman Workspaces, temukan workspace tempat Anda ingin membuat node sinkronisasi batch dan klik DataStudio di kolom Actions. Di panel Scheduled Workflow halaman DataStudio, temukan alur kerja yang telah dibuat dan klik dua kali namanya. Di bagian Data Integration tab pengeditan alur kerja yang muncul, klik Batch Synchronization.
- Di kotak dialog Create Node, konfigurasikan parameter untuk membuat node sinkronisasi batch.
Langkah 2: Konfigurasikan node sinkronisasi batch
- Buat koneksi jaringan antara grup sumber daya eksklusif untuk Data Integration dan data sumber.Pilih sumber, tujuan, dan grup sumber daya eksklusif untuk Data Integration, lalu buat koneksi jaringan antara grup sumber daya dan data sumber.
- Anda dapat menggunakan node sinkronisasi batch untuk menyinkronkan data dari tabel dalam database bersharding ke tabel tunggal. Untuk informasi lebih lanjut, lihat Konfigurasikan Tugas Sinkronisasi Batch untuk Menyinkronkan Data dari Tabel dalam Database Bersharding.
- Jika koneksi jaringan antara grup sumber daya eksklusif untuk Data Integration dan data sumber tidak dapat dibuat, Anda dapat mengonfigurasi konektivitas jaringan sesuai petunjuk atau merujuk pada topik terkait. Untuk informasi lebih lanjut, lihat Solusi Konektivitas Jaringan.
Penting Item yang harus Anda konfigurasikan bervariasi berdasarkan Plugin Reader atau Writer. Tabel berikut menjelaskan item konfigurasi umum yang diperlukan saat mengonfigurasi node sinkronisasi batch. Untuk informasi tentang item konfigurasi yang didukung oleh Plugin Reader atau Writer dan cara mengonfigurasinya, lihat topik untuk Plugin Reader atau Writer terkait. Untuk informasi lebih lanjut tentang jenis data sumber, Plugin Reader, dan Plugin Writer yang didukung oleh sinkronisasi batch, lihat Jenis Data Sumber yang Didukung, Plugin Reader, dan Plugin Writer. - Klik Next Step untuk mengonfigurasi sumber dan tujuan untuk node sinkronisasi batch.
- Pilih tabel dari mana Anda ingin membaca data dan tabel ke mana Anda ingin menulis data.Di bagian pemilihan data sumber, pilih tabel dari mana Anda ingin membaca data dan tabel ke mana Anda ingin menulis data, serta tentukan kondisi filter saat mengonfigurasi sumber.
- Item konfigurasi untuk sumber
Item konfigurasi Deskripsi Kondisi filter - Jika Anda menentukan filter condition setelah memilih tabel dari mana Anda ingin membaca data, hanya data yang memenuhi kondisi filter dalam tabel yang dapat disinkronkan. Anda dapat menggunakan kondisi filter bersama dengan parameter penjadwalan. Dengan cara ini, kondisi filter dapat berubah secara dinamis dengan pengaturan parameter penjadwalan, dan data inkremental dapat disinkronkan. Konfigurasi untuk sinkronisasi inkremental dan implementasi sinkronisasi inkremental bervariasi berdasarkan jenis Plugin Reader. Untuk informasi lebih lanjut, lihat Konfigurasikan node sinkronisasi batch untuk menyinkronkan hanya data inkremental.Catatan
- Saat Anda mengonfigurasi properti penjadwalan untuk node sinkronisasi batch, Anda dapat memberikan nilai kepada variabel yang Anda tentukan dalam kondisi filter. Anda dapat mengonfigurasi parameter penjadwalan untuk node sinkronisasi batch untuk memungkinkan data lengkap atau inkremental di sumber ditulis ke partisi berbasis waktu di tabel tujuan. Untuk informasi lebih lanjut, lihat Format yang didukung untuk parameter penjadwalan.
- Sintaks kondisi filter yang digunakan untuk mengimplementasikan sinkronisasi inkremental hampir sama dengan sintaks yang didukung oleh database. Selama sinkronisasi data, node sinkronisasi batch menggunakan pernyataan SQL lengkap yang diperoleh berdasarkan kondisi filter yang ditentukan untuk mengekstraksi data dari sumber.
- Secara default, jika Anda tidak menentukan kondisi filter, data lengkap di sumber disinkronkan.
Kunci shard untuk database relasional Kunci shard menentukan bidang berdasarkan mana data sumber di-shard. Setelah Anda menentukan kunci shard, data sumber di-shard dan didistribusikan ke beberapa shard. Dengan cara ini, node sinkronisasi batch dapat menjalankan thread paralel untuk membaca data secara bertahap.Catatan- Kami merekomendasikan Anda menentukan nama kolom kunci utama tabel sumber sebagai kunci shard. Dengan cara ini, data dapat didistribusikan secara merata ke shard yang berbeda berdasarkan kolom kunci utama, bukan hanya intensif didistribusikan ke shard tertentu.
- Kunci shard dapat digunakan untuk meng-shard data hanya dari tipe data integer. Jika Anda menggunakan kunci shard untuk meng-shard data dari tipe data yang tidak didukung, node sinkronisasi batch mengabaikan kunci shard yang Anda tentukan dan menggunakan thread tunggal untuk membaca data.
- Jika tidak ada kunci shard yang ditentukan, node sinkronisasi data menggunakan thread tunggal untuk membaca data.
- Dukungan Plugin Reader untuk konfigurasi kunci shard bervariasi berdasarkan jenis Plugin Reader. Instruksi yang diberikan dalam topik ini hanya untuk referensi. Anda dapat merujuk ke topik untuk Plugin Reader untuk memeriksa apakah Plugin Reader mendukung konfigurasi kunci shard. Untuk informasi lebih lanjut tentang jenis data sumber, Plugin Reader, dan Plugin Writer yang didukung oleh sinkronisasi batch, lihat Jenis data sumber yang didukung, Plugin Reader, dan Plugin Writer.
- Jika Anda menentukan filter condition setelah memilih tabel dari mana Anda ingin membaca data, hanya data yang memenuhi kondisi filter dalam tabel yang dapat disinkronkan. Anda dapat menggunakan kondisi filter bersama dengan parameter penjadwalan. Dengan cara ini, kondisi filter dapat berubah secara dinamis dengan pengaturan parameter penjadwalan, dan data inkremental dapat disinkronkan. Konfigurasi untuk sinkronisasi inkremental dan implementasi sinkronisasi inkremental bervariasi berdasarkan jenis Plugin Reader. Untuk informasi lebih lanjut, lihat Konfigurasikan node sinkronisasi batch untuk menyinkronkan hanya data inkremental.
- Item konfigurasi untuk tujuan
Item Konfigurasi Deskripsi Pernyataan SQL yang ingin Anda jalankan sebelum dan setelah sinkronisasi data DataWorks memungkinkan Anda menjalankan pernyataan SQL sebelum dan setelah data ditulis ke jenis tujuan tertentu. Sebagai contoh, saat mengonfigurasi node sinkronisasi batch yang menggunakan MySQL Writer, Anda dapat mengonfigurasi pernyataan SQL
truncate table tablenamesebagai pernyataan yang akan dijalankan sebelum data ditulis ke tujuan. Pernyataan ini digunakan untuk menghapus data yang ada di tabel tertentu. Anda juga dapat mengonfigurasi pernyataan SQL sebagai pernyataan yang akan dijalankan setelah data ditulis ke tujuan.Mode tulis yang digunakan saat terjadi konflik Anda dapat menentukan mode tulis yang digunakan untuk menulis data ke tujuan saat terjadi konflik, seperti konflik jalur atau konflik kunci utama. Konfigurasi bervariasi berdasarkan atribut tujuan dan dukungan Plugin Writer. Untuk mengonfigurasi item ini, merujuk ke topik untuk Plugin Writer terkait.
- Item konfigurasi untuk sumber
- Konfigurasikan pemetaan bidang.Setelah pemetaan antara bidang sumber dan bidang tujuan dikonfigurasi, node sinkronisasi batch menulis nilai bidang sumber ke bidang tujuan dengan tipe data yang sama berdasarkan pemetaan.
Tipe data bidang sumber mungkin berbeda dari tipe data bidang tujuan. Dalam hal ini, nilai bidang sumber tidak dapat ditulis ke bidang tujuan. Nilai yang gagal ditulis ke tujuan dianggap sebagai data kotor. Anda dapat merujuk pada operasi yang dijelaskan dalam sublangkah Configure channel control policies untuk menentukan jumlah maksimum catatan data kotor yang diizinkan selama sinkronisasi data.
Anda dapat memetakan bidang sumber ke bidang tujuan yang memiliki nama yang sama dengan bidang sumber atau memetakan bidang dalam baris sumber ke bidang dalam baris tujuan yang sama. Saat mengonfigurasi pemetaan bidang, Anda juga dapat melakukan operasi berikut:Catatan Jika bidang sumber tidak memiliki bidang tujuan yang dipetakan, bidang sumber tidak dapat disinkronkan ke tujuan.- Tambahkan bidang ke tabel sumber dan tetapkan nilai ke bidang: Anda dapat mengklik Add dalam daftar bidang sumber untuk menambahkan bidang ke tabel sumber. Bidang yang ditambahkan disinkronkan ke tabel tujuan selama sinkronisasi data. Bidang dapat berupa konstanta dan variabel yang diapit dalam tanda kutip tunggal ('), seperti '123' dan '${Nama Variabel}'.Catatan Jika Anda menambahkan variabel ke tabel sumber sebagai bidang, Anda dapat memberikan nilai ke variabel saat mengonfigurasi properti penjadwalan untuk node sinkronisasi batch. Untuk informasi tentang parameter penjadwalan, lihat Format yang Didukung untuk Parameter Penjadwalan.
- Edit bidang dalam tabel sumber: Anda dapat mengklik ikon
dalam daftar bidang sumber untuk melakukan operasi berikut:- Gunakan fungsi yang didukung oleh sumber untuk memproses bidang dalam tabel sumber. Sebagai contoh, Anda dapat menggunakan fungsi Max(id) untuk mengimplementasikan sinkronisasi data dalam baris dengan ID terbesar di tabel sumber.
- Jika hanya beberapa bidang dalam tabel sumber yang ditampilkan saat mengonfigurasi pemetaan bidang, edit bidang dalam tabel sumber.
Catatan Fungsi tidak didukung jika Anda mengonfigurasi node sinkronisasi batch yang menggunakan MaxCompute Reader.
- Tambahkan bidang ke tabel sumber dan tetapkan nilai ke bidang: Anda dapat mengklik Add dalam daftar bidang sumber untuk menambahkan bidang ke tabel sumber. Bidang yang ditambahkan disinkronkan ke tabel tujuan selama sinkronisasi data. Bidang dapat berupa konstanta dan variabel yang diapit dalam tanda kutip tunggal ('), seperti '123' dan '${Nama Variabel}'.
- Konfigurasikan kebijakan kontrol saluran.Anda dapat mengonfigurasi kebijakan kontrol saluran untuk mendefinisikan atribut untuk sinkronisasi data.
Parameter Deskripsi Expected Maximum Concurrency Jumlah maksimum thread paralel yang digunakan node sinkronisasi batch untuk membaca data dari sumber atau menulis data ke tujuan. Catatan Jumlah sebenarnya dari thread paralel yang digunakan selama sinkronisasi data mungkin kurang dari atau sama dengan ambang batas yang ditentukan karena spesifikasi grup sumber daya eksklusif untuk Data Integration. Anda dikenakan biaya untuk grup sumber daya eksklusif untuk Data Integration berdasarkan jumlah thread paralel yang digunakan. Untuk informasi lebih lanjut, lihat Metrik performa.Bandwidth Throttling Menentukan apakah pembatasan diaktifkan. - Jika Anda mengaktifkan pembatasan, Anda dapat menentukan laju transmisi maksimum untuk mencegah beban baca yang berat pada sumber. Nilai minimum parameter ini adalah 1 MB/s.
- Jika Anda tidak mengaktifkan pembatasan, data ditransmisikan pada laju transmisi maksimum yang diizinkan oleh perangkat keras berdasarkan jumlah maksimum thread paralel yang ditentukan.
Catatan Bandwidth adalah metrik yang disediakan oleh Data Integration dan tidak mewakili lalu lintas aktual antarmuka jaringan elastis (ENI). Dalam banyak kasus, lalu lintas ENI adalah satu hingga dua kali lipat lalu lintas saluran. Lalu lintas ENI aktual tergantung pada serialisasi sistem penyimpanan data.Dirty Data Records Allowed Jumlah maksimum catatan data kotor yang diizinkan. Penting Jika sejumlah besar data kotor dihasilkan selama sinkronisasi data, kecepatan sinkronisasi data keseluruhan terpengaruh.- Jika parameter ini tidak dikonfigurasi, catatan data kotor diizinkan selama sinkronisasi data, dan node sinkronisasi batch dapat terus berjalan jika catatan data kotor dihasilkan.
- Jika Anda menetapkan parameter ini ke 0, tidak ada catatan data kotor yang diizinkan. Jika catatan data kotor dihasilkan selama sinkronisasi data, node sinkronisasi batch gagal.
- Jika Anda menentukan nilai yang lebih besar dari 0 untuk parameter ini, situasi berikut terjadi:
- Jika jumlah catatan data kotor yang dihasilkan selama sinkronisasi data kurang dari atau sama dengan nilai yang Anda tentukan, catatan data kotor diabaikan dan tidak ditulis ke tujuan, dan node sinkronisasi batch terus berjalan.
- Jika jumlah catatan data kotor yang dihasilkan selama sinkronisasi data lebih besar dari nilai yang Anda tentukan, node sinkronisasi batch gagal.
Catatan Data kotor menunjukkan data yang tidak bermakna bagi bisnis, tidak sesuai dengan tipe data yang ditentukan, atau menyebabkan pengecualian selama sinkronisasi data. Jika pengecualian terjadi saat catatan data tunggal ditulis ke tujuan, catatan data tersebut dianggap sebagai data kotor. Catatan data yang gagal ditulis ke tujuan dianggap sebagai data kotor.Sebagai contoh, ketika node sinkronisasi batch mencoba menulis data tipe VARCHAR di sumber ke bidang tipe INT di tujuan, terjadi kesalahan konversi data, dan data gagal ditulis ke tujuan. Dalam hal ini, data tersebut adalah data kotor. Saat Anda mengonfigurasi node sinkronisasi batch, Anda dapat mengontrol apakah data kotor diizinkan. Anda juga dapat menentukan jumlah maksimum catatan data kotor yang diizinkan selama sinkronisasi data. Jika jumlah catatan data kotor yang dihasilkan melebihi batas atas yang Anda tentukan, node sinkronisasi batch gagal dan keluar.
Distributed Execution Menentukan apakah akan mengaktifkan mode eksekusi terdistribusi untuk node sinkronisasi batch. - Jika Anda mengaktifkan mode eksekusi terdistribusi untuk node sinkronisasi batch, sistem membagi node menjadi irisan dan mendistribusikannya ke beberapa instance Elastic Compute Service (ECS) untuk dijalankan secara paralel. Dalam hal ini, semakin banyak instance ECS, semakin tinggi kecepatan sinkronisasi data.
- Jika Anda tidak mengaktifkan mode eksekusi terdistribusi untuk node sinkronisasi batch, jumlah maksimum thread paralel yang ditentukan hanya digunakan untuk instance ECS tunggal untuk menjalankan node.
Penting- Jika grup sumber daya eksklusif Anda hanya berisi satu instance ECS, kami merekomendasikan Anda tidak menjalankan node sinkronisasi batch dalam mode eksekusi terdistribusi.
- Jika satu instance ECS dapat memenuhi kebutuhan bisnis Anda untuk kecepatan transmisi data, Anda tidak perlu mengaktifkan mode eksekusi terdistribusi. Ini dapat menyederhanakan mode eksekusi node Anda.
- Mode eksekusi terdistribusi dapat diaktifkan hanya jika jumlah maksimum thread paralel yang Anda tentukan lebih besar dari atau sama dengan 8.
- Apakah node sinkronisasi batch mendukung mode eksekusi terdistribusi bervariasi berdasarkan jenis data sumber. Untuk informasi lebih lanjut, lihat topik untuk Plugin Reader dan Plugin Writer. Untuk informasi lebih lanjut tentang jenis data sumber, Plugin Reader, dan Plugin Writer yang didukung oleh sinkronisasi batch, lihat Jenis data sumber yang didukung, Plugin Reader, dan Plugin Writer.
Catatan Selain konfigurasi sebelumnya, kecepatan sinkronisasi data keseluruhan node sinkronisasi batch juga dipengaruhi oleh faktor-faktor seperti performa sumber dan lingkungan jaringan untuk sinkronisasi data. Untuk informasi tentang kecepatan sinkronisasi data dan penyetelan performa node sinkronisasi batch, lihat Percepat atau Perlambat Proses Sinkronisasi Batch.
- Pilih tabel dari mana Anda ingin membaca data dan tabel ke mana Anda ingin menulis data.
- Klik Next Step untuk mengonfigurasi properti penjadwalan untuk node sinkronisasi batch.Jika Anda ingin DataWorks menjadwalkan node sinkronisasi batch Anda secara berkala, Anda harus mengonfigurasi properti penjadwalan untuk node tersebut. Sublangkah ini menjelaskan cara mengonfigurasi properti penjadwalan untuk node sinkronisasi batch. Untuk informasi tentang cara menggunakan parameter penjadwalan, lihat Deskripsi Penggunaan Parameter Penjadwalan dalam Sinkronisasi Data.
- Konfigurasikan Parameter Penjadwalan: Jika Anda menggunakan variabel dalam konfigurasi node sinkronisasi batch, Anda dapat menetapkan parameter penjadwalan ke variabel sebagai nilai.
- Konfigurasikan Properti Waktu: Properti waktu mendefinisikan mode di mana node sinkronisasi batch dijadwalkan dalam lingkungan produksi. Di bagian tempat Anda mengonfigurasi properti waktu untuk node sinkronisasi batch, Anda dapat mengonfigurasi atribut seperti mode pembuatan instance, tipe penjadwalan, dan siklus penjadwalan untuk node tersebut.
- Konfigurasikan Properti Sumber Daya: Properti sumber daya mendefinisikan grup sumber daya eksklusif untuk penjadwalan yang digunakan untuk menerbitkan node sinkronisasi batch ke grup sumber daya eksklusif terkait untuk Data Integration. Anda dapat memilih grup sumber daya eksklusif untuk penjadwalan yang ingin Anda gunakan.Catatan DataWorks menggunakan grup sumber daya untuk penjadwalan untuk menerbitkan node sinkronisasi batch dalam Data Integration ke grup sumber daya untuk Data Integration dan menggunakan grup sumber daya untuk Data Integration untuk menjalankan node tersebut. Anda dikenakan biaya untuk menggunakan grup sumber daya untuk penjadwalan untuk menjadwalkan node sinkronisasi batch. Untuk informasi lebih lanjut tentang mekanisme penerbitan node, lihat Ikhtisar.
- Klik Complete Configuration.
Langkah 3: Commit dan terapkan node sinkronisasi batch
Jika Anda ingin DataWorks menjalankan node sinkronisasi batch secara berkala, Anda harus menerapkan node tersebut ke lingkungan produksi. Untuk informasi lebih lanjut tentang cara menerapkan node, lihat Terapkan Node.