Topik ini menjelaskan cara membuat tugas sinkronisasi untuk menyinkronkan data dari MaxCompute ke sumber data MySQL.
Prasyarat
Sebuah instance ApsaraDB RDS for MySQL telah dibuat, dan ID instance tersebut diperoleh. Daftar putih telah dikonfigurasi untuk instance tersebut di konsol ApsaraDB RDS. Untuk informasi lebih lanjut, lihat Buat Instance ApsaraDB RDS for MySQL.
CatatanJika Anda menggunakan serverless resource group untuk menjalankan tugas sinkronisasi yang dikonfigurasi untuk sumber data ApsaraDB RDS for MySQL, perhatikan hal-hal berikut:
Jika Anda ingin mengakses sumber data melalui virtual private cloud (VPC), Anda harus menambahkan blok CIDR dari vSwitch yang terkait dengan serverless resource group ke daftar putih alamat IP sumber data.
Jika Anda ingin mengakses sumber data melalui Internet, Anda harus menambahkan alamat IP elastis (EIP) yang dikonfigurasi untuk VPC yang terkait dengan serverless resource group ke daftar putih alamat IP sumber data.
Untuk informasi lebih lanjut, lihat Konfigurasikan Daftar Putih Alamat IP.
Sebuah tabel bernama odps_result telah dibuat di database ApsaraDB RDS for MySQL tempat Anda ingin menyinkronkan data. Anda dapat membuat tabel dengan mengeksekusi pernyataan berikut:
CREATE TABLE `ODPS_RESULT` ( `education` varchar(255) NULL , `num` int(10) NULL );Setelah tabel dibuat, Anda dapat mengeksekusi pernyataan
desc odps_result;untuk melihat detail tabel.Sebuah tabel hasil bernama result_table telah disiapkan. Untuk informasi lebih lanjut, lihat Buat Tabel dan Unggah Data.
Sebuah node beban nol bernama start dan sebuah node ODPS SQL bernama insert_data telah dibuat. Untuk informasi lebih lanjut, lihat Buat Alur Kerja.
Informasi latar belakang
Anda dapat menggunakan Data Integration untuk secara berkala menyinkronkan data bisnis yang dihasilkan dalam sistem bisnis ke ruang kerja DataWorks. Anda dapat membuat tugas SQL untuk menghitung data dan menggunakan Data Integration untuk secara berkala menyinkronkan hasil komputasi ke sumber data tertentu untuk ditampilkan atau digunakan lebih lanjut.
Data Integration memungkinkan Anda mengimpor data ke dan mengekspor data dari berbagai sumber data, seperti ApsaraDB RDS, MySQL, SQL Server, PostgreSQL, MaxCompute, ApsaraDB for Memcache (OCS), PolarDB-X 1.0, Object Storage Service (OSS), Oracle, File Transfer Protocol (FTP), Dameng (DM), Hadoop Distributed File System (HDFS), dan MongoDB. Untuk informasi lebih lanjut tentang jenis sumber data, lihat Jenis Sumber Data yang Didukung, Plugin Reader, dan Plugin Writer.
Langkah 1: Tambahkan sumber data
Hanya administrator ruang kerja yang dapat menambahkan sumber data. Anggota yang ditugaskan peran lain hanya dapat melihat sumber data.
Pergi ke halaman SettingCenter.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
Tambahkan sumber data MySQL.
Di panel navigasi sisi kiri halaman SettingCenter, pilih untuk pergi ke halaman Sumber Data.
Di pojok kiri atas halaman Sumber Data, klik Add Data Source. Dalam kotak dialog Add Data Source, klik MySQL.
Konfigurasikan informasi tentang sumber data MySQL.
Di halaman Add MySQL Data Source, konfigurasikan parameter. Dalam contoh ini, atur parameter Mode Konfigurasi ke Alibaba Cloud Instance Mode.

Tabel berikut menjelaskan parameter utama untuk menambahkan sumber data MySQL.
Parameter
Deskripsi
Lingkungan yang Berlaku
Lingkungan tempat sumber data digunakan. Nilai valid: Development Environment dan Production Environment.
Mode Konfigurasi
Mode tempat Anda ingin menambahkan sumber data. Pilih Alibaba Cloud Instance Mode.
Akun Alibaba Cloud
Pilih Current Alibaba Cloud Account.
Wilayah
Wilayah tempat sumber data berada.
Instance
Pilih instance ApsaraDB RDS for MySQL yang Anda buat. Setelah Anda memilih instance, Anda dapat mengklik Obtain Latest Address untuk melihat informasi tentang instance.
Jika tidak ada instance yang tersedia, Anda dapat membuat instance di Konsol ApsaraDB RDS.
Nama Database, Nama Pengguna, dan Kata Sandi
Nama database ApsaraDB RDS for MySQL default, dan nama pengguna serta kata sandi yang digunakan untuk masuk ke database. Jangan gunakan tanda at (@) dalam kata sandi.
Deskripsi berikut memberikan instruksi kepada Anda untuk mengonfigurasi tugas sinkronisasi yang menggunakan sumber data MySQL:
Saat Anda mengonfigurasi tugas sinkronisasi real-time atau batch tingkat database yang menggunakan sumber data MySQL, Anda dapat memilih satu atau beberapa database yang memiliki izin akses di instance ApsaraDB RDS for MySQL.
Jika Anda memilih beberapa database saat mengonfigurasi tugas sinkronisasi batch, Anda harus menambahkan sumber data untuk setiap database.
Metode Otentikasi
Pilih opsi No Authentication.
Konfigurasikan Instance Sekunder
Jika instance ApsaraDB RDS for MySQL adalah instance utama dan memiliki instance sekunder baca-saja, Anda dapat mengaktifkan Configure Secondary Instance, dan pilih ID instance sekunder. Ini mencegah instance utama terpengaruh dan memastikan performa instance utama. Jika instance utama memiliki beberapa instance sekunder baca-saja, hanya data dari salah satu instance baca-saja yang dibaca.
CatatanFitur ini mendukung hanya serverless resource groups.
Uji konektivitas jaringan antara sumber data dan grup sumber daya yang Anda pilih.
Klik secara terpisah Data Integration dan Data Scheduling di bagian Konfigurasi Koneksi, temukan grup sumber daya untuk Integrasi Data dan grup sumber daya untuk penjadwalan yang ingin Anda gunakan, lalu klik Uji Konektivitas Jaringan di kolom Status Koneksi. Jika status konektivitas adalah Terhubung, grup sumber daya terhubung ke sumber data.
CatatanTugas sinkronisasi hanya dapat menggunakan satu grup sumber daya dari jenis tertentu.
Untuk memastikan bahwa tugas sinkronisasi Anda dapat dijalankan sesuai harapan, Anda harus menguji konektivitas jaringan antara sumber data dan semua jenis grup sumber daya tempat tugas sinkronisasi Anda akan dijalankan.
Jika sumber data lolos uji konektivitas jaringan, klik Complete Creation.
Langkah 2: Buat dan konfigurasikan tugas sinkronisasi
Bagian ini menjelaskan cara membuat node sinkronisasi bernama write_result untuk menghasilkan tugas sinkronisasi. Tugas ini digunakan untuk menyinkronkan data di tabel result_table ke sumber data MySQL Anda. Prosedur:
Pergi ke halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sisi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Buat node sinkronisasi batch.
Di panel Alur Kerja Terjadwal halaman DataStudio, klik ikon
dan pilih untuk membuat node sinkronisasi batch bernama write_result untuk menghasilkan tugas sinkronisasi.Bangun koneksi jaringan antara grup sumber daya tertentu dan sumber data.
Di langkah Configure Network Connections and Resource Group pada tab konfigurasi node sinkronisasi, pilih MaxCompute(ODPS) untuk Sumber dan MySQL untuk Tujuan, pilih grup sumber daya yang ingin Anda gunakan untuk menjalankan tugas sinkronisasi, lalu uji konektivitas jaringan antara grup sumber daya dan sumber data. Untuk informasi lebih lanjut tentang cara membangun koneksi jaringan, lihat Solusi Konektivitas Jaringan.

Klik Next untuk pergi ke langkah Configure tasks.
Konfigurasikan informasi untuk sinkronisasi data.
Konfigurasikan sumber dan tujuan.
Pilih tabel result_table sebagai tabel sumber dan pilih tabel odps_result sebagai tabel tujuan. Konfigurasikan parameter lain berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Konfigurasikan Tugas Sinkronisasi Batch Menggunakan UI Tanpa Kode.

Konfigurasikan pemetaan antara bidang sumber dan bidang tujuan.
Setelah sumber dan tujuan dikonfigurasi, Anda harus mengonfigurasi pemetaan antara bidang sumber dan bidang tujuan. Setelah Anda mengonfigurasi pemetaan, tugas sinkronisasi batch menulis nilai bidang sumber ke bidang tujuan dengan tipe data yang sama berdasarkan pemetaan. Pastikan bahwa bidang di tabel sumber memiliki pemetaan satu-satu dengan bidang di tabel tujuan.
Konfigurasikan kebijakan kontrol saluran.
Parameter
Deskripsi
Task Expected Maximum Concurrency
Jumlah maksimum thread paralel yang digunakan tugas sinkronisasi batch untuk membaca data dari sumber atau menulis data ke tujuan.
CatatanJumlah sebenarnya dari thread paralel yang digunakan selama sinkronisasi data mungkin kurang dari atau sama dengan ambang batas yang ditentukan karena spesifikasi grup sumber daya. Anda dikenakan biaya untuk grup sumber daya berdasarkan jumlah thread paralel yang digunakan. Untuk informasi lebih lanjut, lihat Metrik performa.
DataWorks menggunakan grup sumber daya untuk penjadwalan untuk mengeluarkan tugas sinkronisasi batch di Integrasi Data ke grup sumber daya untuk Integrasi Data dan menjalankan tugas menggunakan grup sumber daya untuk Integrasi Data. Anda dikenakan biaya untuk menggunakan grup sumber daya untuk penjadwalan untuk menjadwalkan tugas sinkronisasi batch berdasarkan jumlah tugas. Untuk informasi lebih lanjut tentang mekanisme pengeluaran tugas, lihat Mekanisme untuk mengeluarkan tugas yang dijalankan pada grup sumber daya versi lama.
Synchronization rate
Menentukan apakah akan mengaktifkan pembatasan laju.
Jika Anda mengaktifkan pembatasan laju, Anda dapat menentukan laju transmisi maksimum untuk mencegah beban baca yang berat pada sumber. Nilai minimum parameter ini adalah 1 MB/s.
Jika Anda tidak mengaktifkan pembatasan laju, data ditransmisikan pada laju transmisi maksimum yang diizinkan oleh perangkat keras berdasarkan jumlah maksimum thread paralel yang ditentukan.
CatatanBandwidth adalah metrik yang disediakan oleh Integrasi Data dan tidak mewakili lalu lintas aktual dari antarmuka jaringan elastis (ENI). Dalam banyak kasus, lalu lintas ENI adalah satu hingga dua kali lipat dari lalu lintas saluran. Lalu lintas ENI aktual tergantung pada serialisasi sistem penyimpanan data.
Policy for Dirty Data Records
Jumlah maksimum catatan data kotor yang diizinkan.
PentingJika sejumlah besar data kotor dihasilkan selama sinkronisasi data, kecepatan sinkronisasi data keseluruhan terpengaruh.
Jika parameter ini tidak dikonfigurasi, catatan data kotor diizinkan selama sinkronisasi data, dan tugas sinkronisasi batch dapat terus berjalan jika catatan data kotor dihasilkan.
Jika Anda mengatur parameter ini ke 0, tidak ada catatan data kotor yang diizinkan. Jika catatan data kotor dihasilkan selama sinkronisasi data, tugas sinkronisasi batch gagal.
Jika Anda menentukan nilai yang lebih besar dari 0 untuk parameter ini, situasi berikut terjadi:
Jika jumlah catatan data kotor yang dihasilkan selama sinkronisasi data kurang dari atau sama dengan nilai yang Anda tentukan, catatan data kotor diabaikan dan tidak ditulis ke tujuan, dan tugas sinkronisasi batch terus berjalan.
Jika jumlah catatan data kotor yang dihasilkan selama sinkronisasi data lebih besar dari nilai yang Anda tentukan, tugas sinkronisasi batch gagal.
CatatanData kotor menunjukkan data yang tidak bermakna bagi bisnis, tidak sesuai dengan tipe data yang ditentukan, atau menyebabkan pengecualian selama sinkronisasi data. Jika pengecualian terjadi ketika catatan data tunggal ditulis ke tujuan, catatan data tersebut dianggap sebagai data kotor. Catatan data yang gagal ditulis ke tujuan dianggap sebagai data kotor.
Sebagai contoh, ketika tugas sinkronisasi batch mencoba menulis data tipe VARCHAR di sumber ke bidang tipe INT di tujuan, terjadi kesalahan konversi data, dan data gagal ditulis ke tujuan. Dalam hal ini, data tersebut adalah data kotor. Saat Anda mengonfigurasi tugas sinkronisasi batch, Anda dapat mengontrol apakah data kotor diizinkan. Anda juga dapat menentukan jumlah maksimum catatan data kotor yang diizinkan selama sinkronisasi data. Jika jumlah catatan data kotor yang dihasilkan melebihi batas atas yang Anda tentukan, tugas sinkronisasi batch gagal dan keluar.
Distributed Execution
Menentukan apakah akan mengaktifkan mode eksekusi terdistribusi untuk tugas sinkronisasi batch.
Jika Anda mengaktifkan mode eksekusi terdistribusi untuk tugas sinkronisasi batch, sistem membagi tugas menjadi irisan dan mendistribusikannya ke beberapa instance Elastic Compute Service (ECS) untuk dijalankan secara paralel. Dalam hal ini, semakin banyak instance ECS, semakin tinggi kecepatan sinkronisasi data.
Jika Anda tidak mengaktifkan mode eksekusi terdistribusi untuk tugas sinkronisasi batch, jumlah maksimum thread paralel yang ditentukan hanya digunakan untuk satu instance ECS untuk menjalankan tugas.
Jika Anda memiliki persyaratan tinggi untuk performa sinkronisasi data, Anda dapat menggunakan mode eksekusi terdistribusi untuk menjalankan tugas sinkronisasi batch Anda. Jika Anda menjalankan tugas sinkronisasi batch Anda dalam mode eksekusi terdistribusi, fragmen sumber daya instance ECS dapat dimanfaatkan. Ini meningkatkan pemanfaatan sumber daya.
PentingJika Anda menggunakan grup sumber daya eksklusif untuk Integrasi Data dan grup sumber daya tersebut hanya berisi satu instance ECS, kami sarankan Anda tidak menjalankan tugas sinkronisasi batch Anda dalam mode eksekusi terdistribusi.
Jika satu instance ECS dapat memenuhi persyaratan bisnis Anda untuk kecepatan transmisi data, Anda tidak perlu mengaktifkan mode eksekusi terdistribusi. Ini dapat menyederhanakan mode eksekusi tugas Anda.
Mode eksekusi terdistribusi hanya dapat diaktifkan jika jumlah maksimum thread paralel yang Anda tentukan lebih besar dari atau sama dengan 8.
Jika Anda mengaktifkan mode eksekusi terdistribusi untuk tugas sinkronisasi batch, lebih banyak sumber daya akan digunakan. Jika kesalahan kehabisan memori (OOM) dilaporkan selama pelaksanaan tugas sinkronisasi batch, Anda dapat menonaktifkan mode eksekusi terdistribusi.
Konfigurasikan dependensi penjadwalan untuk tugas sinkronisasi.
Klik dua kali nama alur kerja yang diinginkan. Pada tab konfigurasi alur kerja, konfigurasikan node insert_data sebagai node leluhur dari node write_result.

Setelah konfigurasi selesai, klik ikon
di bilah alat atas untuk menyimpan tugas.
Langkah 3: Kirim dan terapkan tugas sinkronisasi
Setelah Anda menyimpan tugas sinkronisasi, kembali ke tab konfigurasi alur kerja tempat tugas sinkronisasi tersebut berada. Klik ikon
di bilah alat atas tab konfigurasi alur kerja untuk mengirim tugas sinkronisasi ke sistem penjadwalan. Sistem penjadwalan secara otomatis menjalankan node pada waktu penjadwalan dari hari berikutnya berdasarkan pengaturan Anda.
Apa yang harus dilakukan selanjutnya
Sekarang Anda telah mempelajari cara membuat tugas sinkronisasi untuk menyinkronkan data ke sumber data tertentu. Anda dapat melanjutkan dengan tutorial berikutnya. Di tutorial berikutnya, Anda akan mempelajari cara mengonfigurasi properti penjadwalan dan dependensi penjadwalan untuk tugas sinkronisasi. Untuk informasi lebih lanjut, lihat Konfigurasikan Properti Penjadwalan dan Dependensi Penjadwalan untuk Tugas.
Referensi
Untuk informasi lebih lanjut tentang cara mengonfigurasi tugas sinkronisasi batch, lihat Konfigurasikan Tugas Sinkronisasi Batch Menggunakan UI Tanpa Kode.