Buat tugas sinkronisasi dalam tutorial Simple Application Development -

Topik ini menjelaskan cara membuat tugas sinkronisasi untuk mengekspor data dari MaxCompute ke sumber data MySQL.

Prasyarat

Anda telah membuat instans ApsaraDB RDS for MySQL dan memperoleh ID instans-nya. Anda juga telah menambahkan alamat IP yang diperlukan ke daftar putih di Konsol ApsaraDB RDS. Untuk informasi selengkapnya, lihat Buat instans ApsaraDB RDS for MySQL.
Catatan
Saat menggunakan Serverless Resource Group untuk menjalankan tugas sinkronisasi untuk ApsaraDB RDS, perhatikan hal berikut:
- Jika Anda mengakses sumber data melalui jaringan internal (VPC), Anda harus menambahkan Blok CIDR dari vSwitch yang terikat ke kelompok sumber daya tersebut ke daftar putih sumber data.
- Jika Anda mengakses sumber data melalui Internet, tambahkan Elastic IP Address (EIP) dari Virtual Private Cloud (VPC) tempat Serverless Resource Group terikat ke daftar putih sumber data.
Untuk informasi selengkapnya, lihat Konfigurasikan daftar putih.
Jika Anda menggunakan database ApsaraDB RDS for MySQL, buat tabel bernama ODPS_RESULT di database dengan menjalankan pernyataan berikut:
```
CREATE TABLE `ODPS_RESULT` (
`education`  varchar(255) NULL ,
`num`  int(10) NULL 
);
```
Setelah membuat tabel, Anda dapat menjalankan pernyataan DESC ODPS_RESULT; untuk melihat detail tabel.
Tabel hasil bernama result_table telah disiapkan. Untuk informasi selengkapnya, lihat Buat tabel dan unggah data.
Node virtual (start) dan node ODPS SQL (insert_data) telah dibuat. Untuk informasi selengkapnya, lihat Buat alur kerja.

Latar Belakang

Di DataWorks, Anda biasanya menggunakan Data Integration untuk secara berkala mengimpor data bisnis yang dihasilkan di sistem Anda ke ruang kerja. Setelah tugas SQL memproses data, Anda dapat secara berkala mengekspor hasilnya ke sumber data tertentu untuk ditampilkan atau digunakan lebih lanjut. 工作流程

Data Integration mendukung pengimporan atau pengeksporan data ke berbagai sumber data, seperti ApsaraDB RDS, MySQL, SQL Server, PostgreSQL, MaxCompute, ApsaraDB for Memcache (OCS), PolarDB-X, Object Storage Service (OSS), Oracle, FTP, DM, HDFS, dan MongoDB. Untuk daftar lengkap jenis sumber data yang didukung, lihat Sumber data dan plugin yang didukung.

Langkah 1: Tambahkan sumber data

Catatan

Hanya administrator ruang kerja yang dapat menambahkan sumber data. Anggota dengan peran lain hanya dapat melihat sumber data.

Masuk ke Konsol DataWorks. Di wilayah target, klik More > Management Center di panel navigasi sebelah kiri. Pilih ruang kerja dari daftar drop-down dan klik Go to Management Center.
Buat sumber data MySQL.
1. Di panel navigasi sebelah kiri, pilih Data Sources > Data Sources untuk membuka halaman Data Sources.
2. Klik Add. Di kotak dialog Add, pilih MySQL.

Konfigurasikan sumber data.

Di kotak dialog Add MySQL Data Source, konfigurasikan parameter. Dalam contoh ini, pilih Alibaba Cloud instance mode.

Tabel berikut menjelaskan parameter utama.

Parameter	Deskripsi
Applicable environment	Konfigurasikan sumber data untuk Development Environment dan Production Environment secara terpisah.
Configuration Mode	Pilih Alibaba Cloud instance mode.
Alibaba Cloud Account	Pilih Current Alibaba Cloud Account.
Region	Pilih wilayah tempat sumber data berada.
Instance	Pilih instans ApsaraDB RDS for MySQL yang telah Anda buat. Setelah memilih instans, Anda dapat mengklik Obtain Latest Address untuk melihat detail instans. Jika tidak ada instans yang tersedia, Anda dapat membuka Konsol ApsaraDB RDS untuk membuatnya.
Database Name, Username, and Password	Tentukan nama database default untuk sumber data ini, lalu masukkan username dan password untuk database tersebut. Jangan gunakan tanda at (@) dalam password. Perhatikan hal berikut saat mengonfigurasi tugas sinkronisasi: Untuk sinkronisasi tingkat database (termasuk real-time dan batch), Anda dapat memilih database apa pun dalam instans ApsaraDB RDS yang memiliki izin akses. Untuk tugas sinkronisasi batch, jika Anda menggunakan beberapa database, Anda harus menambahkan sumber data terpisah untuk setiap database.
Authentication Method	Pilih No Authentication.
Configure Secondary Instance	Jika sumber data memiliki instansi hanya baca (secondary instance), Anda dapat mengaktifkan Configure Secondary Instance saat mengonfigurasi tugas dan memilih ID instansi secondary. Menggunakan instansi secondary mencegah gangguan pada instansi primary dan membantu melindungi kinerjanya. Jika terdapat beberapa instansi hanya baca, satu instansi yang tersedia akan dipilih secara acak untuk operasi baca. Catatan Fitur ini hanya mendukung kelompok sumber daya arsitektur tanpa server (serverless resource groups).

Uji konektivitas jaringan kelompok sumber daya.
Di tab Data integration dan Data Scheduling, klik **Test Network Connectivity** untuk kelompok sumber daya yang sesuai. Status "Connected" menunjukkan uji berhasil.
Catatan
- Tugas sinkronisasi hanya dapat menggunakan satu jenis kelompok sumber daya.
- Anda harus menguji konektivitas setiap kelompok sumber daya ke sumber data. Tugas sinkronisasi tidak dapat dijalankan jika kelompok sumber daya gagal terhubung.
Setelah uji konektivitas berhasil, klik Complete Creation untuk menambahkan sumber data.

Langkah 2: Buat dan konfigurasikan tugas sinkronisasi

Buat node sinkronisasi bernama write_result untuk menghasilkan tugas sinkronisasi. Tugas ini menulis data dari tabel result_table ke database MySQL Anda. Ikuti langkah-langkah berikut:

Masuk ke Konsol DataWorks. Di wilayah target, klik Data Development and O&M > Data Development di panel navigasi sebelah kiri. Pilih ruang kerja dari daftar drop-down dan klik Go to Data Development.
Buat node sinkronisasi batch.

Klik ikon dan pilih Create Node > Data integration > Batch Synchronization untuk membuat node sinkronisasi batch.
Konfigurasikan koneksi jaringan untuk tugas sinkronisasi.
1. Di tab Configure Network Connections and Resource Groups pada halaman edit node, atur Source ke **MaxCompute(ODPS)** dan MySQL ke **MySQL**. Pilih kelompok sumber daya dan uji konektivitasnya ke sumber data. Untuk informasi selengkapnya tentang konfigurasi jaringan, lihat Solusi konektivitas jaringan.
2. Klik Next step untuk membuka halaman Configure tasks.

Konfigurasikan tugas sinkronisasi.

Konfigurasikan sumber dan tujuan.

Di bagian Source, pilih MaxCompute(ODPS) sebagai sumber data dan masukkan result_table di bidang Table. Di bagian Destination, pilih MySQL sebagai sumber data, masukkan ODPS_RESULT di bidang Table, dan pilih insert into untuk Primary Key Conflict Policy. Hal ini menetapkan tabel sumber menjadi result_table dan tabel tujuan menjadi ODPS_RESULT. Anda dapat mengonfigurasi parameter lain sesuai kebutuhan bisnis. Untuk informasi selengkapnya, lihat Konfigurasi UI tanpa kode.
Konfigurasikan pemetaan bidang.

Petakan bidang sumber ke bidang tujuan. Tugas menggunakan pemetaan bidang ini untuk menulis data.

Konfigurasikan kontrol saluran.

Parameter	Deskripsi
Expected Maximum Concurrency	Jumlah maksimum thread untuk membaca data dari sumber atau menulis data ke tujuan secara konkuren. Catatan Karena faktor seperti spesifikasi resource, konkurensi aktual saat waktu proses mungkin kurang dari atau sama dengan nilai yang Anda tentukan. Kelompok sumber daya yang digunakan untuk debugging dikenai biaya berdasarkan konkurensi aktual. Untuk informasi selengkapnya, lihat Metrik kinerja. Biaya penjadwalan tugas bergantung pada jumlah tugas sinkronisasi batch tabel tunggal, bukan konkurensi yang dikonfigurasi.
Sync Rate	Pengaturan ini mengontrol kecepatan transfer data. Pembatasan kecepatan (Throttling): Anda dapat membatasi laju sinkronisasi untuk melindungi database sumber agar tidak kelebihan beban akibat kecepatan ekstraksi tinggi. Batas kecepatan minimum adalah 1 MB/s. Tanpa pembatasan kecepatan (No throttling): Tugas berjalan pada laju transfer maksimum yang didukung oleh perangkat keras dalam batas konkurensi yang dikonfigurasi. Catatan Metrik traffic ini mengukur throughput dalam Data Integration, bukan traffic antarmuka jaringan (NIC) aktual. Traffic NIC biasanya satu hingga dua kali lipat traffic saluran, tergantung pada overhead serialisasi sistem penyimpanan data.
Policy for Dirty Data Records	Dirty data mengacu pada catatan yang gagal ditulis ke tujuan karena adanya pengecualian, seperti konflik tipe data atau pelanggaran batasan. Anda dapat menentukan kebijakan dirty data yang menetapkan ambang batas toleransi dan cara dirty data memengaruhi tugas. Secara default, dirty data diizinkan dan tidak memengaruhi eksekusi tugas. Jika Anda menetapkan toleransi ke 0, dirty data tidak diizinkan. Jika ada dirty data yang dihasilkan selama sinkronisasi, tugas akan gagal. Jika Anda mengizinkan dirty data dan menetapkan ambang batas: Jika jumlah catatan dirty data berada dalam ambang batas, tugas mengabaikan catatan tersebut (tidak ditulis ke tujuan) dan terus berjalan. Jika jumlah catatan dirty data melebihi ambang batas, tugas gagal. Penting Jumlah dirty data yang berlebihan dapat memperlambat kecepatan sinkronisasi secara keseluruhan.
Distributed Execution	Pengaturan ini mengontrol apakah tugas dijalankan dalam mode terdistribusi. Diaktifkan: Membagi tugas menjadi beberapa proses konkuren. Mode ini membantu mengatasi bottleneck proses tunggal dan meningkatkan efisiensi sinkronisasi. Nonaktif: Tugas dijalankan sebagai proses tunggal. Gunakan mode terdistribusi untuk kebutuhan berkinerja-tinggi atau untuk memanfaatkan sumber daya mesin yang terfragmentasi secara efisien. Penting Eksekusi terdistribusi hanya dapat diaktifkan ketika konkurensi diatur ke 8 atau lebih. Mengaktifkan eksekusi terdistribusi mengonsumsi lebih banyak sumber daya. Jika terjadi error kehabisan memori (OOM) saat waktu proses, coba nonaktifkan pengaturan ini.
Time Zone	Untuk menyinkronkan data lintas zona waktu, tentukan zona waktu sumber untuk mengaktifkan konversi.

Konfigurasikan dependensi tugas.

Tetapkan node insert_data sebagai node hulu dari node write_result dalam Workflow saat ini. Di kanvas alur kerja, hubungkan node insert_data ke node write_result untuk menetapkan dependensi hulu/hilir. Artinya, write_result dieksekusi setelah insert_data selesai.

Setelah mengonfigurasi tugas, klik ikon di bilah alat untuk menyimpan tugas.

Langkah 3: Komit dan deploy tugas

Setelah menyimpan tugas sinkronisasi, kembali ke alur kerja. Klik ikon di bilah alat untuk mengommit tugas sinkronisasi ke sistem penjadwalan. Sistem penjadwalan secara otomatis menjalankan tugas berdasarkan jadwal yang dikonfigurasi, mulai dari hari berikutnya.

Langkah berikutnya

Tutorial ini menjelaskan cara membuat tugas sinkronisasi untuk mengekspor data ke berbagai jenis sumber data. Tutorial berikutnya menjelaskan cara mengonfigurasi properti penjadwalan dan dependensi untuk tugas sinkronisasi. Untuk informasi selengkapnya, lihat Konfigurasikan penjadwalan dan dependensi.

Dokumentasi terkait

Untuk informasi selengkapnya tentang cara mengonfigurasi tugas sinkronisasi batch, lihat Konfigurasi UI tanpa kode.