Tutorial ini menggunakan dua sumber data sebagai contoh: tabel ods_user_info_d di MySQL, yang berisi informasi dasar pengguna, dan file user_log.txt di OSS, yang berisi data log akses website. Anda akan menggunakan task sinkronisasi batch Data Integration untuk menyinkronkan data dari sumber-sumber tersebut ke tabel ods_user_info_d dan ods_raw_log_d di MaxCompute. Tutorial ini menjelaskan cara menggunakan Data Integration DataWorks untuk menyinkronkan data antar sumber data heterogen guna membangun gudang data.
Prasyarat
Pastikan Anda telah menyiapkan lingkungan operasi yang diperlukan. Untuk informasi selengkapnya, lihat Siapkan lingkungan.
1. Buat sumber data
Untuk memastikan data dapat diproses pada langkah-langkah berikutnya, Anda harus menambahkan sumber data berikut ke ruang kerja DataWorks Anda guna mengambil data mentah.
Sumber data MySQL: Tutorial ini menggunakan sumber data bernama
user_behavior_analysis_mysqluntuk mengambil informasi dasar pengguna (ods_user_info_d) dari MySQL.Sumber data HttpFile: Dalam tutorial ini, sumber data diberi nama
user_behavior_analysis_httpfiledan digunakan untuk mengambil log akses website pengguna (user_log.txt) yang disimpan di OSS.
Jika Anda telah membuat sumber data MySQL dan HttpFile untuk tutorial analisis persona pengguna lainnya, Anda dapat melewati langkah ini.
Buat sumber data MySQL (user_behavior_analysis_mysql)
Informasi dasar pengguna untuk tutorial ini disimpan dalam database MySQL. Anda harus membuat sumber data MySQL untuk menyinkronkan informasi pengguna (ods_user_info_d) dari database ke MaxCompute.
Buka halaman Sumber Data.
Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down lalu klik Go to Management Center.
Di panel navigasi kiri, klik Data Sources untuk membuka halaman Sumber Data.
Klik Add Data Source. Cari dan pilih MySQL sebagai tipe sumber data.
Pada halaman Add MySQL Data Source, konfigurasikan parameter berikut. Untuk tutorial ini, gunakan nilai contoh yang sama untuk lingkungan pengembangan maupun produksi.
Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.
Parameter
Deskripsi
Data Source Name
Masukkan nama untuk sumber data. Untuk tutorial ini, masukkan
user_behavior_analysis_mysql.Data Source Description
Sumber data ini digunakan untuk tutorial DataWorks. Baca data dari sumber data ini saat Anda mengonfigurasi task sinkronisasi batch untuk mengakses data uji yang disediakan oleh platform. Sumber data ini hanya dapat dibaca dalam skenario Data Integration. Modul lain tidak dapat menggunakannya.
Configuration Mode
Pilih Connection String Mode.
Connection Address
Alamat IP host:
rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.comPort:
3306
Database Name
Masukkan nama database. Untuk tutorial ini, masukkan
workshop.Username
Masukkan username. Untuk tutorial ini, masukkan
workshop.Password
Masukkan password. Untuk tutorial ini, masukkan
workshop#2017.Authentication Method
Tidak ada autentikasi.
Pada bagian Connection Configuration, klik Test Network Connectivity untuk lingkungan produksi maupun pengembangan. Pastikan status konektivitasnya adalah Connected.
PentingPastikan kelompok sumber daya telah disambungkan ke ruang kerja dan akses jaringan publik telah diaktifkan. Jika tidak, sinkronisasi data akan gagal. Untuk informasi selengkapnya, lihat Siapkan lingkungan.
Jika Anda tidak memiliki kelompok sumber daya yang tersedia, ikuti petunjuk di bagian konfigurasi koneksi. Klik Purchase dan Associated Purchased Resource Group.
Klik Complete Creation.
Buat sumber data HttpFile (user_behavior_analysis_httpfile)
Log akses website pengguna untuk tutorial ini disimpan di OSS. Anda harus membuat sumber data HttpFile untuk menyinkronkan log akses website pengguna (user_log.txt) dari OSS ke MaxCompute.
Klik Data Sources di panel navigasi kiri.
Klik Add Data Source. Pada kotak dialog Add Data Source, cari dan pilih HttpFile sebagai tipe sumber data.
Pada halaman Add HttpFile Data Source, konfigurasikan parameter berikut. Untuk tutorial ini, gunakan nilai contoh yang sama untuk lingkungan pengembangan maupun produksi.
Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.
Parameter
Deskripsi
Data Source Name
Masukkan nama sumber data. Untuk tutorial ini, masukkan
user_behavior_analysis_httpfile.Data Source Description
Sumber data ini digunakan untuk tutorial DataWorks. Baca data dari sumber data ini saat Anda mengonfigurasi task sinkronisasi batch untuk mengakses data uji yang disediakan oleh platform. Sumber data ini hanya dapat dibaca dalam skenario Data Integration. Modul lain tidak dapat menggunakannya.
URL
Atur URL menjadi
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.comuntuk lingkungan pengembangan maupun produksi.Pada bagian Connection Configuration, klik Test Network Connectivity untuk lingkungan produksi maupun pengembangan. Pastikan status konektivitasnya adalah Connected.
PentingPastikan kelompok sumber daya telah disambungkan ke ruang kerja dan akses jaringan publik telah diaktifkan. Jika tidak, sinkronisasi data akan gagal. Untuk informasi selengkapnya, lihat Siapkan lingkungan.
Jika Anda tidak memiliki kelompok sumber daya yang tersedia, ikuti petunjuk di bagian konfigurasi koneksi. Klik Purchase dan Associated Purchased Resource Group.
Klik Complete Creation.
2. Bangun pipeline sinkronisasi
Pada langkah ini, Anda akan membangun pipeline sinkronisasi untuk menyinkronkan informasi pengguna dan log akses website ke tabel MaxCompute masing-masing, sehingga data siap untuk pemrosesan lebih lanjut.
Klik ikon
di pojok kiri atas dan pilih . Lalu, di bagian atas halaman, alihkan ke ruang kerja yang dibuat untuk tutorial ini.Di panel navigasi kiri, klik
untuk membuka halaman Pengembangan Data. Kemudian, di area Workspace Directories, klik
, pilih Create Workflow, dan masukkan nama workflow. Untuk tutorial ini, nama diatur menjadi user_profile_analysis.Pada halaman orkestrasi workflow, klik Create Node, seret satu node Zero Load Node dan dua node Batch Synchronization dari panel kiri ke kanvas, lalu beri nama node-node tersebut.

Tabel berikut menunjukkan contoh nama node dan fungsinya dalam tutorial ini.
Tipe Node
Nama Node
Fungsi Node
Zero Load Nodeworkshop_startMengelola seluruh workflow analisis persona pengguna dan memperjelas jalur penerusan data. Node ini merupakan node Dry-run dan tidak memerlukan pengeditan kode.
Batch Synchronizationods_user_info_dMenyinkronkan informasi dasar pengguna dari MySQL ke tabel
ods_user_info_ddi MaxCompute.
Batch Synchronizationods_raw_log_dMenyinkronkan catatan akses website pengguna dari OSS ke tabel
ods_raw_log_ddi MaxCompute.Seret koneksi untuk mengatur node
workshop_startsebagai node leluhur dari dua node sinkronisasi batch, seperti yang ditunjukkan pada gambar berikut.Konfigurasikan properti penjadwalan workflow.
Pada kanvas workflow, klik Scheduling di panel kanan dan konfigurasikan parameter berikut. Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.
Parameter Penjadwalan
Deskripsi
Scheduling Parameters
Anda dapat mengonfigurasi parameter penjadwalan untuk seluruh workflow. Node internal workflow dapat langsung menggunakan parameter penjadwalan yang dikonfigurasi. Dalam tutorial ini, parameter diatur menjadi
bizdate=$[yyyymmdd-1]untuk mendapatkan tanggal hari sebelumnya.Scheduling Cycle
Diatur ke
Dayuntuk tutorial ini.Scheduling Time
Dalam tutorial ini, Scheduling Time diatur ke
00:30, yang berarti workflow akan dimulai setiap hari pada pukul00:30.Scheduling Dependencies
Workflow ini tidak memiliki dependensi hulu, sehingga Anda tidak perlu mengonfigurasi apa pun. Untuk mempermudah manajemen, klik Use Workspace Root Node untuk menyambungkan workflow ke node root ruang kerja.
Format penamaan untuk node root ruang kerja adalah
workspace_name_root.
3. Konfigurasikan task sinkronisasi
Konfigurasikan node awal
Pada halaman orkestrasi workflow, arahkan kursor ke node
workshop_startdan klik Open Node.Di panel kanan halaman konfigurasi node
workshop_start, klik Scheduling dan konfigurasikan parameter yang diperlukan. Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.Parameter Penjadwalan
Deskripsi
Scheduling Type
Tutorial ini menggunakan
dry-run scheduling.Resource Group
Untuk tutorial ini, pilih kelompok sumber daya Serverless yang dibuat pada langkah Siapkan lingkungan.
Scheduling Dependencies
Karena
workshop_startadalah node awal dan tidak memiliki dependensi hulu, Anda dapat mengklik Use Workspace Root Node untuk memicu eksekusi workflow dari node root ruang kerja.Node root ruang kerja diberi nama
workspace_name_root.
Konfigurasikan pipeline sinkronisasi data pengguna (ods_user_info_d)
Pada halaman orkestrasi workflow, arahkan kursor ke node
ods_user_info_ddan klik Open Node.Konfigurasikan jaringan dan sumber daya untuk pipeline sinkronisasi.
Parameter
Description
Source
Data source:
MySQL.Data source name:
user_behavior_analysis_mysql.
Resource Group
Pilih kelompok sumber daya Serverless yang telah Anda beli pada langkah Prepare the environment.
Destination
Data Destination:
MaxCompute(ODPS).Data Source Name: Pilih resource komputasi MaxCompute yang telah Anda sambungkan pada langkah Prepare the environment. Contohnya,
MaxCompute_Source.
Klik Next untuk mengonfigurasi task sinkronisasi.
Configure Source and Destination
Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.
Modul
Item Konfigurasi
Deskripsi
Data source
Table
Pilih
ods_user_info_d.Split key
Kunci shard diatur ke bidang
uid. Bidang `uid` adalah kunci primary dari tabelods_user_info_ddi MySQL.Destination
Tunnel Resource Group
Tutorial ini menggunakan Common transmission resources secara default. Jika Anda memiliki Kuota Tunnel eksklusif, Anda dapat memilihnya dari daftar drop-down. Untuk informasi selengkapnya tentang Kuota Tunnel eksklusif, lihat Beli dan gunakan kelompok sumber daya eksklusif untuk Data Transmission Service.
Table
Klik Generate Destination Table Schema untuk membuat tabel MaxCompute secara cepat. Tempel pernyataan DDL berikut ke bagian Statement for Creating Table lalu klik Create Table. Tabel ini menerima data pengguna dari sumber.
CREATE TABLE IF NOT EXISTS ods_user_info_d ( uid STRING COMMENT 'User ID', gender STRING COMMENT 'Gender', age_range STRING COMMENT 'Age range', zodiac STRING COMMENT 'Zodiac sign' ) PARTITIONED BY ( dt STRING ) LIFECYCLE 7;Partition information
Untuk tutorial ini, masukkan
${bizdate}. Ini memungkinkan Anda menetapkan nilai konstan untuk parameterbizdateselama fase pengujian, dan menetapkan nilai secara dinamis untuk parameterbizdateselama eksekusi terjadwal. Untuk informasi tentang format variabel dan metode konfigurasi yang didukung oleh DataStudio, lihat Scheduling Parameters.Konfirmasi Field Mapping dan Channel Control.
DataWorks menyinkronkan data dari bidang sumber yang ditentukan ke bidang tujuan yang ditentukan berdasarkan Pemetaan bidang yang dikonfigurasi. Anda juga dapat mengatur konkurensi dan mengonfigurasi kebijakan untuk data kotor. Untuk tutorial ini, atur Policy for Dirty Data Records ke Disallow Dirty Data Records. Biarkan nilai bawaan untuk pengaturan lainnya. Untuk informasi selengkapnya, lihat Mengonfigurasi tugas sinkronisasi menggunakan Antarmuka tanpa kode.
Konfigurasikan parameter debug.
Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Run Configuration. Konfigurasikan parameter berikut untuk menguji eksekusi pada Langkah 4: Sinkronisasi data.
Item Konfigurasi
Deskripsi
Resource Group
Pilih kelompok sumber daya Serverless yang Anda beli pada langkah Siapkan lingkungan.
Script Parameters
Anda tidak perlu mengonfigurasi parameter ini. Dalam tutorial ini, kode contoh menggunakan
${bizdate}untuk merepresentasikan waktu data. Saat Anda melakukan debug workflow pada Langkah 4, atur Value Used in This Run ke nilai konstan tertentu, misalnya20250223. Eksekusi pekerjaan kemudian akan menggunakan konstanta ini untuk menggantikan variabel yang didefinisikan dalam pekerjaan.(Opsional) Konfigurasikan properti penjadwalan.
Untuk tutorial ini, Anda dapat mempertahankan nilai default untuk parameter penjadwalan. Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Scheduling. Untuk informasi selengkapnya tentang parameter tersebut, lihat Konfigurasi penjadwalan node.
Scheduling Parameters: Parameter ini telah dikonfigurasi untuk workflow. Node internal tidak memerlukan konfigurasi terpisah dan dapat langsung menggunakan parameter tersebut dalam task atau kode.
Scheduling Policies: Anda dapat menggunakan parameter Time for Delayed Execution untuk menentukan durasi tunggu node anak sebelum dijalankan setelah workflow dieksekusi. Parameter ini tidak diatur dalam tutorial ini.
Di bilah alat node, klik Save.
Konfigurasikan pipeline sinkronisasi log pengguna (ods_raw_log_d)
Pada halaman orkestrasi workflow, arahkan kursor ke node
ods_raw_log_ddan klik Open Node.Konfigurasikan jaringan dan sumber daya untuk pipeline sinkronisasi.
Parameter
Deskripsi
Source
Sumber data:
HttpFile.Nama sumber data:
user_behavior_analysis_HttpFile.
Resource Group
Pilih kelompok sumber daya Serverless yang Anda beli pada langkah Siapkan lingkungan.
Destination
Tujuan Data:
MaxCompute(ODPS).Nama Sumber Data: Pilih sumber daya komputasi MaxCompute yang Anda sambungkan pada tahap Siapkan lingkungan. Dalam contoh ini, namanya adalah
MaxCompute_Source.
Klik Next untuk mengonfigurasi task sinkronisasi.
Configure Source and Destination
Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.
Modul
Item Konfigurasi
Deskripsi
Data source
File path
Untuk tutorial ini, masukkan
/user_log.txt.Text type
Tutorial ini menggunakan tipe
text.Column Delimiter
Untuk tutorial ini, masukkan
|.Advanced configuration > Skip Header
Untuk tutorial ini, pilih
Noagar header tabel tidak dilewati.PentingSetelah Anda mengonfigurasi sumber data, klik Confirm Data Structure untuk memeriksa apakah file log dapat dibaca dengan benar.
Destination
Tunnel Resource Group
Tutorial ini menggunakan Common transmission resources secara default. Jika Anda memiliki Kuota Tunnel eksklusif, Anda dapat memilihnya dari daftar drop-down. Untuk informasi selengkapnya tentang Kuota Tunnel eksklusif, lihat Beli dan gunakan kelompok sumber daya eksklusif untuk Data Transmission Service.
Table
Klik Generate Destination Table Schema untuk membuat tabel MaxCompute secara cepat. Tempel pernyataan DDL berikut ke bagian Statement for Creating Table lalu klik Create Table.
CREATE TABLE IF NOT EXISTS ods_raw_log_d ( col STRING ) PARTITIONED BY ( dt STRING ) LIFECYCLE 7;Partition information
Untuk tutorial ini, masukkan
${bizdate}. Ini memungkinkan Anda menetapkan nilai konstan untuk parameterbizdateselama fase pengujian, dan menetapkan nilai secara dinamis untuk parameterbizdateselama eksekusi terjadwal. Untuk informasi tentang format variabel dan metode konfigurasi yang didukung oleh DataStudio, lihat Scheduling Parameters.Konfirmasi Field Mapping dan Channel Control.
DataWorks menyinkronkan data dari bidang sumber yang ditentukan ke bidang tujuan yang ditentukan berdasarkan pemetaan bidang yang dikonfigurasi. Anda juga dapat mengatur konkurensi dan mengonfigurasi kebijakan untuk data kotor. Untuk tutorial ini, atur Policy for Dirty Data Records ke Disallow Dirty Data Records. Anda dapat mempertahankan nilai default untuk pengaturan lainnya. Untuk informasi selengkapnya, lihat Konfigurasikan task sinkronisasi menggunakan Antarmuka tanpa kode.
Konfigurasikan parameter debug.
Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Run Configuration. Konfigurasikan parameter berikut untuk menguji eksekusi pada Langkah 4: Sinkronisasi data.
Item Konfigurasi
Deskripsi
Resource Group
Pilih kelompok sumber daya Serverless yang Anda beli pada langkah Siapkan lingkungan.
Script Parameters
Anda tidak perlu mengonfigurasi parameter ini. Dalam tutorial ini, kode contoh menggunakan
${bizdate}untuk merepresentasikan waktu data. Saat Anda melakukan debug workflow pada Langkah 4, atur Value Used in This Run ke nilai konstan tertentu, misalnya20250223. Eksekusi pekerjaan kemudian akan menggunakan konstanta ini untuk menggantikan variabel yang didefinisikan dalam pekerjaan.(Opsional) Konfigurasikan properti penjadwalan.
Untuk tutorial ini, Anda dapat mempertahankan nilai default untuk parameter penjadwalan. Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Scheduling. Untuk informasi selengkapnya tentang parameter tersebut, lihat Konfigurasi penjadwalan node.
Scheduling Parameters: Parameter ini telah dikonfigurasi untuk workflow. Node internal tidak memerlukan konfigurasi terpisah dan dapat langsung menggunakan parameter tersebut dalam task atau kode.
Scheduling Policies: Anda dapat menggunakan parameter Time for Delayed Execution untuk menentukan durasi tunggu node anak sebelum dijalankan setelah workflow dieksekusi. Parameter ini tidak diatur dalam tutorial ini.
Di bilah alat node, klik Save.
Langkah 4: Sinkronisasi data
Sinkronkan data.
Di bilah alat workflow, klik Run. Atur nilai untuk variabel parameter yang didefinisikan di setiap node untuk eksekusi ini. Tutorial ini menggunakan
20250223, tetapi Anda dapat mengubah nilainya sesuai kebutuhan. Lalu, klik OK dan tunggu hingga eksekusi selesai.Kueri hasil sinkronisasi data.
Di panel navigasi kiri DataStudio, klik
untuk membuka halaman Pengembangan Data. Kemudian, di area folder pribadi, klik
untuk membuat file dengan ekstensi .sql. Anda dapat menentukan nama file sendiri.Di bagian bawah halaman, pastikan mode bahasa adalah
MaxCompute SQL.
Di jendela pengeditan node, masukkan pernyataan SQL berikut untuk melihat jumlah catatan yang diimpor ke
ods_raw_log_ddanods_user_info_d. Hal ini memastikan apakah data yang disinkronkan telah ditulis ke tabel tujuan.-- Anda perlu mengubah kondisi filter partisi ke waktu data aktual untuk operasi Anda saat ini. Dalam tutorial ini, parameter debug bizdate (waktu data) diatur ke 20250223. SELECT count(*) FROM ods_user_info_d WHERE dt='your_data_timestamp'; SELECT count(*) FROM ods_raw_log_d WHERE dt='your_data_timestamp';Jika kueri mengembalikan data, sinkronisasi data telah selesai.
Jika tidak ada data yang dikembalikan, pastikan Value Used in This Run yang dikonfigurasi untuk eksekusi workflow cocok dengan waktu data yang ditentukan oleh
dtdalam kueri. Anda dapat mengklik workflow, klik Running History di panel kanan, lalu klik View di kolom Actions untuk catatan eksekusi guna mengonfirmasi nilai waktu data (partition=[pt=xxx]) dalam log eksekusi workflow.
Langkah selanjutnya
Setelah Anda mengonfigurasi sinkronisasi data, Anda dapat melanjutkan ke tutorial berikutnya untuk mempelajari cara memproses dan menganalisis data yang telah disinkronkan. Untuk informasi selengkapnya, lihat Proses data.