Build a User Persona Pipeline by Syncing MySQL & OSS to MaxCompute-DataWorks-Alibaba Cloud

Tutorial ini menggunakan dua sumber data sebagai contoh: tabel ods_user_info_d di MySQL, yang berisi informasi dasar pengguna, dan file user_log.txt di OSS, yang berisi data log akses website. Anda akan menggunakan task sinkronisasi batch Data Integration untuk menyinkronkan data dari sumber-sumber tersebut ke tabel ods_user_info_d dan ods_raw_log_d di MaxCompute. Tutorial ini menjelaskan cara menggunakan Data Integration DataWorks untuk menyinkronkan data antar sumber data heterogen guna membangun gudang data.

Prasyarat

Pastikan Anda telah menyiapkan lingkungan operasi yang diperlukan. Untuk informasi selengkapnya, lihat Siapkan lingkungan.

1. Buat sumber data

Untuk memastikan data dapat diproses pada langkah-langkah berikutnya, Anda harus menambahkan sumber data berikut ke ruang kerja DataWorks Anda guna mengambil data mentah.

Sumber data MySQL: Tutorial ini menggunakan sumber data bernama user_behavior_analysis_mysql untuk mengambil informasi dasar pengguna (ods_user_info_d) dari MySQL.
Sumber data HttpFile: Dalam tutorial ini, sumber data diberi nama user_behavior_analysis_httpfile dan digunakan untuk mengambil log akses website pengguna (user_log.txt) yang disimpan di OSS.

Catatan

Jika Anda telah membuat sumber data MySQL dan HttpFile untuk tutorial analisis persona pengguna lainnya, Anda dapat melewati langkah ini.

Buat sumber data MySQL (user_behavior_analysis_mysql)

Informasi dasar pengguna untuk tutorial ini disimpan dalam database MySQL. Anda harus membuat sumber data MySQL untuk menyinkronkan informasi pengguna (ods_user_info_d) dari database ke MaxCompute.

Buka halaman Sumber Data.
1. Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih More > Management Center. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down lalu klik Go to Management Center.
2. Di panel navigasi kiri, klik Data Sources untuk membuka halaman Sumber Data.
Klik Add Data Source. Cari dan pilih MySQL sebagai tipe sumber data.

Pada halaman Add MySQL Data Source, konfigurasikan parameter berikut. Untuk tutorial ini, gunakan nilai contoh yang sama untuk lingkungan pengembangan maupun produksi.

Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

Parameter	Deskripsi
Data Source Name	Masukkan nama untuk sumber data. Untuk tutorial ini, masukkan `user_behavior_analysis_mysql`.
Data Source Description	Sumber data ini digunakan untuk tutorial DataWorks. Baca data dari sumber data ini saat Anda mengonfigurasi task sinkronisasi batch untuk mengakses data uji yang disediakan oleh platform. Sumber data ini hanya dapat dibaca dalam skenario Data Integration. Modul lain tidak dapat menggunakannya.
Configuration Mode	Pilih Connection String Mode.
Connection Address	Alamat IP host: `rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com` Port: `3306`
Database Name	Masukkan nama database. Untuk tutorial ini, masukkan `workshop`.
Username	Masukkan username. Untuk tutorial ini, masukkan `workshop`.
Password	Masukkan password. Untuk tutorial ini, masukkan `workshop#2017`.
Authentication Method	Tidak ada autentikasi.

Pada bagian Connection Configuration, klik Test Network Connectivity untuk lingkungan produksi maupun pengembangan. Pastikan status konektivitasnya adalah Connected.
Penting
- Pastikan kelompok sumber daya telah disambungkan ke ruang kerja dan akses jaringan publik telah diaktifkan. Jika tidak, sinkronisasi data akan gagal. Untuk informasi selengkapnya, lihat Siapkan lingkungan.
- Jika Anda tidak memiliki kelompok sumber daya yang tersedia, ikuti petunjuk di bagian konfigurasi koneksi. Klik Purchase dan Associated Purchased Resource Group.
Klik Complete Creation.

Buat sumber data HttpFile (user_behavior_analysis_httpfile)

Log akses website pengguna untuk tutorial ini disimpan di OSS. Anda harus membuat sumber data HttpFile untuk menyinkronkan log akses website pengguna (user_log.txt) dari OSS ke MaxCompute.

Klik Data Sources di panel navigasi kiri.
Klik Add Data Source. Pada kotak dialog Add Data Source, cari dan pilih HttpFile sebagai tipe sumber data.

Pada halaman Add HttpFile Data Source, konfigurasikan parameter berikut. Untuk tutorial ini, gunakan nilai contoh yang sama untuk lingkungan pengembangan maupun produksi.

Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

Parameter	Deskripsi
Data Source Name	Masukkan nama sumber data. Untuk tutorial ini, masukkan `user_behavior_analysis_httpfile`.
Data Source Description	Sumber data ini digunakan untuk tutorial DataWorks. Baca data dari sumber data ini saat Anda mengonfigurasi task sinkronisasi batch untuk mengakses data uji yang disediakan oleh platform. Sumber data ini hanya dapat dibaca dalam skenario Data Integration. Modul lain tidak dapat menggunakannya.
URL	Atur URL menjadi `https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com` untuk lingkungan pengembangan maupun produksi.

Pada bagian Connection Configuration, klik Test Network Connectivity untuk lingkungan produksi maupun pengembangan. Pastikan status konektivitasnya adalah Connected.
Penting
- Pastikan kelompok sumber daya telah disambungkan ke ruang kerja dan akses jaringan publik telah diaktifkan. Jika tidak, sinkronisasi data akan gagal. Untuk informasi selengkapnya, lihat Siapkan lingkungan.
- Jika Anda tidak memiliki kelompok sumber daya yang tersedia, ikuti petunjuk di bagian konfigurasi koneksi. Klik Purchase dan Associated Purchased Resource Group.
Klik Complete Creation.

2. Bangun pipeline sinkronisasi

Pada langkah ini, Anda akan membangun pipeline sinkronisasi untuk menyinkronkan informasi pengguna dan log akses website ke tabel MaxCompute masing-masing, sehingga data siap untuk pemrosesan lebih lanjut.

Klik ikon di pojok kiri atas dan pilih All Products > Data Development And Task Operation > DataStudio. Lalu, di bagian atas halaman, alihkan ke ruang kerja yang dibuat untuk tutorial ini.
Di panel navigasi kiri, klik untuk membuka halaman Pengembangan Data. Kemudian, di area Workspace Directories, klik , pilih Create Workflow, dan masukkan nama workflow. Untuk tutorial ini, nama diatur menjadi user_profile_analysis.

Pada halaman orkestrasi workflow, klik Create Node, seret satu node Zero Load Node dan dua node Batch Synchronization dari panel kiri ke kanvas, lalu beri nama node-node tersebut.

Tabel berikut menunjukkan contoh nama node dan fungsinya dalam tutorial ini.

Tipe Node	Nama Node	Fungsi Node
Zero Load Node	`workshop_start`	Mengelola seluruh workflow analisis persona pengguna dan memperjelas jalur penerusan data. Node ini merupakan node Dry-run dan tidak memerlukan pengeditan kode.
Batch Synchronization	`ods_user_info_d`	Menyinkronkan informasi dasar pengguna dari MySQL ke tabel `ods_user_info_d` di MaxCompute.
Batch Synchronization	`ods_raw_log_d`	Menyinkronkan catatan akses website pengguna dari OSS ke tabel `ods_raw_log_d` di MaxCompute.

Seret koneksi untuk mengatur node workshop_start sebagai node leluhur dari dua node sinkronisasi batch, seperti yang ditunjukkan pada gambar berikut.

Konfigurasikan properti penjadwalan workflow.

Pada kanvas workflow, klik Scheduling di panel kanan dan konfigurasikan parameter berikut. Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

Parameter Penjadwalan	Deskripsi
Scheduling Parameters	Anda dapat mengonfigurasi parameter penjadwalan untuk seluruh workflow. Node internal workflow dapat langsung menggunakan parameter penjadwalan yang dikonfigurasi. Dalam tutorial ini, parameter diatur menjadi `bizdate=$[yyyymmdd-1]` untuk mendapatkan tanggal hari sebelumnya.
Scheduling Cycle	Diatur ke `Day` untuk tutorial ini.
Scheduling Time	Dalam tutorial ini, Scheduling Time diatur ke `00:30`, yang berarti workflow akan dimulai setiap hari pada pukul `00:30`.
Scheduling Dependencies	Workflow ini tidak memiliki dependensi hulu, sehingga Anda tidak perlu mengonfigurasi apa pun. Untuk mempermudah manajemen, klik Use Workspace Root Node untuk menyambungkan workflow ke node root ruang kerja. Format penamaan untuk node root ruang kerja adalah `workspace_name_root`.

3. Konfigurasikan task sinkronisasi

Konfigurasikan node awal

Pada halaman orkestrasi workflow, arahkan kursor ke node workshop_start dan klik Open Node.

Di panel kanan halaman konfigurasi node workshop_start, klik Scheduling dan konfigurasikan parameter yang diperlukan. Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

Parameter Penjadwalan	Deskripsi
Scheduling Type	Tutorial ini menggunakan `dry-run scheduling`.
Resource Group	Untuk tutorial ini, pilih kelompok sumber daya Serverless yang dibuat pada langkah Siapkan lingkungan.
Scheduling Dependencies	Karena `workshop_start` adalah node awal dan tidak memiliki dependensi hulu, Anda dapat mengklik Use Workspace Root Node untuk memicu eksekusi workflow dari node root ruang kerja. Node root ruang kerja diberi nama `workspace_name_root`.

Konfigurasikan pipeline sinkronisasi data pengguna (ods_user_info_d)

Pada halaman orkestrasi workflow, arahkan kursor ke node ods_user_info_d dan klik Open Node.

Konfigurasikan jaringan dan sumber daya untuk pipeline sinkronisasi.

Parameter	Description
Source	Data source: `MySQL`. Data source name: `user_behavior_analysis_mysql`.
Resource Group	Pilih kelompok sumber daya Serverless yang telah Anda beli pada langkah Prepare the environment.
Destination	Data Destination: `MaxCompute(ODPS)`. Data Source Name: Pilih resource komputasi MaxCompute yang telah Anda sambungkan pada langkah Prepare the environment. Contohnya, `MaxCompute_Source`.

Klik Next untuk mengonfigurasi task sinkronisasi.

Configure Source and Destination

Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

Modul	Item Konfigurasi	Deskripsi
Data source	Table	Pilih `ods_user_info_d`.
Data source	Split key	Kunci shard diatur ke bidang `uid`. Bidang `uid` adalah kunci primary dari tabel `ods_user_info_d` di MySQL.
Destination	Tunnel Resource Group	Tutorial ini menggunakan Common transmission resources secara default. Jika Anda memiliki Kuota Tunnel eksklusif, Anda dapat memilihnya dari daftar drop-down. Untuk informasi selengkapnya tentang Kuota Tunnel eksklusif, lihat Beli dan gunakan kelompok sumber daya eksklusif untuk Data Transmission Service.
	Table	Klik Generate Destination Table Schema untuk membuat tabel MaxCompute secara cepat. Tempel pernyataan DDL berikut ke bagian Statement for Creating Table lalu klik Create Table. Tabel ini menerima data pengguna dari sumber. `CREATE TABLE IF NOT EXISTS ods_user_info_d ( uid STRING COMMENT 'User ID', gender STRING COMMENT 'Gender', age_range STRING COMMENT 'Age range', zodiac STRING COMMENT 'Zodiac sign' ) PARTITIONED BY ( dt STRING ) LIFECYCLE 7;`
	Partition information	Untuk tutorial ini, masukkan `${bizdate}`. Ini memungkinkan Anda menetapkan nilai konstan untuk parameter `bizdate` selama fase pengujian, dan menetapkan nilai secara dinamis untuk parameter `bizdate` selama eksekusi terjadwal. Untuk informasi tentang format variabel dan metode konfigurasi yang didukung oleh DataStudio, lihat Scheduling Parameters.

Konfirmasi Field Mapping dan Channel Control.
DataWorks menyinkronkan data dari bidang sumber yang ditentukan ke bidang tujuan yang ditentukan berdasarkan Pemetaan bidang yang dikonfigurasi. Anda juga dapat mengatur konkurensi dan mengonfigurasi kebijakan untuk data kotor. Untuk tutorial ini, atur Policy for Dirty Data Records ke Disallow Dirty Data Records. Biarkan nilai bawaan untuk pengaturan lainnya. Untuk informasi selengkapnya, lihat Mengonfigurasi tugas sinkronisasi menggunakan Antarmuka tanpa kode.

Konfigurasikan parameter debug.

Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Run Configuration. Konfigurasikan parameter berikut untuk menguji eksekusi pada Langkah 4: Sinkronisasi data.

Item Konfigurasi	Deskripsi
Resource Group	Pilih kelompok sumber daya Serverless yang Anda beli pada langkah Siapkan lingkungan.
Script Parameters	Anda tidak perlu mengonfigurasi parameter ini. Dalam tutorial ini, kode contoh menggunakan `${bizdate}` untuk merepresentasikan waktu data. Saat Anda melakukan debug workflow pada Langkah 4, atur Value Used in This Run ke nilai konstan tertentu, misalnya `20250223`. Eksekusi pekerjaan kemudian akan menggunakan konstanta ini untuk menggantikan variabel yang didefinisikan dalam pekerjaan.

(Opsional) Konfigurasikan properti penjadwalan.
Untuk tutorial ini, Anda dapat mempertahankan nilai default untuk parameter penjadwalan. Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Scheduling. Untuk informasi selengkapnya tentang parameter tersebut, lihat Konfigurasi penjadwalan node.
- Scheduling Parameters: Parameter ini telah dikonfigurasi untuk workflow. Node internal tidak memerlukan konfigurasi terpisah dan dapat langsung menggunakan parameter tersebut dalam task atau kode.
- Scheduling Policies: Anda dapat menggunakan parameter Time for Delayed Execution untuk menentukan durasi tunggu node anak sebelum dijalankan setelah workflow dieksekusi. Parameter ini tidak diatur dalam tutorial ini.
Di bilah alat node, klik Save.

Konfigurasikan pipeline sinkronisasi log pengguna (ods_raw_log_d)

Pada halaman orkestrasi workflow, arahkan kursor ke node ods_raw_log_d dan klik Open Node.

Konfigurasikan jaringan dan sumber daya untuk pipeline sinkronisasi.

Parameter	Deskripsi
Source	Sumber data: `HttpFile`. Nama sumber data: `user_behavior_analysis_HttpFile`.
Resource Group	Pilih kelompok sumber daya Serverless yang Anda beli pada langkah Siapkan lingkungan.
Destination	Tujuan Data: `MaxCompute(ODPS)`. Nama Sumber Data: Pilih sumber daya komputasi MaxCompute yang Anda sambungkan pada tahap Siapkan lingkungan. Dalam contoh ini, namanya adalah `MaxCompute_Source`.

Klik Next untuk mengonfigurasi task sinkronisasi.

Configure Source and Destination

Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

Modul	Item Konfigurasi	Deskripsi
Data source	File path	Untuk tutorial ini, masukkan `/user_log.txt`.
	Text type	Tutorial ini menggunakan tipe `text`.
	Column Delimiter	Untuk tutorial ini, masukkan `\|`.
	Advanced configuration > Skip Header	Untuk tutorial ini, pilih `No` agar header tabel tidak dilewati.
Penting Setelah Anda mengonfigurasi sumber data, klik Confirm Data Structure untuk memeriksa apakah file log dapat dibaca dengan benar.
Destination	Tunnel Resource Group	Tutorial ini menggunakan Common transmission resources secara default. Jika Anda memiliki Kuota Tunnel eksklusif, Anda dapat memilihnya dari daftar drop-down. Untuk informasi selengkapnya tentang Kuota Tunnel eksklusif, lihat Beli dan gunakan kelompok sumber daya eksklusif untuk Data Transmission Service.
	Table	Klik Generate Destination Table Schema untuk membuat tabel MaxCompute secara cepat. Tempel pernyataan DDL berikut ke bagian Statement for Creating Table lalu klik Create Table. `CREATE TABLE IF NOT EXISTS ods_raw_log_d ( col STRING ) PARTITIONED BY ( dt STRING ) LIFECYCLE 7;`
	Partition information	Untuk tutorial ini, masukkan `${bizdate}`. Ini memungkinkan Anda menetapkan nilai konstan untuk parameter `bizdate` selama fase pengujian, dan menetapkan nilai secara dinamis untuk parameter `bizdate` selama eksekusi terjadwal. Untuk informasi tentang format variabel dan metode konfigurasi yang didukung oleh DataStudio, lihat Scheduling Parameters.

Konfirmasi Field Mapping dan Channel Control.
DataWorks menyinkronkan data dari bidang sumber yang ditentukan ke bidang tujuan yang ditentukan berdasarkan pemetaan bidang yang dikonfigurasi. Anda juga dapat mengatur konkurensi dan mengonfigurasi kebijakan untuk data kotor. Untuk tutorial ini, atur Policy for Dirty Data Records ke Disallow Dirty Data Records. Anda dapat mempertahankan nilai default untuk pengaturan lainnya. Untuk informasi selengkapnya, lihat Konfigurasikan task sinkronisasi menggunakan Antarmuka tanpa kode.

Konfigurasikan parameter debug.

Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Run Configuration. Konfigurasikan parameter berikut untuk menguji eksekusi pada Langkah 4: Sinkronisasi data.

Item Konfigurasi	Deskripsi
Resource Group	Pilih kelompok sumber daya Serverless yang Anda beli pada langkah Siapkan lingkungan.
Script Parameters	Anda tidak perlu mengonfigurasi parameter ini. Dalam tutorial ini, kode contoh menggunakan `${bizdate}` untuk merepresentasikan waktu data. Saat Anda melakukan debug workflow pada Langkah 4, atur Value Used in This Run ke nilai konstan tertentu, misalnya `20250223`. Eksekusi pekerjaan kemudian akan menggunakan konstanta ini untuk menggantikan variabel yang didefinisikan dalam pekerjaan.

(Opsional) Konfigurasikan properti penjadwalan.
Untuk tutorial ini, Anda dapat mempertahankan nilai default untuk parameter penjadwalan. Di panel kanan halaman konfigurasi task sinkronisasi batch, klik Scheduling. Untuk informasi selengkapnya tentang parameter tersebut, lihat Konfigurasi penjadwalan node.
- Scheduling Parameters: Parameter ini telah dikonfigurasi untuk workflow. Node internal tidak memerlukan konfigurasi terpisah dan dapat langsung menggunakan parameter tersebut dalam task atau kode.
- Scheduling Policies: Anda dapat menggunakan parameter Time for Delayed Execution untuk menentukan durasi tunggu node anak sebelum dijalankan setelah workflow dieksekusi. Parameter ini tidak diatur dalam tutorial ini.
Di bilah alat node, klik Save.

Langkah 4: Sinkronisasi data

Sinkronkan data.
Di bilah alat workflow, klik Run. Atur nilai untuk variabel parameter yang didefinisikan di setiap node untuk eksekusi ini. Tutorial ini menggunakan 20250223, tetapi Anda dapat mengubah nilainya sesuai kebutuhan. Lalu, klik OK dan tunggu hingga eksekusi selesai.
Kueri hasil sinkronisasi data.
1. Di panel navigasi kiri DataStudio, klik untuk membuka halaman Pengembangan Data. Kemudian, di area folder pribadi, klik untuk membuat file dengan ekstensi .sql. Anda dapat menentukan nama file sendiri.
2. Di bagian bawah halaman, pastikan mode bahasa adalah MaxCompute SQL.
3. Di jendela pengeditan node, masukkan pernyataan SQL berikut untuk melihat jumlah catatan yang diimpor ke ods_raw_log_d dan ods_user_info_d. Hal ini memastikan apakah data yang disinkronkan telah ditulis ke tabel tujuan.
```
-- Anda perlu mengubah kondisi filter partisi ke waktu data aktual untuk operasi Anda saat ini. Dalam tutorial ini, parameter debug bizdate (waktu data) diatur ke 20250223.
SELECT count(*) FROM ods_user_info_d WHERE dt='your_data_timestamp'; 
SELECT count(*) FROM ods_raw_log_d WHERE dt='your_data_timestamp';
```
  - Jika kueri mengembalikan data, sinkronisasi data telah selesai.
  - Jika tidak ada data yang dikembalikan, pastikan Value Used in This Run yang dikonfigurasi untuk eksekusi workflow cocok dengan waktu data yang ditentukan oleh dt dalam kueri. Anda dapat mengklik workflow, klik Running History di panel kanan, lalu klik View di kolom Actions untuk catatan eksekusi guna mengonfirmasi nilai waktu data (partition=[pt=xxx]) dalam log eksekusi workflow.

Langkah selanjutnya

Setelah Anda mengonfigurasi sinkronisasi data, Anda dapat melanjutkan ke tutorial berikutnya untuk mempelajari cara memproses dan menganalisis data yang telah disinkronkan. Untuk informasi selengkapnya, lihat Proses data.