Tutorial ini menggunakan studi kasus analisis profil pengguna untuk menunjukkan alur kerja end-to-end di DataWorks—termasuk sinkronisasi data, transformasi data, dan pemantauan kualitas—di wilayah China (Shanghai). Untuk menyelesaikan tutorial ini, Anda harus menyiapkan proyek MaxCompute yang diperlukan, ruang kerja DataWorks, serta konfigurasi sumber data, komputasi, dan penyimpanan yang sesuai.
Latar Belakang
Untuk mendukung strategi bisnis secara lebih baik, Anda perlu menganalisis perilaku pengguna di website Anda. Hal ini melibatkan pembuatan profil pengguna dasar yang mencakup atribut geografis dan sosial, serta menjalankan analisis terjadwal untuk memungkinkan operasi traffic website yang bersifat fine-grained.
Sebelum memulai
Untuk menyelesaikan tutorial ini dengan sukses, baca Pengenalan eksperimen guna memahami alur kerja studi kasus analisis profil pengguna.
Catatan
Tutorial ini menyediakan informasi pengguna dan data uji akses website yang dapat Anda gunakan langsung.
Data yang disediakan merupakan data tiruan dan hanya ditujukan untuk latihan praktik menggunakan platform DataWorks.
Tutorial ini menggunakan DataStudio (legacy) untuk transformasi data.
Persiapkan lingkungan MaxCompute
1. Aktifkan MaxCompute
Tutorial ini berbasis MaxCompute. Pastikan Anda telah mengaktifkan MaxCompute. Gunakan parameter berikut untuk mengaktifkan MaxCompute di wilayah China (Shanghai).
Region: China (Shanghai)
Type: Standard compute resources.
2. Buat proyek MaxCompute
Ruang kerja DataWorks dalam mode standar mengharuskan Anda menghubungkan dua proyek MaxCompute: satu sebagai sumber daya komputasi untuk lingkungan pengembangan dan satu lagi untuk lingkungan produksi.
Buka Konsol MaxCompute. Di panel navigasi sebelah kiri, pilih .
Klik New Project untuk membuat dua proyek MaxCompute. Tabel berikut mencantumkan parameter utama untuk tutorial ini. Biarkan parameter lain pada nilai default-nya. Untuk informasi selengkapnya, lihat Create a project.
Parameter
Description
Project Name
Nama kustom, harus unik secara global.
Contoh dalam tutorial ini:
Lingkungan produksi:
workshop2024_01.Lingkungan pengembangan:
workshop2024_01_dev.
Billing Method of Computing Resources
Pilih Pay-as-you-go untuk tutorial ini.
Default Quota
Pilih kuota postpaid default dari daftar drop-down untuk tutorial ini.
Data Type
Pilih tipe data 2.0 (direkomendasikan) dari daftar drop-down untuk tutorial ini.
Storage Encryption
Pilih No encryption untuk tutorial ini.
Untuk informasi lebih lanjut tentang pembuatan proyek MaxCompute, lihat Create a project.
Persiapkan lingkungan DataWorks
Sebelum mulai mengembangkan dengan DataWorks, pastikan layanan DataWorks telah diaktifkan. Untuk informasi selengkapnya, lihat Purchase guide.
1. Buat ruang kerja
Login ke Konsol DataWorks, ganti wilayah menjadi China (Shanghai) di bagian atas, lalu klik Work space di panel navigasi sebelah kiri untuk masuk ke halaman daftar ruang kerja.
Klik Create Workspace untuk membuat ruang kerja dalam standard mode (Isolate Development and Production Environments). Jangan pilih Use Data Studio (New Version).
Setelah 18 Februari 2025, ketika Akun Alibaba Cloud pertama kali mengaktifkan DataWorks di wilayah China (Shanghai) dan membuat ruang kerja, Data Studio versi baru akan diaktifkan secara default, dan parameter Use Data Studio (New Version) tidak lagi ditampilkan. Jika Data Studio versi baru diaktifkan secara default, lihat Data Studio (new version) tutorial untuk panduan yang sesuai.
Untuk informasi lebih lanjut tentang pembuatan ruang kerja, lihat Create a workspace.
2. Buat kelompok sumber daya serverless
Tutorial ini memerlukan sinkronisasi data yang tersimpan di OSS dan MySQL ke MaxCompute. Tugas sinkronisasi menggunakan kelompok sumber daya serverless DataWorks, sehingga Anda perlu terlebih dahulu membeli kelompok sumber daya serverless dan menyelesaikan penyiapan prasyarat.
Beli kelompok sumber daya serverless.
Tutorial ini menggunakan kelompok sumber daya serverless DataWorks untuk sinkronisasi data dan penjadwalan, sehingga Anda perlu terlebih dahulu membeli kelompok sumber daya serverless dan menyelesaikan penyiapan prasyarat.
Login ke halaman Daftar Kelompok Sumber Daya DataWorks. Ganti wilayah menjadi China (Shanghai) di bagian atas, lalu klik Resource Group di panel navigasi sebelah kiri untuk masuk ke halaman Resource Groups.
Klik Create Resource Group. Di halaman pembelian kelompok sumber daya, atur Region and Zone menjadi China (Shanghai), konfigurasikan Resource Group Name, dan atur parameter lain sesuai petunjuk. Lalu selesaikan pembayaran sesuai instruksi. Untuk rincian penagihan kelompok sumber daya serverless, lihat Serverless resource group billing.
CatatanJika tidak tersedia VPC atau vSwitch di wilayah saat ini, klik tautan konsol yang sesuai dalam deskripsi parameter untuk membuatnya. Untuk informasi lebih lanjut tentang VPC dan vSwitch, lihat What is VPC.
Hubungkan kelompok sumber daya dengan ruang kerja DataWorks.
Kelompok sumber daya serverless yang baru dibeli harus dihubungkan dengan ruang kerja sebelum dapat digunakan dalam operasi selanjutnya.
Login ke halaman Daftar Kelompok Sumber Daya DataWorks. Ganti wilayah menjadi China (Shanghai) di bagian atas, temukan kelompok sumber daya serverless yang telah dibeli, klik Associate Workspace di kolom Operation, lalu klik Associate di samping ruang kerja DataWorks yang telah dibuat.
Konfigurasikan akses Internet untuk kelompok sumber daya.
Karena data uji yang digunakan dalam tutorial ini harus diambil melalui Internet, dan kelompok sumber daya tidak memiliki akses Internet secara default, Anda perlu mengonfigurasi Gateway NAT Internet dan menyambungkan EIP ke VPC yang terikat pada kelompok sumber daya tersebut agar dapat terhubung ke jaringan data publik dan mengambil data.
Masuk ke Konsol VPC - Internet NAT Gateway, lalu beralih ke wilayah China (Shanghai) pada bilah menu atas.
Klik Create Internet NAT Gateway dan konfigurasikan parameter. Berikut adalah parameter utama untuk contoh ini. Biarkan parameter lain pada nilai default-nya.
Parameter
Value
Region
China (Shanghai).
Network and Zone
Pilih VPC dan vSwitch yang terikat pada kelompok sumber daya.
Anda dapat membuka Konsol DataWorks, ganti wilayah, klik Resource Groups di panel navigasi sebelah kiri, temukan kelompok sumber daya yang telah dibuat, klik Network Settings di kolom Operation, lalu lihat VPC dan Switch di bagian Data Scheduling & Data Integration. Untuk informasi lebih lanjut tentang VPC dan vSwitch, lihat What is VPC.
Network Type
Internet NAT Gateway.
EIP
Purchase a new EIP.
Create Linked Role
Saat pertama kali membuat NAT Gateway, Anda harus membuat service-linked role. Klik Create Service-Linked Role.
Klik Buy Now, pilih perjanjian layanan, lalu klik Activate untuk menyelesaikan pembelian.
Untuk informasi lebih lanjut tentang penambahan dan penggunaan kelompok sumber daya serverless, lihat Use serverless resource groups.
3. Hubungkan proyek MaxCompute
Anda harus terlebih dahulu menghubungkan proyek MaxCompute yang telah dibuat sebagai sumber daya komputasi dengan ruang kerja DataWorks sebelum dapat memproses data di MaxCompute melalui modul Data Studio.
Buka halaman daftar ruang kerja DataWorks. Ganti wilayah menjadi China (Shanghai) di bagian atas, temukan ruang kerja yang telah dibuat, lalu klik nama ruang kerja tersebut untuk masuk ke halaman Workspace Details.
Klik Computing Resources di panel navigasi sebelah kiri untuk secara otomatis dialihkan ke halaman .
Klik Create Computing Resource, pilih Compute Resource Type yang akan dihubungkan, lalu konfigurasikan parameter.
Tutorial ini menggunakan MaxCompute sebagai sumber daya komputasi dan penyimpanan, sehingga pilih MaxCompute sebagai tipe sumber daya komputasi dan konfigurasikan parameter terkait. Berikut adalah parameter utama untuk contoh ini. Biarkan parameter lain pada nilai default-nya.
Parameter
Description
Data Source Name
Nama kustom yang digunakan untuk mengidentifikasi sumber daya komputasi. Saat tugas dijalankan, sumber daya komputasi dipilih berdasarkan nama instans-nya.
Alibaba Cloud Account
Atur ke Current Alibaba Cloud Account.
Region
Pilih China (Shanghai), wilayah yang sama dengan ruang kerja DataWorks saat ini.
MaxCompute Project Name
Pilih proyek MaxCompute yang akan dihubungkan. Dalam tutorial ini, hubungkan proyek MaxCompute yang sesuai yang telah dibuat di Langkah 2 untuk lingkungan produksi dan pengembangan masing-masing.
Default Access Identity
Menentukan identitas yang digunakan untuk mengakses proyek MaxCompute dari ruang kerja saat ini.
Lingkungan pengembangan: Saat ini hanya didukung akses menggunakan identitas Executor.
Lingkungan produksi: Pilih dari daftar drop-down berdasarkan akun yang sedang login. Tutorial ini memilih Alibaba Cloud primary account.
CatatanJika Anda login dengan identitas lain, lihat New Data Studio: Associate a MaxCompute compute resource untuk konfigurasi spesifik.
Connection Configuration
Kelompok sumber daya yang digunakan untuk terhubung ke sumber daya komputasi MaxCompute. Kelompok sumber daya serverless yang telah dibuat dan dihubungkan dengan ruang kerja saat ini akan ditampilkan di sini. Anda harus menguji konektivitas untuk lingkungan pengembangan maupun produksi.
Klik Create and Associate Computing Resource with DataStudio.
Sesuai petunjuk di halaman, refresh halaman sumber daya komputasi Data Studio untuk melihat sumber daya komputasi MaxCompute yang telah dibuat dan dihubungkan.
CatatanJika sumber daya komputasi MaxCompute yang telah dibuat berada dalam status Not Associated, klik tombol Associate untuk menghubungkannya.
Langkah berikutnya
Anda telah menyelesaikan persiapan lingkungan. Anda dapat melanjutkan ke tutorial berikutnya, di mana Anda akan mempelajari cara menyinkronkan data informasi pengguna dasar dan data log akses website pengguna ke MaxCompute. Untuk informasi selengkapnya, lihat Data synchronization.