Tutorial ini menunjukkan cara membangun profil pengguna di Wilayah China (Shanghai) menggunakan dataset mentah dari DataWorks untuk memandu Anda melalui seluruh proses sinkronisasi data, transformasi data, dan pemantauan kualitas. Sebelum memulai, Anda harus menyiapkan proyek MaxCompute dan ruang kerja DataWorks serta mengonfigurasi sumber data, sumber daya komputasi, dan sumber daya penyimpanan.
Latar belakang bisnis
Untuk menyusun strategi bisnis yang lebih baik, Anda perlu memperoleh data profil dasar tentang kelompok pengguna website berdasarkan perilaku mereka di website, termasuk atribut geografis dan sosial. Hal ini memungkinkan Anda melakukan analisis profil secara berkala dan menerapkan operasi traffic website yang bersifat detail halus.
Sebelum memulai
Untuk mengikuti tutorial ini, baca pengantar untuk memahami eksperimen analisis profil pengguna.
Catatan
Tutorial ini menyediakan informasi pengguna dan data uji akses website yang diperlukan.
Data dalam tutorial ini hanya ditujukan untuk latihan praktis menggunakan DataWorks dan merupakan data tiruan (mock data).
Tutorial ini menggunakan Data Studio (versi baru) untuk transformasi data.
Persiapkan lingkungan MaxCompute
1. Aktifkan MaxCompute
Tutorial ini menggunakan MaxCompute. Pertama, aktifkan MaxCompute di Wilayah China (Shanghai) dengan parameter berikut.
Region: China (Shanghai)
Specifications Type: Standard.
2. Buat proyek MaxCompute
Ruang kerja DataWorks standar memerlukan dua proyek MaxCompute: satu untuk lingkungan pengembangan dan satu untuk lingkungan produksi, yang berfungsi sebagai sumber daya komputasi.
Buka Konsol MaxCompute. Di panel navigasi sebelah kiri, pilih .
Klik Create Project untuk membuat dua proyek MaxCompute. Tabel berikut mencantumkan parameter utama untuk tutorial ini. Gunakan nilai default untuk parameter yang tidak disebutkan.
Configuration item
Configuration
Project Name (Globally Unique)
Kustom. Harus unik secara global.
Tutorial ini menggunakan:
Lingkungan produksi: workshop2024_01
Lingkungan pengembangan: workshop2024_01_dev
Billing Method
Tutorial ini menggunakan: Pay-as-you-go.
Default Quota
Tutorial ini menggunakan: os_PayAsYouGoQuota.
Data Type Edition
Tutorial ini menggunakan: 2.0 Data Type (Recommended).
Storage Encryption
Tutorial ini menggunakan: Tidak terenkripsi.
Untuk informasi selengkapnya tentang cara membuat proyek MaxCompute, lihat Create a MaxCompute project.
Persiapkan lingkungan DataWorks
Sebelum menggunakan DataWorks untuk pengembangan, pastikan layanan DataWorks telah diaktifkan. Untuk informasi selengkapnya, lihat Purchase.
1. Buat ruang kerja
Jika Anda sudah memiliki ruang kerja (versi baru) di Wilayah China (Shanghai), Anda dapat melewati langkah ini dan menggunakan ruang kerja yang sudah ada.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, atur wilayah ke China (Shanghai). Di panel navigasi sebelah kiri, klik Workspace untuk membuka halaman daftar ruang kerja.
Klik Create Workspace untuk membuat ruang kerja Use Data Studio (New Version), dan aktifkan Isolate Development and Production Environments.
CatatanMulai 18 Februari 2025, Data Studio versi baru diaktifkan secara default saat Akun Alibaba Cloud pertama kali mengaktifkan DataWorks dan membuat ruang kerja di Wilayah China (Shanghai).
Untuk informasi selengkapnya tentang cara membuat ruang kerja, lihat Create a workspace.
2. Buat kelompok sumber daya serverless
Beli kelompok sumber daya Serverless.
Tutorial ini memerlukan kelompok sumber daya Serverless DataWorks untuk sinkronisasi data dan penjadwalan. Anda harus membeli kelompok sumber daya Serverless dan menyelesaikan pengaturan awal terlebih dahulu.
Masuk ke halaman DataWorks - Resource Group List. Di bilah navigasi atas, atur wilayah ke China (Shanghai). Di panel navigasi sebelah kiri, klik Resource Group untuk membuka halaman daftar kelompok sumber daya.
Klik Create Resource Group. Di halaman pembelian, atur Region And Zone ke China (Shanghai) dan tentukan Resource Group Name. Konfigurasikan parameter lain sesuai petunjuk dan selesaikan pembayaran. Untuk informasi tentang penagihan kelompok sumber daya Serverless, lihat Billing of Serverless resource groups.
CatatanJika tidak tersedia VPC atau vSwitch di wilayah saat ini, klik tautan konsol dalam deskripsi parameter untuk membuatnya. Untuk informasi selengkapnya tentang VPC dan vSwitch, lihat What is a virtual private cloud (VPC)?.
Bind kelompok sumber daya ke ruang kerja DataWorks.
Kelompok sumber daya Serverless yang baru dibeli harus di-bind ke ruang kerja sebelum dapat digunakan.
Masuk ke halaman DataWorks - Resource Group List dan atur wilayah ke China (Shanghai) di bilah navigasi atas. Temukan kelompok sumber daya serverless yang telah Anda beli. Di kolom Actions, klik Associate Workspace, lalu klik Associate di sebelah ruang kerja DataWorks yang telah Anda buat.
Konfigurasikan akses jaringan publik untuk kelompok sumber daya.
Data uji untuk tutorial ini diambil dari internet. Secara default, kelompok sumber daya tidak memiliki akses jaringan publik. Anda harus mengonfigurasi Internet NAT Gateway untuk VPC yang di-bind ke kelompok sumber daya dan menambahkan EIP untuk mengambil data dari jaringan publik.
Masuk ke Konsol VPC - Internet NAT Gateway. Di bilah menu atas, atur wilayah ke China (Shanghai).
Klik Create Internet NAT Gateway dan konfigurasikan parameter. Tabel berikut mencantumkan parameter utama untuk tutorial ini. Gunakan nilai default untuk parameter yang tidak disebutkan.
Parameter
Value
Region
China (Shanghai).
Network And Zone
Pilih VPC dan vSwitch yang di-bind ke kelompok sumber daya.
Anda dapat membuka Konsol DataWorks dan beralih ke wilayah China (Shanghai). Di panel navigasi sebelah kiri, klik Resource Group. Temukan kelompok sumber daya yang telah Anda buat dan klik Network Settings di kolom Actions. Di area Data Scheduling & Data Integration, lihat VPC dan VSwitch yang terkait. Untuk informasi selengkapnya tentang VPC dan vSwitch, lihat What is a virtual private cloud (VPC)?.
Network Type
Internet NAT Gateway.
EIP
Create EIP.
Service-linked Role Creation
Saat pertama kali membuat NAT Gateway, Anda harus membuat peran terkait layanan. Klik Create Service-linked Role.
Klik Buy Now, pilih ketentuan layanan, lalu klik Activate Now untuk menyelesaikan pembelian.
Setelah instans NAT Gateway berhasil dibeli, kembali ke konsol untuk membuat Entri SNAT untuk instans NAT Gateway yang baru dibeli.
CatatanKelompok sumber daya yang menggunakan VPC ini hanya dapat mengakses Internet setelah Entri SNAT dikonfigurasi.
Temukan instans yang baru dibeli, klik Manage di kolom Actions untuk membuka halaman manajemen instans NAT Gateway tersebut, lalu beralih ke tab SNAT.
Di bagian SNAT Entry List, klik Create SNAT Entry. Konfigurasi utamanya adalah sebagai berikut:
Parameter
Value
SNAT Entry
Pilih Specify VPC. Ini memastikan bahwa semua kelompok sumber daya dalam VPC tempat NAT Gateway berada dapat mengakses Internet melalui EIP yang dikonfigurasi.
Select EIP
Pilih EIP yang di-bind ke instans NAT Gateway saat ini.
Setelah mengonfigurasi parameter, klik OK untuk membuat Entri SNAT.
Di daftar Entri SNAT, ketika status Entri SNAT yang baru dibuat berubah menjadi Available, berarti VPC yang di-bind ke kelompok sumber daya kini memiliki kemampuan akses Internet.
Untuk informasi selengkapnya tentang cara menambahkan dan menggunakan kelompok sumber daya Serverless, lihat Use a Serverless resource group.
3. Bind MaxCompute sebagai sumber daya komputasi
Anda harus meng-bind proyek MaxCompute yang telah Anda buat ke ruang kerja DataWorks sebagai sumber daya komputasi agar dapat memproses data di MaxCompute melalui modul Data Studio.
Buka halaman DataWorks - Workspace List. Di bilah navigasi atas, atur wilayah ke China (Shanghai). Temukan ruang kerja yang telah Anda buat dan klik namanya untuk membuka halaman Workspace Details.
Di panel navigasi sebelah kiri, klik Computing Resource.
Klik Associate Computing Resource, pilih jenis sumber daya komputasi, lalu konfigurasikan parameter.
Tutorial ini menggunakan MaxCompute sebagai sumber daya komputasi dan penyimpanan. Pilih MaxCompute sebagai jenis sumber daya komputasi dan konfigurasikan parameternya. Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.
Parameter
Description
MaxCompute Project
Pilih proyek MaxCompute yang akan di-bind. Untuk tutorial ini, bind proyek MaxCompute yang sesuai yang dibuat pada Langkah 2 ke lingkungan produksi dan pengembangan.
Default Access Identity
Menentukan identitas yang digunakan untuk mengakses proyek MaxCompute dari ruang kerja saat ini.
Lingkungan pengembangan: Hanya identitas Executor yang didukung.
Lingkungan produksi: Pilih dari daftar drop-down berdasarkan akun login saat ini. Tutorial ini menggunakan Alibaba Cloud Account.
CatatanJika Anda masuk dengan identitas berbeda, lihat New Data Studio: Bind a MaxCompute computing resource untuk detail konfigurasi.
Computing Resource Instance Name
Nama kustom untuk mengidentifikasi sumber daya komputasi. Nama ini digunakan untuk memilih sumber daya komputasi saat menjalankan task.
Connection Configuration
Kelompok sumber daya yang digunakan untuk menghubungkan ke sumber daya komputasi MaxCompute. Kelompok sumber daya Serverless yang telah Anda buat dan bind ke ruang kerja saat ini akan ditampilkan di sini. Anda harus menguji konektivitas untuk lingkungan pengembangan maupun produksi.
Klik Confirm untuk menyelesaikan konfigurasi sumber daya komputasi MaxCompute.
Untuk informasi selengkapnya tentang cara mengikat sumber daya komputasi, lihat Mengikat sumber daya komputasi.
Langkah selanjutnya
Sekarang Anda telah menyiapkan lingkungan, Anda dapat melanjutkan ke tutorial berikutnya. Di tutorial berikutnya, Anda akan mempelajari cara menyinkronkan informasi pengguna dasar dan log akses website pengguna ke OSS, lalu menggunakan node ODPS SQL untuk membuat tabel dan mengkueri data yang telah disinkronkan. Untuk informasi selengkapnya, lihat Synchronize data.