Tutorial ini menggunakan pembuatan profil pengguna sebagai contoh. Berdasarkan dataset mentah yang disediakan oleh DataWorks, tutorial ini memandu Anda melalui operasi end-to-end sinkronisasi data, pemrosesan, dan pemantauan kualitas di DataWorks di Wilayah China (Shanghai). Siapkan proyek MaxCompute, ruang kerja DataWorks, serta konfigurasikan sumber data, sumber daya komputasi, dan sumber daya penyimpanan yang diperlukan terlebih dahulu.
Latar Belakang
Untuk merumuskan strategi bisnis yang lebih baik, Anda perlu mengekstraksi data profil dasar kelompok pengguna website—seperti atribut geografis dan sosial—dari perilaku pengguna di website. Hal ini memungkinkan analisis profil terjadwal dan mendukung operasi detail halus terhadap traffic website.
Sebelum memulai
Sebelum memulai, baca Pengenalan eksperimen untuk memahami alur kerja keseluruhan kasus penggunaan analisis profil pengguna.
Catatan
Tutorial ini menyediakan data informasi pengguna dan data uji akses website yang diperlukan. Anda dapat menggunakannya secara langsung.
Data yang disediakan dalam tutorial ini hanya untuk latihan praktis di platform Alibaba Cloud DataWorks. Semua data merupakan data tiruan (mock data).
Tutorial ini menggunakan Data Studio (Versi Baru) untuk pemrosesan data.
Persiapkan lingkungan MaxCompute
Langkah 1: Aktifkan MaxCompute
Tutorial ini berbasis MaxCompute. Pastikan Anda telah mengaktifkan MaxCompute. Anda dapat merujuk pada parameter berikut untuk mengaktifkan MaxCompute di Wilayah China (Shanghai).
Region: China (Shanghai)
Type: Standard compute resources.
Langkah 2: Buat proyek MaxCompute
Ruang kerja DataWorks dalam mode standar harus dikaitkan dengan dua proyek MaxCompute, yang masing-masing berfungsi sebagai sumber daya komputasi untuk lingkungan pengembangan dan lingkungan produksi.
Buka Konsol MaxCompute. Di panel navigasi kiri, pilih .
Klik New Project dan buat dua proyek MaxCompute. Tabel berikut menjelaskan parameter utama yang diperlukan untuk contoh ini. Gunakan nilai default untuk parameter yang tidak dijelaskan.
Parameter
Description
Project Name
Disesuaikan, harus unik secara global.
Contoh yang digunakan dalam tutorial ini:
Lingkungan produksi: workshop2024_01
Lingkungan pengembangan: workshop2024_01_dev
Billing Method of Computing Resources
Pilih Pay-as-you-go untuk tutorial ini.
Default Quota
Pilih os_PayAsYouGoQuota (Pay-as-you-go Standard Edition) dari daftar drop-down untuk tutorial ini.
Data Type
Pilih 2.0 data types (recommended) dari daftar drop-down untuk tutorial ini.
Storage Encryption
Pilih Not Encrypted untuk tutorial ini.
Untuk informasi lebih lanjut tentang membuat proyek MaxCompute, lihat Create a project.
Persiapkan lingkungan DataWorks
Sebelum memulai pengembangan dengan DataWorks, pastikan DataWorks telah diaktifkan. Untuk informasi lebih lanjut, lihat Purchase guide.
Langkah 1: Buat ruang kerja
Jika Anda sudah memiliki ruang kerja (baru) di Wilayah China (Shanghai), Anda dapat melewati langkah ini dan menggunakan ruang kerja yang sudah ada.
Masuk ke Konsol DataWorks, alihkan wilayah di bilah navigasi atas ke China (Shanghai), lalu klik Work space di panel navigasi kiri untuk membuka halaman daftar ruang kerja.
Klik Create Workspace untuk membuat ruang kerja dalam mode standar (Isolate Development and Production Environments) yang menggunakan Use Data Studio (New Version).
CatatanSetelah 18 Februari 2025, ketika Akun Alibaba Cloud mengaktifkan DataWorks dan membuat ruang kerja di Wilayah China (Shanghai) untuk pertama kalinya, Data Studio versi baru akan diaktifkan secara default.
Untuk informasi lebih lanjut tentang membuat ruang kerja, lihat Create a workspace.
Langkah 2: Buat kelompok sumber daya serverless
Beli kelompok sumber daya serverless.
Tutorial ini menggunakan kelompok sumber daya serverless DataWorks untuk sinkronisasi data dan penjadwalan. Anda harus membeli kelompok sumber daya serverless terlebih dahulu dan menyelesaikan persiapan yang diperlukan.
Masuk ke halaman daftar kelompok sumber daya DataWorks, alihkan wilayah di bilah navigasi atas ke China (Shanghai), lalu klik Resource Group di panel navigasi kiri untuk membuka halaman Resource Groups.
Klik Create Resource Group. Di halaman pembelian kelompok sumber daya, atur Region and Zone menjadi China (Shanghai), konfigurasikan Resource Group Name, atur parameter lainnya sesuai petunjuk di halaman, lalu selesaikan pembayaran sesuai instruksi. Untuk informasi tentang penagihan kelompok sumber daya serverless, lihat Serverless resource group billing.
CatatanJika tidak tersedia VPC atau vSwitch di wilayah saat ini, klik tautan konsol yang sesuai dalam deskripsi parameter untuk membuatnya. Untuk informasi lebih lanjut tentang VPC dan vSwitch, lihat What is VPC.
Kaitkan kelompok sumber daya dengan ruang kerja DataWorks.
Kelompok sumber daya serverless yang baru dibeli harus dikaitkan dengan ruang kerja sebelum dapat digunakan dalam operasi selanjutnya.
Masuk ke halaman daftar kelompok sumber daya DataWorks, ubah Wilayah di bilah navigasi atas menjadi China (Shanghai), temukan kelompok sumber daya serverless yang telah dibeli, klik Associate Workspace pada kolom Operation, lalu klik Associate di sebelah ruang kerja DataWorks yang telah dibuat.
Konfigurasikan akses Internet untuk kelompok sumber daya.
Karena data uji yang digunakan dalam tutorial ini harus diperoleh melalui Internet, dan kelompok sumber daya tidak memiliki akses Internet secara default, Anda harus mengonfigurasi Gateway NAT Internet untuk VPC yang dikaitkan dengan kelompok sumber daya tersebut dan menambahkan EIP. Hal ini memungkinkan kelompok sumber daya mengakses jaringan publik dan memperoleh data.
Masuk ke Konsol VPC - Internet NAT Gateway dan alihkan wilayah di bilah navigasi atas ke China (Shanghai).
Klik Create Internet NAT Gateway dan konfigurasikan parameter. Tabel berikut menjelaskan parameter utama yang diperlukan untuk contoh ini. Gunakan nilai default untuk parameter yang tidak dijelaskan.
Parameter
Value
Region
China (Shanghai).
Network and Zone
Pilih VPC dan vSwitch yang dikaitkan dengan kelompok sumber daya.
Anda dapat membuka Konsol DataWorks, alihkan ke wilayah China (Shanghai), lalu klik Resource Group di panel navigasi kiri untuk membuka halaman Resource Groups. Temukan kelompok sumber daya yang telah dibuat dan klik Network Settings di kolom Operation. Di bagian Data Scheduling & Data Integration, lihat VPC dan Switch. Untuk informasi lebih lanjut tentang VPC dan vSwitch, lihat What is VPC.
Network Type
Internet NAT Gateway.
EIP
Create an EIP.
Create Service-Linked Role
Saat membuat gateway NAT untuk pertama kalinya, Anda harus membuat peran terkait layanan. Klik Create Service-Linked Role.
Klik Buy Now, pilih perjanjian layanan, lalu klik Activate untuk menyelesaikan pembelian.
Setelah instans gateway NAT dibeli, klik Back to Console untuk membuat entri SNAT untuk instans gateway NAT yang baru dibeli.
CatatanKelompok sumber daya dalam VPC hanya dapat mengakses Internet setelah entri SNAT dikonfigurasi.
Klik Management di kolom Operation instans yang baru dibeli untuk membuka halaman manajemen instans gateway NAT yang dituju, lalu alihkan ke tab SNAT Management.
Di SNAT Entry List, klik Create SNAT Entry untuk membuat entri NAT. Konfigurasi utamanya adalah sebagai berikut:
Parameter
Value
SNAT Entry Granularity
Pilih VPC granularity untuk memastikan semua kelompok sumber daya dalam VPC tempat gateway NAT berada dapat mengakses Internet melalui EIP yang dikonfigurasi.
Select EIP
Konfigurasikan EIP yang dikaitkan dengan instans gateway NAT saat ini.
Setelah mengonfigurasi parameter entri SNAT, klik OK untuk membuat entri SNAT.
Di SNAT Entry List, ketika Status entri SNAT yang baru dibuat berubah menjadi Enabled, VPC yang dikaitkan dengan kelompok sumber daya telah memiliki akses Internet.
Untuk informasi lebih lanjut tentang membuat dan menggunakan kelompok sumber daya serverless, lihat Use serverless resource groups.
Langkah 3: Kaitkan MaxCompute sebagai sumber daya komputasi
Anda harus terlebih dahulu mengaitkan proyek MaxCompute yang telah dibuat dengan ruang kerja DataWorks sebagai sumber daya komputasi. Setelah itu, Anda dapat memproses data di MaxCompute melalui Data Studio.
Buka halaman daftar ruang kerja DataWorks, alihkan wilayah di bilah navigasi atas ke China (Shanghai), temukan ruang kerja yang telah dibuat, lalu klik nama ruang kerja tersebut untuk membuka halaman Workspace Details.
Di panel navigasi kiri, klik Computing Resources.
Klik Associate Computing Resources, pilih Compute Resource Type yang akan dikaitkan, lalu konfigurasikan parameter terkait.
Tutorial ini menggunakan MaxCompute sebagai sumber daya komputasi dan penyimpanan. Pilih MaxCompute sebagai jenis sumber daya komputasi dan konfigurasikan parameter terkait. Tabel berikut menjelaskan parameter utama yang diperlukan untuk contoh ini. Gunakan nilai default untuk parameter yang tidak dijelaskan.
Parameter
Description
MaxCompute Project
Pilih proyek MaxCompute yang akan dikaitkan. Dalam tutorial ini, kaitkan proyek MaxCompute yang sesuai yang telah dibuat di Langkah 2 untuk lingkungan produksi dan lingkungan pengembangan, masing-masing.
Default Access Identity
Menentukan identitas yang digunakan untuk mengakses proyek MaxCompute dari ruang kerja saat ini.
Lingkungan pengembangan: Saat ini hanya didukung akses menggunakan identitas Executor.
Lingkungan produksi: Anda dapat memilih dari daftar drop-down berdasarkan akun yang sedang masuk. Tutorial ini memilih Alibaba Cloud primary account.
CatatanJika Anda masuk dengan jenis akun lain, lihat New Data Studio: Associate a MaxCompute compute resource untuk konfigurasi spesifik.
Computing Resource Instance Name
Nama kustom yang digunakan untuk mengidentifikasi sumber daya komputasi. Saat tugas dijalankan, Anda memilih sumber daya komputasi untuk tugas tersebut berdasarkan nama instans sumber daya komputasi.
Connection Configuration
Kelompok sumber daya yang digunakan untuk menghubungkan ke sumber daya komputasi MaxCompute. Kelompok sumber daya serverless yang telah dibuat dan dikaitkan dengan ruang kerja saat ini akan ditampilkan di sini. Anda harus menguji konektivitas untuk lingkungan pengembangan dan lingkungan produksi secara terpisah.
Klik Confirm untuk menyelesaikan konfigurasi sumber daya komputasi MaxCompute.
Untuk informasi lebih lanjut tentang mengaitkan sumber daya komputasi, lihat Associate a computing resource.
Langkah berikutnya
Sekarang Anda telah menyiapkan lingkungan, Anda dapat melanjutkan ke tutorial berikutnya. Di tutorial berikutnya, Anda akan mempelajari cara menyinkronkan data informasi dasar pengguna dan data log akses website pengguna ke OSS, lalu menggunakan node ODPS SQL untuk membuat tabel dan mengkueri data yang telah disinkronkan. Untuk informasi lebih lanjut, lihat Synchronize data.