全部产品
Search
文档中心

DataWorks:Persiapkan lingkungan

更新时间:Feb 04, 2026

Tutorial ini menunjukkan cara membangun profil pengguna di Wilayah China (Shanghai) menggunakan dataset mentah dari DataWorks untuk memandu Anda melalui seluruh proses sinkronisasi data, transformasi data, dan pemantauan kualitas. Sebelum memulai, Anda harus menyiapkan proyek MaxCompute dan ruang kerja DataWorks serta mengonfigurasi sumber data, sumber daya komputasi, dan sumber daya penyimpanan.

Latar belakang bisnis

Untuk menyusun strategi bisnis yang lebih baik, Anda perlu memperoleh data profil dasar tentang kelompok pengguna website berdasarkan perilaku mereka di website, termasuk atribut geografis dan sosial. Hal ini memungkinkan Anda melakukan analisis profil secara berkala dan menerapkan operasi traffic website yang bersifat detail halus.

Sebelum memulai

Untuk mengikuti tutorial ini, baca pengantar untuk memahami eksperimen analisis profil pengguna.

Catatan

  • Tutorial ini menyediakan informasi pengguna dan data uji akses website yang diperlukan.

  • Data dalam tutorial ini hanya ditujukan untuk latihan praktis menggunakan DataWorks dan merupakan data tiruan (mock data).

  • Tutorial ini menggunakan Data Studio (versi baru) untuk transformasi data.

Persiapkan lingkungan MaxCompute

1. Aktifkan MaxCompute

Tutorial ini menggunakan MaxCompute. Pertama, aktifkan MaxCompute di Wilayah China (Shanghai) dengan parameter berikut.

  • Region: China (Shanghai)

  • Specifications Type: Standard.

2. Buat proyek MaxCompute

Ruang kerja DataWorks standar memerlukan dua proyek MaxCompute: satu untuk lingkungan pengembangan dan satu untuk lingkungan produksi, yang berfungsi sebagai sumber daya komputasi.

  1. Buka Konsol MaxCompute. Di panel navigasi sebelah kiri, pilih Manage Configurations > Projects.

  2. Klik Create Project untuk membuat dua proyek MaxCompute. Tabel berikut mencantumkan parameter utama untuk tutorial ini. Gunakan nilai default untuk parameter yang tidak disebutkan.

    Configuration item

    Configuration

    Project Name (Globally Unique)

    Kustom. Harus unik secara global.

    Tutorial ini menggunakan:

    • Lingkungan produksi: workshop2024_01

    • Lingkungan pengembangan: workshop2024_01_dev

    Billing Method

    Tutorial ini menggunakan: Pay-as-you-go.

    Default Quota

    Tutorial ini menggunakan: os_PayAsYouGoQuota.

    Data Type Edition

    Tutorial ini menggunakan: 2.0 Data Type (Recommended).

    Storage Encryption

    Tutorial ini menggunakan: Tidak terenkripsi.

Untuk informasi selengkapnya tentang cara membuat proyek MaxCompute, lihat Create a MaxCompute project.

Persiapkan lingkungan DataWorks

Sebelum menggunakan DataWorks untuk pengembangan, pastikan layanan DataWorks telah diaktifkan. Untuk informasi selengkapnya, lihat Purchase.

1. Buat ruang kerja

Jika Anda sudah memiliki ruang kerja (versi baru) di Wilayah China (Shanghai), Anda dapat melewati langkah ini dan menggunakan ruang kerja yang sudah ada.

  1. Masuk ke Konsol DataWorks. Di bilah navigasi atas, atur wilayah ke China (Shanghai). Di panel navigasi sebelah kiri, klik Workspace untuk membuka halaman daftar ruang kerja.

  2. Klik Create Workspace untuk membuat ruang kerja Use Data Studio (New Version), dan aktifkan Isolate Development and Production Environments.

    Catatan

    Mulai 18 Februari 2025, Data Studio versi baru diaktifkan secara default saat Akun Alibaba Cloud pertama kali mengaktifkan DataWorks dan membuat ruang kerja di Wilayah China (Shanghai).

Untuk informasi selengkapnya tentang cara membuat ruang kerja, lihat Create a workspace.

2. Buat kelompok sumber daya serverless

  1. Beli kelompok sumber daya Serverless.

    Tutorial ini memerlukan kelompok sumber daya Serverless DataWorks untuk sinkronisasi data dan penjadwalan. Anda harus membeli kelompok sumber daya Serverless dan menyelesaikan pengaturan awal terlebih dahulu.

    1. Masuk ke halaman DataWorks - Resource Group List. Di bilah navigasi atas, atur wilayah ke China (Shanghai). Di panel navigasi sebelah kiri, klik Resource Group untuk membuka halaman daftar kelompok sumber daya.

    2. Klik Create Resource Group. Di halaman pembelian, atur Region And Zone ke China (Shanghai) dan tentukan Resource Group Name. Konfigurasikan parameter lain sesuai petunjuk dan selesaikan pembayaran. Untuk informasi tentang penagihan kelompok sumber daya Serverless, lihat Billing of Serverless resource groups.

      Catatan

      Jika tidak tersedia VPC atau vSwitch di wilayah saat ini, klik tautan konsol dalam deskripsi parameter untuk membuatnya. Untuk informasi selengkapnya tentang VPC dan vSwitch, lihat What is a virtual private cloud (VPC)?.

  2. Bind kelompok sumber daya ke ruang kerja DataWorks.

    Kelompok sumber daya Serverless yang baru dibeli harus di-bind ke ruang kerja sebelum dapat digunakan.

    Masuk ke halaman DataWorks - Resource Group List dan atur wilayah ke China (Shanghai) di bilah navigasi atas. Temukan kelompok sumber daya serverless yang telah Anda beli. Di kolom Actions, klik Associate Workspace, lalu klik Associate di sebelah ruang kerja DataWorks yang telah Anda buat.

  3. Konfigurasikan akses jaringan publik untuk kelompok sumber daya.

    Data uji untuk tutorial ini diambil dari internet. Secara default, kelompok sumber daya tidak memiliki akses jaringan publik. Anda harus mengonfigurasi Internet NAT Gateway untuk VPC yang di-bind ke kelompok sumber daya dan menambahkan EIP untuk mengambil data dari jaringan publik.

    1. Masuk ke Konsol VPC - Internet NAT Gateway. Di bilah menu atas, atur wilayah ke China (Shanghai).

    2. Klik Create Internet NAT Gateway dan konfigurasikan parameter. Tabel berikut mencantumkan parameter utama untuk tutorial ini. Gunakan nilai default untuk parameter yang tidak disebutkan.

      Parameter

      Value

      Region

      China (Shanghai).

      Network And Zone

      Pilih VPC dan vSwitch yang di-bind ke kelompok sumber daya.

      Anda dapat membuka Konsol DataWorks dan beralih ke wilayah China (Shanghai). Di panel navigasi sebelah kiri, klik Resource Group. Temukan kelompok sumber daya yang telah Anda buat dan klik Network Settings di kolom Actions. Di area Data Scheduling & Data Integration, lihat VPC dan VSwitch yang terkait. Untuk informasi selengkapnya tentang VPC dan vSwitch, lihat What is a virtual private cloud (VPC)?.

      Network Type

      Internet NAT Gateway.

      EIP

      Create EIP.

      Service-linked Role Creation

      Saat pertama kali membuat NAT Gateway, Anda harus membuat peran terkait layanan. Klik Create Service-linked Role.

    3. Klik Buy Now, pilih ketentuan layanan, lalu klik Activate Now untuk menyelesaikan pembelian.

    4. Setelah instans NAT Gateway berhasil dibeli, kembali ke konsol untuk membuat Entri SNAT untuk instans NAT Gateway yang baru dibeli.

      Catatan

      Kelompok sumber daya yang menggunakan VPC ini hanya dapat mengakses Internet setelah Entri SNAT dikonfigurasi.

      1. Temukan instans yang baru dibeli, klik Manage di kolom Actions untuk membuka halaman manajemen instans NAT Gateway tersebut, lalu beralih ke tab SNAT.

      2. Di bagian SNAT Entry List, klik Create SNAT Entry. Konfigurasi utamanya adalah sebagai berikut:

        Parameter

        Value

        SNAT Entry

        Pilih Specify VPC. Ini memastikan bahwa semua kelompok sumber daya dalam VPC tempat NAT Gateway berada dapat mengakses Internet melalui EIP yang dikonfigurasi.

        Select EIP

        Pilih EIP yang di-bind ke instans NAT Gateway saat ini.

      3. Setelah mengonfigurasi parameter, klik OK untuk membuat Entri SNAT.

      Di daftar Entri SNAT, ketika status Entri SNAT yang baru dibuat berubah menjadi Available, berarti VPC yang di-bind ke kelompok sumber daya kini memiliki kemampuan akses Internet.

Untuk informasi selengkapnya tentang cara menambahkan dan menggunakan kelompok sumber daya Serverless, lihat Use a Serverless resource group.

3. Bind MaxCompute sebagai sumber daya komputasi

Anda harus meng-bind proyek MaxCompute yang telah Anda buat ke ruang kerja DataWorks sebagai sumber daya komputasi agar dapat memproses data di MaxCompute melalui modul Data Studio.

  1. Buka halaman DataWorks - Workspace List. Di bilah navigasi atas, atur wilayah ke China (Shanghai). Temukan ruang kerja yang telah Anda buat dan klik namanya untuk membuka halaman Workspace Details.

  2. Di panel navigasi sebelah kiri, klik Computing Resource.

  3. Klik Associate Computing Resource, pilih jenis sumber daya komputasi, lalu konfigurasikan parameter.

    Tutorial ini menggunakan MaxCompute sebagai sumber daya komputasi dan penyimpanan. Pilih MaxCompute sebagai jenis sumber daya komputasi dan konfigurasikan parameternya. Tabel berikut menjelaskan parameter utama. Anda dapat mempertahankan nilai default untuk parameter lainnya.

    Parameter

    Description

    MaxCompute Project

    Pilih proyek MaxCompute yang akan di-bind. Untuk tutorial ini, bind proyek MaxCompute yang sesuai yang dibuat pada Langkah 2 ke lingkungan produksi dan pengembangan.

    Default Access Identity

    Menentukan identitas yang digunakan untuk mengakses proyek MaxCompute dari ruang kerja saat ini.

    • Lingkungan pengembangan: Hanya identitas Executor yang didukung.

    • Lingkungan produksi: Pilih dari daftar drop-down berdasarkan akun login saat ini. Tutorial ini menggunakan Alibaba Cloud Account.

      Catatan

      Jika Anda masuk dengan identitas berbeda, lihat New Data Studio: Bind a MaxCompute computing resource untuk detail konfigurasi.

    Computing Resource Instance Name

    Nama kustom untuk mengidentifikasi sumber daya komputasi. Nama ini digunakan untuk memilih sumber daya komputasi saat menjalankan task.

    Connection Configuration

    Kelompok sumber daya yang digunakan untuk menghubungkan ke sumber daya komputasi MaxCompute. Kelompok sumber daya Serverless yang telah Anda buat dan bind ke ruang kerja saat ini akan ditampilkan di sini. Anda harus menguji konektivitas untuk lingkungan pengembangan maupun produksi.

  4. Klik Confirm untuk menyelesaikan konfigurasi sumber daya komputasi MaxCompute.

Untuk informasi selengkapnya tentang cara mengikat sumber daya komputasi, lihat Mengikat sumber daya komputasi.

Langkah selanjutnya

Sekarang Anda telah menyiapkan lingkungan, Anda dapat melanjutkan ke tutorial berikutnya. Di tutorial berikutnya, Anda akan mempelajari cara menyinkronkan informasi pengguna dasar dan log akses website pengguna ke OSS, lalu menggunakan node ODPS SQL untuk membuat tabel dan mengkueri data yang telah disinkronkan. Untuk informasi selengkapnya, lihat Synchronize data.