Memulai Cepat DataWorks: Analisis Kategori Produk Terlaris - DataWorks

Tutorial ini mencakup ingesti data, pemrosesan, penjadwalan, dan visualisasi menggunakan fitur inti DataWorks.

Pendahuluan

Tutorial ini menunjukkan cara membangun pipa data—mulai dari ingesti data mentah hingga analisis dan visualisasi—menggunakan skenario e-commerce. Proses standar ini membantu Anda membangun alur data yang dapat digunakan ulang dengan cepat, dilengkapi penjadwalan dan observabilitas yang andal, sehingga menurunkan hambatan penerapan aplikasi data besar dan memungkinkan pengguna bisnis mengekstraksi nilai tanpa mengelola detail teknis.

Anda akan melakukan tugas-tugas berikut:

Sinkronisasi data: Buat tugas sinkronisasi batch di Data Integration untuk memindahkan data bisnis ke platform komputasi seperti MaxCompute.
Pembersihan data: Bersihkan, analisis, dan eksplorasi data di Data Studio.
Visualisasi data: Visualisasikan hasil analisis di Data Analysis agar lebih mudah diinterpretasi oleh pihak bisnis.
Penjadwalan: Jadwalkan tugas sinkronisasi dan pembersihan untuk berjalan secara otomatis.

Anda akan menyinkronkan data produk dan pesanan mentah dari sumber publik ke MaxCompute, lalu menganalisisnya untuk menghasilkan peringkat harian kategori terlaris:

Prasyarat

Gunakan Akun Alibaba Cloud atau Pengguna RAM dengan izin AliyunDataWorksFullAccess. Untuk informasi selengkapnya, lihat Persiapkan Akun Alibaba Cloud atau Persiapkan Pengguna RAM.

Catatan

DataWorks mendukung kontrol izin granular pada tingkat produk dan modul. Untuk detailnya, lihat Ikhtisar sistem pengelolaan izin DataWorks.

Persiapan

Aktifkan DataWorks

Tutorial ini menggunakan wilayah Singapore. Masuk ke Konsol DataWorks, alihkan ke wilayah Singapore, dan periksa apakah DataWorks telah diaktifkan di wilayah tersebut.

Catatan

Tutorial ini menggunakan Singapore. Pilih wilayah tempat data Anda berada:

Jika data bisnis Anda berada di layanan Alibaba Cloud lainnya, pilih wilayah yang sama.
Jika bisnis Anda berada di lingkungan on-premises dan memerlukan akses melalui jaringan publik, pilih wilayah yang secara geografis lebih dekat untuk mengurangi latensi akses.

Pengguna baru

Pengguna baru akan melihat prompt berikut. Klik Purchase Product Portfolio for Free.

Konfigurasikan parameter pada halaman pembelian paket.

Parameter	Deskripsi	Contoh
Region	Pilih wilayah target.	Singapura
DataWorks Edition	Pilih edisi DataWorks yang akan dibeli. Catatan Tutorial ini menggunakan Basic Edition sebagai contoh. Semua edisi dapat mengalami fitur-fitur yang terlibat dalam tutorial ini. Anda dapat merujuk ke Detail fitur berdasarkan edisi DataWorks untuk memilih edisi DataWorks yang sesuai dengan kebutuhan bisnis Anda.	Basic Edition

Klik Confirm Order and Pay untuk menyelesaikan pembayaran.

Telah diaktifkan tetapi kedaluwarsa

Jika Anda sebelumnya telah mengaktifkan DataWorks di wilayah Singapore tetapi edisi DataWorks telah kedaluwarsa, prompt berikut akan muncul, dan Anda perlu mengklik Purchase Edition.

Konfigurasikan parameter pada halaman pembelian.

Parameter	Deskripsi	Contoh
Edition	Pilih edisi DataWorks yang akan dibeli. Catatan Tutorial ini menggunakan Basic Edition sebagai contoh. Semua edisi dapat mengalami fitur-fitur yang terlibat dalam tutorial ini. Anda dapat merujuk ke Detail fitur berdasarkan edisi DataWorks untuk memilih edisi DataWorks yang sesuai dengan kebutuhan bisnis Anda.	Basic Edition
Region and Zone	Pilih wilayah tempat Anda ingin mengaktifkan DataWorks.	Singapura

Klik Buy Now untuk menyelesaikan pembayaran.

Penting

Setelah membeli edisi DataWorks, jika Anda tidak dapat menemukan edisi DataWorks yang relevan, lakukan operasi berikut:

Tunggu beberapa menit dan refresh halaman, karena mungkin terjadi penundaan dalam pembaruan sistem.
Periksa apakah wilayah saat ini sesuai dengan wilayah tempat Anda membeli edisi DataWorks untuk mencegah kegagalan menemukan edisi DataWorks yang relevan akibat pemilihan wilayah yang salah.

Telah diaktifkan

Jika Anda telah mengaktifkan DataWorks di wilayah Singapore, Anda akan masuk ke halaman ikhtisar DataWorks dan dapat langsung melanjutkan ke langkah berikutnya.

Buat ruang kerja

Di halaman Daftar Ruang Kerja DataWorks, pilih Singapore dan klik Create Workspace.
Di halaman Create Workspace, masukkan Workspace Name kustom, aktifkan Use Data Studio (New Version), lalu klik Create Workspace.
Catatan
Setelah 18 Februari 2025, ruang kerja baru yang dibuat oleh akun utama di Singapura akan mengaktifkan DataStudio versi baru secara default. Opsi Use Data Studio (New Version) tidak akan muncul.

Buat dan asosiasikan sumber daya

Buka halaman Daftar Kelompok Sumber Daya DataWorks, alihkan ke wilayah Singapore, lalu klik Create Resource Group.

Di halaman pembelian kelompok sumber daya, konfigurasikan parameter berikut.

Parameter	Deskripsi
Resource Group Name	Kustom.
VPC, vSwitch	Pilih VPC dan vSwitch yang sudah ada. Jika tidak ada di wilayah saat ini, klik tautan konsol dalam deskripsi parameter untuk membuatnya.
Service-linked Role	Ikuti petunjuk di layar untuk membuat peran terkait layanan.

Klik Buy Now untuk menyelesaikan pembayaran.
Buka halaman Kelompok Sumber Daya DataWorks, alihkan ke wilayah Singapore, temukan kelompok sumber daya yang telah dibuat, lalu klik Associate Workspace di kolom Actions.
Di halaman Associate Workspace, temukan ruang kerja DataWorks yang telah dibuat dan klik Associate di kolom Actions-nya.

Aktifkan akses jaringan publik

Data sampel untuk tutorial ini memerlukan akses jaringan publik. Kelompok sumber daya general-purpose tidak memiliki akses ini secara default. Anda harus mengonfigurasi Gateway NAT Internet dengan EIP untuk VPC yang terikat agar mengaktifkan akses tersebut.

Masuk ke Konsol VPC - Gateway NAT Internet, alihkan ke wilayah Singapore di bilah navigasi atas, lalu klik Create Internet NAT Gateway. Konfigurasikan parameter yang relevan.

Catatan

Gunakan nilai default untuk parameter yang tidak disebutkan dalam tabel.

Parameter	Nilai
Region	Singapura.
Network and Zone	Pilih VPC dan vSwitch yang terikat pada kelompok sumber daya. Anda dapat membuka halaman DataWorks Resource Groups, beralih ke wilayah Singapore, menemukan kelompok sumber daya yang telah dibuat, lalu mengklik Network Settings pada kolom Actions untuk melihat VPC Binding di bagian Data Scheduling & Data Integration. Untuk informasi selengkapnya mengenai VPC dan vSwitch, lihat Apa itu VPC?.
Network and Zone
Network Type	Internet NAT Gateway.
Elastic IP Address (EIP)	Beli EIP.
Service-linked Role	Saat membuat gateway NAT untuk pertama kalinya, Anda perlu membuat peran terkait layanan. Klik Create Service-Linked Role.

Klik Buy Now untuk menyelesaikan pembayaran dan membuat instans gateway NAT.

Setelah instans gateway NAT berhasil dibeli, kembali ke konsol untuk membuat entri SNAT untuk instans gateway NAT yang baru dibeli.

Catatan

Kelompok sumber daya hanya dapat mengakses jaringan publik setelah entri SNAT dikonfigurasi.

Klik tombol Manage di kolom Actions dari instans yang baru dibeli untuk masuk ke halaman pengelolaan instans gateway NAT target, lalu alihkan ke tab Configure SNAT.

Di bawah SNAT Entry List, klik tombol Create SNAT Entry untuk membuat entri NAT. Konfigurasi utamanya adalah sebagai berikut:

Parameter	Nilai
SNAT Entry	Pilih Specify VPC untuk mengizinkan semua kelompok sumber daya di VPC mengakses internet melalui EIP.
Select EIP	Konfigurasikan Alamat IP Elastis yang terikat pada instans gateway NAT saat ini.

Setelah menyelesaikan konfigurasi parameter entri SNAT, klik OK untuk membuat entri SNAT.

Saat Status entri SNAT menjadi Available, VPC telah memiliki akses internet.

Asosiasikan sumber daya MaxCompute

Buat proyek MaxCompute dan asosiasikan dengan DataWorks untuk ingesti dan analisis data.

Buka halaman Daftar Ruang Kerja DataWorks, alihkan ke wilayah Singapore, temukan ruang kerja yang telah dibuat, lalu klik nama ruang kerja tersebut untuk masuk ke halaman Workspace Details.

Di panel navigasi kiri, klik Computing Resource untuk masuk ke halaman sumber daya komputasi. Klik Associate Computing Resource dan pilih tipe MaxCompute. Konfigurasikan parameter utama berikut untuk membuat proyek MaxCompute dan mengasosiasikannya sebagai sumber daya komputasi DataWorks.

Catatan

Gunakan nilai default untuk parameter yang tidak disebutkan dalam tabel.

Parameter	Deskripsi
MaxCompute Project	Klik Create di kotak pilihan drop-down dan isi parameter berikut. Project Name: Kustom dan unik di seluruh jaringan. Billing Method: Pilih Pay-as-you-go. Catatan Jika opsi bayar sesuai penggunaan tidak tersedia, klik Activate untuk menyelesaikan aktivasi layanan MaxCompute. Default Quota: Pilih Kuota default yang sudah ada dari daftar drop-down.
Default Access Identity	Pilih Alibaba Cloud Account.
Computing Resource Instance Name	Mengidentifikasi sumber daya untuk eksekusi tugas. Misalnya, dalam tutorial ini diberi nama `MaxCompute_Source`.

Klik OK.

Prosedur

Tutorial ini menggunakan skenario berikut sebagai contoh untuk memandu Anda melalui pengalaman cepat fitur DataWorks:

Platform e-commerce menyimpan data produk dan pesanan di MySQL. Tujuannya adalah menganalisis data pesanan dan memvisualisasikan peringkat harian kategori terlaris.

Langkah 1: Sinkronisasi data

Buat sumber data

Buat sumber data MySQL untuk menghubungkan ke database yang menyimpan data sampel.

Catatan

DataWorks menyediakan database MySQL publik dengan data sampel. Anda tidak perlu menyiapkan data mentah. Data tabel yang relevan disimpan di database MySQL publik, dan Anda hanya perlu membuat sumber data MySQL untuk mengaksesnya.

Buka halaman Pusat Manajemen DataWorks, alihkan ke wilayah Singapore, pilih ruang kerja yang telah dibuat dari kotak drop-down, lalu klik Go to Management Center.

Di panel navigasi kiri, klik Data Sources. Klik Add Data Source, pilih tipe MySQL, lalu konfigurasikan parameter sumber data MySQL.

Catatan

Gunakan nilai default untuk parameter yang tidak tercantum.
Pengguna pertama kali harus menyelesaikan otorisasi lintas layanan. Ikuti petunjuk untuk mengotorisasi AliyunDIDefaultRole.

Parameter	Deskripsi
Data Source Name	Dalam contoh ini, yaitu MySQL_Source.
Configuration Mode	Pilih Connection String Mode.
Endpoint	Host Address IP: `rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com` Port Number: `3306`. Penting Data yang disediakan dalam tutorial ini semata-mata untuk berlatih aplikasi data di DataWorks. Semua data merupakan data uji dan hanya mendukung pembacaan di modul Data Integration.
Database Name	Atur ke `retail_e_commerce`.
Username	Masukkan username `workshop`.
Password	Masukkan password `workshop#2017`.

Di bagian Connection Configuration, alihkan ke tab Data Integration, temukan kelompok sumber daya yang diasosiasikan dengan ruang kerja, lalu klik Test Network Connectivity di kolom Connectivity Status.
Catatan
Jika pengujian konektivitas sumber data MySQL gagal, lakukan operasi berikut:
- Selesaikan operasi lanjutan dari tool diagnostik konektivitas.
- Periksa apakah EIP telah dikonfigurasi untuk VPC yang terikat pada kelompok sumber daya, karena sumber data MySQL memerlukan kemampuan akses jaringan publik pada kelompok sumber daya. Untuk detailnya, lihat Aktifkan akses jaringan publik.
Klik Complete Creation.

Bangun pipa sinkronisasi

Pada langkah ini, Anda perlu membangun pipa sinkronisasi untuk menyinkronkan data pesanan produk dari platform e-commerce ke tabel di MaxCompute sebagai persiapan untuk pemrosesan data selanjutnya.

Klik ikon di pojok kiri atas dan pilih All Products > Data Development and O&M > Data Studio untuk masuk ke halaman pengembangan data.
Alihkan ke ruang kerja yang dibuat dalam tutorial ini di bagian atas halaman, lalu klik di panel navigasi kiri untuk masuk ke halaman Workspace Directories.
Di area Workspace Directories, klik , pilih Create Workflow, lalu atur nama alur kerja. Dalam tutorial ini, diatur menjadi dw_quickstart.

Di halaman orkestrasi alur kerja, seret node Zero Load dan Batch Synchronization dari sisi kiri ke kanvas, lalu atur nama node masing-masing.

Nama dan fungsi node dijelaskan di bawah ini:

Tipe Node	Nama Node	Fungsi Node
Zero Load	`workshop`	Digunakan untuk mengelola seluruh alur kerja analisis profil pengguna, sehingga jalur alur data menjadi lebih jelas. Node ini merupakan tugas dry run dan tidak memerlukan pengeditan kode.
Batch Synchronization Node	`ods_item_info`	Digunakan untuk menyinkronkan tabel sumber informasi produk `item_info` yang disimpan di MySQL ke tabel `ods_item_info` di MaxCompute.
Batch Synchronization Node	`ods_trade_order`	Digunakan untuk menyinkronkan tabel sumber informasi pesanan `trade_order` yang disimpan di MySQL ke tabel `ods_trade_order` di MaxCompute.

Secara manual seret garis untuk mengatur node workshop sebagai node hulu untuk dua node sinkronisasi batch. Hasil akhirnya adalah sebagai berikut:

Konfigurasi penjadwalan alur kerja.

Klik Scheduling di sisi kanan halaman orkestrasi alur kerja untuk mengonfigurasi parameter yang relevan. Berikut adalah parameter utama yang diperlukan untuk tutorial ini. Gunakan nilai default untuk parameter yang tidak tercantum.

Parameter	Deskripsi
Scheduling Parameters	Atur parameter penjadwalan untuk seluruh alur kerja, yang dapat langsung digunakan oleh node internal dalam alur kerja. Dalam tutorial ini, konfigurasikan sebagai `bizdate=$[yyyymmdd-1]` untuk mendapatkan tanggal hari sebelumnya. Catatan DataWorks menyediakan parameter penjadwalan untuk memungkinkan input kode dinamis. Anda dapat mendefinisikan variabel dalam kode SQL menggunakan format `${Nama Variabel}` dan memberikan nilai untuk variabel tersebut di Scheduling > Scheduling Parameters. Untuk detail format yang didukung untuk parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan.
Scheduling Cycle	Dalam tutorial ini, konfigurasikan sebagai `Day`.
Scheduling Time	Dalam tutorial ini, atur Scheduling Time ke `00:30`. Alur kerja akan dimulai pada pukul `00:30` setiap hari.
Scheduling Dependencies	Alur kerja tidak memiliki dependensi hulu, sehingga dapat dibiarkan tidak dikonfigurasi. Untuk manajemen terpadu yang lebih mudah, Anda dapat mengklik Use Workspace Root Node untuk memasang alur kerja di bawah node root ruang kerja. Format penamaan untuk node root ruang kerja adalah: `WorkspaceName_root`.

Konfigurasikan tugas sinkronisasi

Konfigurasikan node awal

Di halaman orkestrasi alur kerja, arahkan kursor ke node workshop dan klik Open Node.

Klik Scheduling di sisi kanan halaman pengeditan node workshop untuk mengonfigurasi parameter yang relevan. Berikut adalah parameter utama yang diperlukan untuk tutorial ini. Gunakan nilai default untuk parameter yang tidak tercantum.

Parameter	Deskripsi
Scheduling Type	Dalam tutorial ini, konfigurasikan sebagai `Dry-run`.
Resource Group	Dalam tutorial ini, konfigurasikan sebagai kelompok sumber daya arsitektur tanpa server yang dibuat di Buat dan asosiasikan sumber daya.
Scheduling Dependencies	Karena `workshop` adalah node awal dan tidak memiliki dependensi hulu, Anda dapat mengklik Use Workspace Root Node untuk memicu eksekusi alur kerja oleh node root ruang kerja. Format penamaan untuk node root ruang kerja adalah: `WorkspaceName_root`.

Klik Save di bilah alat node untuk menyimpan node tersebut.

Konfigurasikan pipa informasi produk

Di halaman orkestrasi alur kerja, arahkan kursor ke node ods_item_info dan klik Open Node.

Konfigurasikan jaringan dan sumber daya pipa sinkronisasi.

Parameter	Deskripsi
Scheduling Type	Sumber data: `MySQL`. Nama sumber data: `MySQL_Source`.
Resource Group	Pilih kelompok sumber daya arsitektur tanpa server yang dibeli di Buat dan asosiasikan sumber daya.
Scheduling Dependencies	Tujuan data: `MaxCompute(ODPS)`. Nama sumber data: Pilih sumber daya komputasi MaxCompute yang diasosiasikan di Asosiasikan sumber daya MaxCompute. Dalam contoh ini, yaitu `MaxCompute_Source`.

Klik Next untuk mengonfigurasi tugas sinkronisasi.

Konfigurasikan sumber dan tujuan data

Catatan

Gunakan nilai default untuk parameter yang tidak tercantum.

Area	Parameter	Deskripsi
Source	Table	`item_info`.
Destination	Table	Klik Generate Destination Table Schema untuk membuat tabel MaxCompute dengan cepat. Tempel pernyataan pembuatan tabel berikut ke area Table Creation Statement lalu klik Create Table. Tabel ini digunakan untuk menerima informasi produk dari sumber data. SQL Pembuatan Tabel CREATE TABLE IF NOT EXISTS ods_item_info( `id` BIGINT COMMENT '', `cate_id` BIGINT COMMENT '', `cate_name` STRING COMMENT '', `commodity_id` BIGINT COMMENT '', `commodity_name` STRING COMMENT '', `desc_path` STRING COMMENT '', `duration` BIGINT COMMENT '', `features` STRING COMMENT '', `gmt_create` DATETIME COMMENT '', `gmt_modified` DATETIME COMMENT '', `is_deleted` BIGINT COMMENT '', `is_virtual` STRING COMMENT '', `item_id` BIGINT COMMENT '', `item_status` BIGINT COMMENT '', `last_offline_time` DATETIME COMMENT '', `last_online_quantity` BIGINT COMMENT '', `last_online_time` DATETIME COMMENT '', `pict_url` STRING COMMENT '', `reserve_price` DECIMAL(38,18) COMMENT '', `secure_trade_ems_post_fee` DECIMAL(38,18) COMMENT '', `secure_trade_fast_post_fee` DECIMAL(38,18) COMMENT '', `secure_trade_ordinary_post_fee` DECIMAL(38,18) COMMENT '', `shop_id` BIGINT COMMENT '', `shop_nick` STRING COMMENT '', `sub_title` STRING COMMENT '', `title` STRING COMMENT '' ) COMMENT '' PARTITIONED BY (pt STRING) lifecycle 36500;
Destination	Partition Information	Dalam tutorial ini, masukkan `${bizdate}`, yang digunakan untuk memberikan nilai konstan ke parameter `bizdate` selama fase pengujian berikutnya dan memberikan nilai secara dinamis ke parameter `bizdate` selama eksekusi terjadwal. Untuk informasi selengkapnya tentang format variabel dan metode konfigurasi yang didukung oleh DataStudio, lihat Parameter penjadwalan.

Konfirmasi Field Mapping dan Channel Control.
DataWorks memungkinkan Anda mengonfigurasi hubungan pemetaan bidang antara sumber dan tujuan untuk menulis data dari bidang sumber tertentu ke bidang tujuan tertentu. Ini juga mendukung pengaturan seperti konkurensi tugas dan kebijakan data kotor. Dalam tutorial ini, konfigurasikan Policy for Dirty Data Records ke Disallow Dirty Data Records, dan pertahankan pengaturan lainnya sebagai default. Untuk informasi selengkapnya, lihat Konfigurasikan tugas di antarmuka tanpa kode.

Klik Save di bilah alat node untuk menyimpan node tersebut.

Konfigurasikan pipa data pesanan

Di halaman orkestrasi alur kerja, arahkan kursor ke node ods_trade_order dan klik Open Node.

Konfigurasikan jaringan dan sumber daya pipa sinkronisasi.

Parameter	Deskripsi
Scheduling Type	Sumber data: `MySQL`. Nama sumber data: `MySQL_Source`.
Resource Group	Pilih kelompok sumber daya arsitektur tanpa server yang dibeli di Buat dan asosiasikan sumber daya.
Scheduling Dependencies	Tujuan data: `MaxCompute(ODPS)`. Nama sumber data: Pilih sumber daya komputasi MaxCompute yang diasosiasikan di Asosiasikan sumber daya MaxCompute. Dalam contoh ini, yaitu `MaxCompute_Source`.

Klik Next untuk mengonfigurasi tugas sinkronisasi.

Konfigurasikan sumber dan tujuan data

Catatan

Gunakan nilai default untuk parameter yang tidak tercantum.

Area	Parameter	Deskripsi
Source	Table	`trade_order`
Destination	Table	Klik Generate Destination Table Schema untuk membuat tabel MaxCompute dengan cepat. Tempel pernyataan pembuatan tabel berikut ke area Table Creation Statement lalu klik Create Table. Tabel ini digunakan untuk menerima informasi produk dari sumber data. SQL Pembuatan Tabel CREATE TABLE IF NOT EXISTS ods_trade_order( `id` BIGINT COMMENT '', `biz_type` BIGINT COMMENT '', `buy_amount` BIGINT COMMENT '', `buyer_id` BIGINT COMMENT '', `buyer_memo` STRING COMMENT '', `buyer_nick` STRING COMMENT '', `end_time` DATETIME COMMENT '', `gmt_create` DATETIME COMMENT '', `gmt_modified` DATETIME COMMENT '', `ip` STRING COMMENT '', `is_parent` BIGINT COMMENT '', `is_sub` BIGINT COMMENT '', `item_id` BIGINT COMMENT '', `item_price` DECIMAL(38,18) COMMENT '', `logistics_status` BIGINT COMMENT '', `memo` STRING COMMENT '', `parent_order_id` BIGINT COMMENT '', `pay_status` BIGINT COMMENT '', `pay_time` DATETIME COMMENT '', `seller_memo` STRING COMMENT '', `shop_id` BIGINT COMMENT '', `status` BIGINT COMMENT '', `sub_order_id` BIGINT COMMENT '', `total_fee` DECIMAL(38,18) COMMENT '' ) COMMENT '' PARTITIONED BY (pt STRING) lifecycle 36500;
Destination	Partition Information	Dalam tutorial ini, masukkan `${bizdate}`, yang digunakan untuk memberikan nilai konstan ke parameter `bizdate` selama fase pengujian berikutnya dan memberikan nilai secara dinamis ke parameter `bizdate` selama eksekusi terjadwal. Untuk informasi selengkapnya tentang format variabel dan metode konfigurasi yang didukung oleh DataStudio, lihat Parameter penjadwalan.

Konfirmasi Field Mapping dan Channel Control.
DataWorks memungkinkan Anda mengonfigurasi hubungan pemetaan bidang antara sumber dan tujuan untuk menulis data dari bidang sumber tertentu ke bidang tujuan tertentu. Ini juga mendukung pengaturan seperti konkurensi tugas dan kebijakan data kotor. Dalam tutorial ini, konfigurasikan Policy for Dirty Data Records ke Disallow Dirty Data Records, dan pertahankan pengaturan lainnya sebagai default. Untuk informasi selengkapnya, lihat Konfigurasikan tugas di antarmuka tanpa kode.

Klik Save di bilah alat node untuk menyimpan node tersebut.

Langkah 2: Pembersihan data

Setelah data disinkronkan dari MySQL ke MaxCompute, menghasilkan dua tabel data (tabel informasi produk ods_item_info dan tabel informasi pesanan ods_trade_order), Anda dapat membersihkan, memproses, dan menganalisis data di modul DataStudio DataWorks untuk mendapatkan peringkat harian kategori produk terlaris.

Bangun pipa pemrosesan data

Di panel navigasi kiri DataStudio, klik untuk masuk ke halaman pengembangan data. Lalu, di area Workspace Directories, temukan alur kerja yang telah dibuat, klik untuk masuk ke halaman orkestrasi alur kerja, seret node MaxCompute SQL dari sisi kiri ke kanvas, lalu atur nama node masing-masing.

Nama dan fungsi node dijelaskan di bawah ini:

Tipe Node	Nama Node	Fungsi Node
MaxCompute SQL	`dim_item_info`	Memproses data dimensi produk berdasarkan tabel `ods_item_info` untuk menghasilkan tabel dimensi informasi dasar produk `dim_item_info`.
MaxCompute SQL	`dwd_trade_order`	Menjalankan pembersihan awal, transformasi, dan pemrosesan logika bisnis pada data transaksi pesanan detail berdasarkan tabel `ods_trade_order` untuk menghasilkan tabel fakta detail transaksi pesanan `dwd_trade_order`.
MaxCompute SQL	`dws_daily_category_sales`	Mengagregasi data detail yang telah dibersihkan dan distandardisasi dari lapisan DWD berdasarkan tabel `dwd_trade_order` dan tabel `dim_item_info` untuk menghasilkan tabel ringkasan penjualan kategori produk harian `dws_daily_category_sales`.
MaxCompute SQL	`ads_top_selling_categories`	Menghasilkan tabel peringkat kategori produk terlaris harian `ads_top_selling_categories` berdasarkan tabel `dws_daily_category_sales`.

Secara manual seret garis untuk mengonfigurasi node hulu untuk setiap node. Hasil akhirnya adalah sebagai berikut:
Catatan
Alur kerja mendukung pengaturan dependensi hulu dan hilir untuk setiap node melalui koneksi manual. Alur kerja juga mendukung penggunaan penguraian kode di dalam node anak untuk mengidentifikasi dependensi node secara otomatis. Tutorial ini menggunakan metode koneksi manual. Untuk informasi selengkapnya tentang penguraian kode, lihat Penguraian dependensi otomatis.

Konfigurasikan node pemrosesan data

Konfigurasikan dim_item_info

Memproses data dimensi produk berdasarkan tabel ods_item_info untuk menghasilkan tabel dimensi informasi dasar produk dim_item_info.

Di halaman orkestrasi alur kerja, arahkan kursor ke node dim_item_info dan klik Open Node.

Tempel kode berikut ke halaman pengeditan node.

CREATE TABLE IF NOT EXISTS dim_item_info (
    gmt_modified                   STRING COMMENT 'Tanggal terakhir produk dimodifikasi',
    gmt_create                     STRING COMMENT 'Waktu pembuatan produk',
    item_id                        BIGINT COMMENT 'ID numerik produk',
    title                          STRING COMMENT 'Judul produk',
    sub_title                      STRING COMMENT 'Subjudul produk',
    pict_url                       STRING COMMENT 'URL gambar utama',
    desc_path                      STRING COMMENT 'Path deskripsi produk',
    item_status                    BIGINT COMMENT 'Status produk 1: Dikonfirmasi 0: Belum dikonfirmasi',
    last_online_time               DATETIME COMMENT 'Terakhir kali penjualan dimulai, waktu pencantuman produk',
    last_offline_time              DATETIME COMMENT 'Waktu akhir penjualan, menunjukkan akhir siklus penjualan, hanya untuk barang lelang',
    duration                       BIGINT COMMENT 'Masa berlaku, siklus penjualan, hanya dua nilai, 7 hari atau 14 hari',
    reserve_price                  DOUBLE COMMENT 'Harga saat ini',
    secure_trade_ordinary_post_fee DOUBLE COMMENT 'Biaya pos standar',
    secure_trade_fast_post_fee     DOUBLE COMMENT 'Biaya pos ekspres',
    secure_trade_ems_post_fee      DOUBLE COMMENT 'Biaya pos EMS',
    last_online_quantity           BIGINT COMMENT 'Jumlah stok saat produk terakhir dicantumkan',
    features                       STRING COMMENT 'Fitur produk',
    cate_id                        BIGINT COMMENT 'ID kategori daun produk',
    cate_name                      STRING COMMENT 'Nama kategori daun produk',
    commodity_id                   BIGINT COMMENT 'ID kategori',
    commodity_name                 STRING COMMENT 'Nama kategori',
    is_virtual                     STRING COMMENT 'Apakah produk virtual',
    shop_id                        BIGINT COMMENT 'ID toko',
    shop_nick                      STRING COMMENT 'NICK toko',
    is_deleted                     BIGINT COMMENT 'Apakah kategori dihapus'
)
COMMENT 'Tabel dimensi informasi dasar produk'
PARTITIONED BY (pt STRING COMMENT 'Timestamp data, yyyymmdd')
LIFECYCLE 365;


-- Masukkan data ke tabel dim_item_info
INSERT OVERWRITE TABLE dim_item_info PARTITION(pt='${bizdate}')
SELECT
    gmt_create,
    gmt_modified,
    item_id,
    title,
    sub_title,
    pict_url,
    desc_path,
    item_status,
    last_online_time,
    last_offline_time,
    duration,
    cast(reserve_price as DOUBLE),
    cast(secure_trade_ordinary_post_fee as DOUBLE),
    cast(secure_trade_fast_post_fee as DOUBLE),
    cast(secure_trade_ems_post_fee as DOUBLE),
    last_online_quantity,
    features,
    cate_id,
    cate_name,
    commodity_id,
    commodity_name,
    is_virtual,
    shop_id,
    shop_nick,
    is_deleted
FROM ods_item_info
WHERE pt = '${bizdate}';

Konfigurasikan parameter debugging.
Klik Running Configurations di sisi kanan halaman pengeditan node MaxCompute SQL:
- Konfigurasikan parameter Computing Resource dengan memilih sumber daya komputasi MaxCompute yang diikat di Asosiasikan sumber daya MaxCompute dan kuota komputasinya yang sesuai.
- Konfigurasikan parameter kelompok sumber daya dengan memilih kelompok sumber daya arsitektur tanpa server yang dibeli di Buat dan asosiasikan sumber daya.
Klik Save di bilah alat node untuk menyimpan node tersebut.

Konfigurasikan dwd_trad_order

Menjalankan pembersihan awal, transformasi, dan pemrosesan logika bisnis pada data transaksi pesanan detail berdasarkan tabel ods_trade_order untuk menghasilkan tabel fakta detail transaksi pesanan dwd_trade_order.

Di halaman orkestrasi alur kerja, arahkan kursor ke node dwd_trade_order dan klik Open Node.

Tempel kode berikut ke halaman pengeditan node.

CREATE TABLE IF NOT EXISTS dwd_trade_order (
    id               BIGINT COMMENT 'Kunci primer, ID terbaru setelah deduplikasi',
    gmt_create       DATETIME COMMENT 'Waktu pembuatan',
    gmt_modified     DATETIME COMMENT 'Waktu modifikasi',
    sub_order_id     BIGINT COMMENT 'ID sub-pesanan',
    parent_order_id  BIGINT COMMENT 'ID pesanan induk',
    buyer_id         BIGINT COMMENT 'ID numerik pembeli',
    buyer_nick       STRING COMMENT 'Nama panggilan pembeli, menangani nilai null',
    item_id          BIGINT COMMENT 'ID numerik produk',
    item_price       DECIMAL(38,18) COMMENT 'Harga produk, dalam sen',
    buy_amount       BIGINT COMMENT 'Jumlah pembelian',
    biz_type         BIGINT COMMENT 'Tipe transaksi',
    memo             STRING COMMENT 'Memo, menangani nilai null',
    pay_status       BIGINT COMMENT 'Status pembayaran',
    logistics_status BIGINT COMMENT 'Status logistik',
    status           BIGINT COMMENT 'Status',
    seller_memo      STRING COMMENT 'Memo penjual untuk transaksi',
    buyer_memo       STRING COMMENT 'Memo pembeli untuk transaksi',
    clean_ip         STRING COMMENT 'IP pembeli yang telah dibersihkan, memfilter format tidak valid',
    end_time         DATETIME COMMENT 'Waktu akhir transaksi',
    pay_time         DATETIME COMMENT 'Waktu pembayaran',
    is_sub           BIGINT COMMENT 'Apakah sub-pesanan, 1 menunjukkan sub-pesanan',
    is_parent        BIGINT COMMENT 'Apakah pesanan induk, 1 menunjukkan pesanan induk',
    shop_id          BIGINT COMMENT 'ID toko',
    total_fee        DECIMAL(38,18) COMMENT 'Biaya sub-pesanan setelah diskon dan penyesuaian',
    is_large_order_flag BOOLEAN COMMENT 'Flag untuk pesanan besar'
)
COMMENT 'Tabel fakta detail transaksi pesanan, mencakup pembersihan awal dan pemrosesan logika bisnis'
PARTITIONED BY (pt STRING COMMENT 'Timestamp data, yyyymmdd')
LIFECYCLE 365; -- Masa hidup data diatur menjadi 365 hari


INSERT OVERWRITE TABLE dwd_trade_order PARTITION(pt='${bizdate}')
SELECT
    MAX(id) AS id, -- Asumsikan menggunakan ID terbaru sebagai standar deduplikasi
    gmt_create,
    gmt_modified,
    sub_order_id,
    parent_order_id,
    buyer_id,
    COALESCE(buyer_nick, '') AS buyer_nick, -- Tangani buyer_nick null
    item_id,
    item_price,
    buy_amount,
    biz_type,
    COALESCE(memo, '') AS memo, -- Tangani memo null
    pay_status,
    logistics_status,
    status,
    seller_memo,
    buyer_memo,
    CASE 
        WHEN ip LIKE '__.__.__.__' THEN NULL -- Filter format IP tidak valid
        ELSE ip 
    END AS clean_ip,
    end_time,
    pay_time,
    is_sub,
    is_parent,
    shop_id,
    total_fee,
    CASE 
        WHEN total_fee >= 10000 THEN TRUE -- Asumsikan pesanan di atas 10000 sen adalah pesanan besar
        ELSE FALSE 
    END AS is_large_order_flag -- Tambahkan flag logika bisnis
FROM (
    SELECT
        *,
        ROW_NUMBER() OVER(PARTITION BY buyer_id, item_id, gmt_create ORDER BY id DESC) AS rn -- Nomor baris untuk deduplikasi
    FROM ods_trade_order
    WHERE pt = '${bizdate}'
) AS sub_query
WHERE rn = 1 -- Simpan hanya catatan pertama dari setiap grup deduplikasi
GROUP BY 
    gmt_create,
    gmt_modified,
    sub_order_id,
    parent_order_id,
    buyer_id,
    buyer_nick,
    item_id,
    item_price,
    buy_amount,
    biz_type,
    memo,
    pay_status,
    logistics_status,
    status,
    seller_memo,
    buyer_memo,
    clean_ip,
    end_time,
    pay_time,
    is_sub,
    is_parent,
    shop_id,
    total_fee,
    is_large_order_flag;

Konfigurasikan parameter debugging.
Klik Running Configurations di sisi kanan halaman pengeditan node MaxCompute SQL:
- Konfigurasikan parameter Computing Resource dengan memilih sumber daya komputasi MaxCompute yang diikat di Asosiasikan sumber daya MaxCompute dan kuota komputasinya yang sesuai.
- Konfigurasikan parameter kelompok sumber daya dengan memilih kelompok sumber daya arsitektur tanpa server yang dibeli di Buat dan asosiasikan sumber daya.
Klik Save di bilah alat node untuk menyimpan node tersebut.

Konfigurasikan dws_daily_category_sales

Mengagregasi data detail yang telah dibersihkan dan distandardisasi dari lapisan DWD berdasarkan tabel dwd_trade_order dan tabel dim_item_info untuk menghasilkan tabel ringkasan penjualan kategori produk harian dws_daily_category_sales.

Di halaman orkestrasi alur kerja, arahkan kursor ke node dws_daily_category_sales dan klik Open Node.

Tempel kode berikut ke halaman pengeditan node.

CREATE TABLE IF NOT EXISTS dws_daily_category_sales (
    cate_id             BIGINT COMMENT 'ID kategori daun produk',
    cate_name           STRING COMMENT 'Nama kategori daun produk',
    total_sales_amount  DECIMAL(38,18) COMMENT 'Total jumlah penjualan untuk kategori produk, dalam sen',
    order_count         BIGINT COMMENT 'Jumlah pesanan'
)
COMMENT 'Tabel agregat penjualan kategori produk harian'
PARTITIONED BY (pt STRING COMMENT 'Timestamp data, yyyymmdd')
LIFECYCLE 365;


INSERT OVERWRITE TABLE dws_daily_category_sales PARTITION(pt='${bizdate}')
SELECT
    i.cate_id,
    i.cate_name,
    SUM(t.total_fee) AS total_sales_amount,
    COUNT(DISTINCT t.id) AS order_count
FROM dwd_trade_order t
JOIN dim_item_info i ON t.item_id = i.item_id AND t.pt = i.pt
WHERE t.pt = '${bizdate}'
GROUP BY t.pt, i.cate_id, i.cate_name;

Konfigurasikan parameter debugging.
Klik Running Configurations di sisi kanan halaman pengeditan node MaxCompute SQL:
- Konfigurasikan parameter Computing Resource dengan memilih sumber daya komputasi MaxCompute yang diikat di Asosiasikan sumber daya MaxCompute dan kuota komputasinya yang sesuai.
- Konfigurasikan parameter kelompok sumber daya dengan memilih kelompok sumber daya arsitektur tanpa server yang dibeli di Buat dan asosiasikan sumber daya.
Klik Save di bilah alat node untuk menyimpan node tersebut.

Konfigurasikan ads_top_selling_categories

Menghasilkan tabel peringkat kategori produk terlaris harian ads_top_selling_categories berdasarkan tabel dws_daily_category_sales.

Di halaman orkestrasi alur kerja, arahkan kursor ke node ads_top_selling_categories dan klik Open Node.

Tempel kode berikut ke halaman pengeditan node.

CREATE TABLE IF NOT EXISTS ads_top_selling_categories (
    rank                BIGINT COMMENT 'Peringkat penjualan',
    cate_id             BIGINT COMMENT 'ID kategori daun produk',
    cate_name           STRING COMMENT 'Nama kategori daun produk',
    total_sales_amount  DECIMAL(38,18) COMMENT 'Total jumlah penjualan untuk kategori produk, dalam sen',
    order_count         BIGINT COMMENT 'Jumlah pesanan'
)
COMMENT 'Tabel peringkat harian kategori produk terlaris'
PARTITIONED BY (pt STRING COMMENT 'Timestamp data, yyyymmdd');


INSERT OVERWRITE TABLE ads_top_selling_categories PARTITION(pt='${bizdate}')
SELECT
    rank,
    cate_id,
    cate_name,
    total_sales_amount,
    order_count
FROM (
    SELECT
        DENSE_RANK() OVER(ORDER BY total_sales_amount DESC) AS rank,
        cate_id,
        cate_name,
        total_sales_amount,
        order_count
    FROM (
        SELECT
            cate_id,
            cate_name,
            SUM(total_sales_amount) AS total_sales_amount,
            SUM(order_count) AS order_count
        FROM dws_daily_category_sales
        WHERE pt = '${bizdate}'
        GROUP BY cate_id, cate_name
    ) agg_sub
) agg_outer
WHERE rank <= 10;

Konfigurasikan parameter debugging.
Klik Running Configurations di sisi kanan halaman pengeditan node MaxCompute SQL:
- Konfigurasikan parameter Computing Resource dengan memilih sumber daya komputasi MaxCompute yang diikat di Asosiasikan sumber daya MaxCompute dan kuota komputasinya yang sesuai.
- Konfigurasikan parameter kelompok sumber daya dengan memilih kelompok sumber daya arsitektur tanpa server yang dibeli di Buat dan asosiasikan sumber daya.
Klik Save di bilah alat node untuk menyimpan node tersebut.

Langkah 3: Debug dan jalankan

Setelah konfigurasi alur kerja selesai, Anda perlu menjalankan seluruh alur kerja untuk memverifikasi kebenaran konfigurasi sebelum menerapkannya ke lingkungan produksi.

Di panel navigasi kiri DataStudio, klik untuk masuk ke halaman pengembangan data. Lalu, di area Workspace Directories, temukan alur kerja yang telah dibuat.
Klik Run di bilah alat node, lalu isi Value Used in This Run dengan tanggal hari sebelumnya (misalnya, 20250416).
Catatan
Dalam konfigurasi node alur kerja, parameter penjadwalan DataWorks telah digunakan untuk mengimplementasikan input kode dinamis. Anda perlu memberikan nilai konstan ke parameter ini untuk pengujian selama debugging.
Klik OK untuk masuk ke halaman debug running.
Tunggu hingga proses selesai. Hasil yang diharapkan adalah sebagai berikut:

Langkah 4: Kueri dan visualisasi data

Anda telah memproses data uji mentah yang diperoleh dari MySQL melalui pengembangan data dan mengagregasikannya ke dalam tabel ads_top_selling_categories. Sekarang Anda dapat mengkueri data tabel untuk melihat hasil analisis data.

Klik ikon di pojok kiri atas, lalu klik All Products > Data Analysis > SQL Query di halaman pop-up.
Klik > Create File di sebelah My Files, sesuaikan File Name, lalu klik OK.

Di halaman SQL Query, konfigurasikan SQL berikut.

SELECT * FROM ads_top_selling_categories WHERE pt=${bizdate};

Pilih sumber data MaxCompute di pojok kanan atas lalu klik OK.
Klik tombol Run di bagian atas, lalu klik Run di halaman Cost Estimation.
Klik pada hasil kueri untuk melihat hasil visualisasi grafik. Anda dapat mengklik di pojok kanan atas grafik untuk menyesuaikan gaya grafik tersebut.
Anda juga dapat mengklik Save di pojok kanan atas grafik untuk menyimpan grafik sebagai kartu, lalu klik Card () di panel navigasi kiri untuk melihatnya.

Langkah 5: Penjadwalan periodik

Dengan menyelesaikan langkah-langkah sebelumnya, Anda telah memperoleh data penjualan berbagai produk dari hari sebelumnya. Namun, jika Anda perlu memperoleh data penjualan terbaru setiap hari, Anda dapat menerapkan alur kerja ke lingkungan produksi agar dieksekusi secara periodik pada waktu yang dijadwalkan.

Catatan

Parameter terkait penjadwalan telah dikonfigurasi untuk alur kerja, node sinkronisasi, dan node pemrosesan data saat mengonfigurasi sinkronisasi data dan pemrosesan data. Anda tidak perlu mengonfigurasinya lagi di sini; cukup terapkan alur kerja ke lingkungan produksi. Untuk informasi lebih rinci tentang konfigurasi penjadwalan, lihat Konfigurasi penjadwalan node.

Klik ikon di pojok kiri atas, lalu klik All Products > Data Development and O&M > Data Studio di halaman pop-up.
Di panel navigasi kiri DataStudio, klik untuk masuk ke halaman pengembangan data, alihkan ke ruang proyek yang digunakan dalam kasus ini, lalu temukan alur kerja yang telah dibuat di area Workspace Directories.
Klik Deploy di bilah alat node. Di panel deployment, klik Start Deployment to Production. Tunggu hingga Build Package dan Prod Online Check selesai, lalu klik Deploy.
Setelah status Prod Online menjadi Complete, klik Perform O&M untuk menuju ke Operation Center.
Di Auto Triggered Node O&M > Auto Triggered Nodes, Anda dapat melihat tugas periodik alur kerja (dalam tutorial ini, alur kerja diberi nama dw_quickstart).
Untuk melihat detail tugas periodik node anak dalam alur kerja, klik kanan tugas periodik alur kerja tersebut lalu pilih View Internal Tasks.
Hasil yang diharapkan adalah sebagai berikut:

Langkah selanjutnya

Untuk detail operasional dan penjelasan parameter setiap modul dalam tutorial ini, lihat Integrasi Data, Data Studio (Baru), Analisis Data, dan Konfigurasi penjadwalan node.
Selain modul yang diperkenalkan dalam tutorial ini, DataWorks juga mendukung berbagai modul lain seperti Pemodelan Data, Kualitas Data, Penjaga Keamanan Data, dan Studio Layanan Data, yang menyediakan pemantauan dan O&M data terpadu.
Anda juga dapat mencoba tutorial praktis DataWorks lainnya. Untuk detailnya, lihat Lebih banyak kasus penggunaan dan tutorial.

Pembersihan sumber daya

Jika Anda perlu melepaskan sumber daya yang dibuat dalam tutorial ini, langkah-langkah spesifiknya adalah sebagai berikut:

Hentikan tugas periodik.
1. Masuk ke konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Development and O&M > Operation Center. Di halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down lalu klik Go to Operation Center.
2. Di Auto Triggered Node O&M > Auto Triggered Nodes, pilih semua tugas periodik yang sebelumnya dibuat (node root ruang kerja tidak perlu di-offline-kan), lalu klik More Actions > Undeploy di bagian bawah.
Hapus node pengembangan data dan putuskan asosiasi sumber daya komputasi MaxCompute.
1. Buka halaman Ruang Kerja di konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan lalu pilih Shortcuts > Data Studio di kolom Actions.
2. Di panel navigasi kiri DataStudio, klik untuk masuk ke halaman pengembangan data. Lalu, di area Workspace Directoies, temukan alur kerja yang telah dibuat, klik kanan alur kerja tersebut, lalu klik Delete.
3. Di panel navigasi kiri, klik > Computing Resources, temukan sumber daya komputasi MaxCompute yang diasosiasikan, lalu klik Disassociate. Di jendela konfirmasi, centang opsi dan ikuti petunjuk.
Hapus sumber data MySQL.
1. Masuk ke konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi kiri, pilih More > Management Center. Di halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down lalu klik Go to Management Center.
2. Di panel navigasi kiri, klik Data Sources. Temukan sumber data MySQL yang telah dibuat, klik Delete di kolom Actions, lalu ikuti petunjuk untuk menyelesaikan penghapusan.
Hapus proyek MaxCompute.
Buka halaman Manajemen Proyek MaxCompute, temukan proyek MaxCompute yang telah dibuat, klik Delete di kolom Actions, lalu ikuti petunjuk untuk menyelesaikan penghapusan.
Hapus Gateway NAT Internet dan lepaskan Alamat IP Elastis.
1. Buka Konsol VPC - Gateway NAT Internet, lalu alihkan ke wilayah Singapore di bilah menu atas.
2. Temukan Gateway NAT Internet yang telah dibuat, klik > Delete di kolom Actions, centang Force Delete di jendela konfirmasi, lalu klik OK.
3. Di panel navigasi kiri, klik Access to Internet > Elastic IP Addresses. Temukan Alamat IP Elastis yang telah dibuat, klik > Instance Management > Release di kolom Actions, lalu klik OK di jendela konfirmasi.