Studi kasus pengembangan data DataWorks - DataWorks - Alibaba Cloud Documentation Center

Tutorial ini menunjukkan cara menganalisis data pembeli rumah untuk menguasai proses pengembangan dan analisis data di DataWorks.

Ikhtisar

Tutorial ini menggunakan data pembeli rumah untuk menganalisis perilaku pembelian lintas berbagai kelompok. Anda akan menggunakan DataWorks untuk pengembangan dan analisis data. Pertama, unggah data lokal ke tabel MaxCompute bernama bank_data, lalu gunakan node tugas MaxCompute SQL untuk menganalisis kelompok pengguna dan menghasilkan tabel bernama result_table. Berdasarkan tabel result_table, Anda akan membuat visualisasi sederhana guna membangun profil pengguna.

Catatan

Tutorial ini menggunakan data simulasi. Di lingkungan produksi, sesuaikan proses ini dengan data bisnis Anda.

Analisis mengungkapkan profil pengguna berikut: Tingkat pendidikan individu lajang dengan pinjaman perumahan terutama university.degree dan high.school.

Prasyarat

Aktifkan DataWorks

Tutorial ini menggunakan wilayah China (Shanghai) sebagai contoh untuk menunjukkan cara memulai dengan DataWorks. Masuk ke Konsol DataWorks, alihkan ke wilayah China (Shanghai), dan periksa apakah DataWorks telah diaktifkan di wilayah tersebut.

Catatan

Tutorial ini menggunakan wilayah China (Shanghai) sebagai contoh. Dalam praktiknya, pilih wilayah berdasarkan lokasi data bisnis Anda:

Jika data bisnis Anda disimpan di layanan Alibaba Cloud lainnya, pilih wilayah yang sama dengan layanan tersebut.
Jika bisnis Anda berada di lingkungan on-premises dan memerlukan akses internet, pilih wilayah yang paling dekat secara geografis untuk mengurangi latensi.

Pengguna baru

Jika Anda baru mengenal DataWorks, akan muncul pesan yang menunjukkan bahwa DataWorks belum diaktifkan di wilayah saat ini. Klik Purchase Product Portfolio for Free.

Di halaman pembelian, konfigurasikan parameter berikut.

Parameter	Deskripsi	Contoh
Region	Pilih wilayah tempat Anda ingin mengaktifkan DataWorks.	China (Shanghai)
DataWorks Edition	Pilih edisi DataWorks yang ingin Anda beli. Catatan Tutorial ini menggunakan Basic Edition sebagai contoh. Semua edisi mendukung fitur yang dibahas dalam tutorial ini. Anda dapat merujuk ke Edisi dan fitur DataWorks untuk memilih edisi yang paling sesuai dengan kebutuhan bisnis Anda.	Basic Edition

Klik Confirm Order and Pay dan selesaikan pembayaran.

Langganan kedaluwarsa

Jika Anda sebelumnya telah mengaktifkan DataWorks di wilayah China (Shanghai) tetapi langganan Anda telah kedaluwarsa, akan muncul prompt. Klik Purchase Edition.

Halaman tersebut menunjukkan bahwa Anda harus memiliki edisi DataWorks dan resource bayar sesuai penggunaan. Tanda X merah berarti tidak ada edisi DataWorks yang aktif di wilayah saat ini, dan tanda centang hijau berarti resource bayar sesuai penggunaan aktif.

Di halaman pembelian, konfigurasikan parameter berikut.

Parameter	Deskripsi	Contoh
Version	Pilih edisi DataWorks yang ingin Anda beli. Catatan Tutorial ini menggunakan Basic Edition sebagai contoh. Semua edisi mendukung fitur yang dibahas dalam tutorial ini. Anda dapat merujuk ke Edisi dan fitur DataWorks untuk memilih edisi yang paling sesuai dengan kebutuhan bisnis Anda.	Basic Edition
Region	Pilih wilayah tempat Anda ingin mengaktifkan DataWorks.	China (Shanghai)

Klik Buy Now dan selesaikan pembayaran.

Penting

Jika Anda tidak dapat menemukan edisi DataWorks yang telah Anda beli, coba langkah berikut:

Pembaruan mungkin memerlukan beberapa menit untuk muncul. Muat ulang halaman.
Pastikan wilayah saat ini sesuai dengan wilayah tempat Anda membeli edisi DataWorks. Jika wilayah tidak cocok, edisi tersebut tidak akan ditampilkan.

Langganan aktif

Jika DataWorks sudah diaktifkan di wilayah China (Shanghai), Anda akan diarahkan ke halaman ikhtisar DataWorks. Anda dapat melanjutkan ke langkah berikutnya.

Buat ruang kerja

Buka halaman DataWorks Workspace List, alihkan ke Wilayah China (Shanghai), lalu klik Create a workspace.
Di halaman Create a workspace, masukkan Workspace Name kustom, aktifkan Use Data Studio (New Version), lalu klik Create a workspace.

Catatan
Setelah 18 Februari 2025, ketika Akun Alibaba Cloud mengaktifkan DataWorks dan membuat ruang kerja di wilayah China (Shanghai) untuk pertama kalinya, versi baru Data Studio diaktifkan secara default, dan parameter Use Data Studio (New Version) tidak ditampilkan.

Kelompok resource dan ruang kerja

Buka halaman Daftar Kelompok Resource DataWorks, alihkan ke wilayah China (Shanghai), dan klik Create Resource Group.

Di halaman pembelian kelompok resource, konfigurasikan parameter berikut.

Parameter	Deskripsi
Resource Group Name	Masukkan nama kustom.
Virtual Private Cloud (VPC) dan vSwitch	Pilih VPC dan vSwitch yang sudah ada. Jika tidak tersedia di wilayah saat ini, klik tautan konsol di deskripsi parameter untuk membuatnya.
Service-linked Role	Ikuti petunjuk di layar untuk membuat peran terkait layanan AliyunServiceRoleForDataWorks.

Klik Buy Now dan selesaikan pembayaran.
Buka halaman Daftar Kelompok Sumber Daya DataWorks, alihkan ke wilayah China (Shanghai), temukan kelompok sumber daya yang telah Anda buat, lalu pada kolom Operation, klik Associate Workspace.
Di halaman Associate Workspace, temukan ruang kerja yang telah Anda buat, lalu di kolom Operation-nya, klik Bind.

Resource komputasi MaxCompute

Dalam tutorial ini, Anda akan membuat proyek MaxCompute dan mengaitkannya sebagai resource komputasi DataWorks. Anda akan menggunakan resource ini untuk mengingest data dan melakukan analitik data besar.

Buka halaman Daftar Ruang Kerja DataWorks, alihkan ke Wilayah China (Shanghai), lalu klik nama ruang kerja yang telah Anda buat untuk membuka halaman Workspace Details.

Di panel navigasi kiri, klik Computing Resources. Di halaman yang muncul, klik Associate Computing Resources dan pilih tipe MaxCompute. Konfigurasikan parameter utama berikut untuk membuat proyek MaxCompute dan mengaitkannya sebagai resource komputasi DataWorks.

Catatan

Anda dapat mempertahankan nilai default untuk parameter yang tidak tercantum dalam tabel.

Parameter	Deskripsi
MaxCompute Project	Dari daftar drop-down, klik Create dan konfigurasikan parameter berikut: Project Name: Masukkan nama kustom yang unik secara global. Billing Method of Computing Resources: Pilih Pay-as-you-go. Catatan Jika Pay-as-you-go tidak tersedia, klik Activate di sebelahnya untuk mengaktifkan layanan MaxCompute. Default Quota: Pilih kuota yang sudah ada dari daftar drop-down.
Default Access Identity	Pilih Alibaba Cloud Account.
Computing Resource Instance Name	Anda dapat menggunakan nama ini untuk memilih resource komputasi saat menjalankan tugas. Gunakan nama deskriptif. Misalnya, masukkan `MaxCompute_Source`.

Klik Confirm.

Prosedur

Dalam tutorial ini, Anda akan mengunggah data uji ke proyek MaxCompute menggunakan DataWorks, membuat alur kerja untuk pembersihan dan penulisan data, serta melakukan debug alur kerja untuk memverifikasi hasilnya dengan kueri SQL.

Langkah 1: Buat tabel

Sebelum mengunggah data uji, gunakan Data Catalog di DataWorks untuk membuat tabel bank_data di proyek MaxCompute guna menyimpan data yang diunggah.

Masuk ke Konsol DataWorks. Alihkan ke wilayah target, pilih Data Development and O&M > DataStudio di panel navigasi kiri, pilih ruang kerja yang sesuai dari daftar drop-down, lalu klik Go to Data Studio.
Di halaman Pengembangan Data, klik ikon di panel navigasi kiri untuk membuka halaman Data Catalog.
(Opsional) Jika proyek MaxCompute Anda belum ditambahkan ke Data Catalog, klik ikon di sebelah direktori MaxCompute, buka tab DataWorks Data Sources, lalu tambahkan proyek MaxCompute (yang sudah dikonfigurasi sebagai resource komputasi atau sumber data) ke direktori MaxCompute.
Bentangkan direktori MaxCompute, pilih proyek Anda, lalu buat tabel MaxCompute di folder Table.
Catatan
- Jika fitur skema diaktifkan untuk proyek MaxCompute Anda, Anda harus membentangkan skema target setelah memilih proyek sebelum dapat membuat tabel MaxCompute di folder Table.
- Tutorial ini menggunakan ruang kerja mode standar, dan debugging hanya dilakukan di lingkungan pengembangan. Oleh karena itu, Anda hanya perlu membuat tabel bank_data di proyek MaxCompute untuk lingkungan pengembangan. Jika Anda menggunakan ruang kerja mode simple, buat tabel bank_data di proyek MaxCompute untuk lingkungan produksi.

Klik ikon di sebelah kanan direktori tabel untuk membuka halaman pembuatan tabel.

Di sisi kanan halaman pengeditan tabel, masukkan kode SQL berikut di bagian DDL. Sistem akan secara otomatis menghasilkan semua informasi tabel.

CREATE TABLE IF NOT EXISTS bank_data (
    age             BIGINT   COMMENT 'Age',
    job             STRING   COMMENT 'Job type',
    marital         STRING   COMMENT 'Marital status',
    education       STRING   COMMENT 'Education level',
    `default`       STRING   COMMENT 'Has credit card',
    housing         STRING   COMMENT 'Housing loan',
    loan            STRING   COMMENT 'Loan',
    contact         STRING   COMMENT 'Contact method',
    month           STRING   COMMENT 'Month',
    day_of_week     STRING   COMMENT 'Day of week',
    duration        STRING   COMMENT 'Duration',
    campaign        BIGINT   COMMENT 'Number of contacts during this campaign',
    pdays           DOUBLE   COMMENT 'Days since last contact',
    previous        DOUBLE   COMMENT 'Number of contacts before this campaign',
    poutcome        STRING   COMMENT 'Outcome of previous marketing campaign',
    emp_var_rate    DOUBLE   COMMENT 'Employment variation rate',
    cons_price_idx  DOUBLE   COMMENT 'Consumer price index',
    cons_conf_idx   DOUBLE   COMMENT 'Consumer confidence index',
    euribor3m       DOUBLE   COMMENT 'Euribor 3-month rate',
    nr_employed     DOUBLE   COMMENT 'Number of employees',
    y               BIGINT   COMMENT 'Has term deposit'
);

Di halaman pengeditan, klik Publish untuk membuat tabel bank_data di proyek MaxCompute untuk lingkungan pengembangan.
Setelah tabel bank_data dibuat, Anda dapat mengklik nama tabel di Data Catalog untuk melihat detailnya.

Langkah 2: Unggah data

Unduh file banking.csv ke mesin lokal Anda, lalu gunakan fitur Usage limits di DataWorks untuk mengunggah file tersebut ke tabel bank_data di proyek MaxCompute Anda.

Penting

Sebelum mengunggah file, pastikan bahwa scheduling resource group dan Data Integration resource group telah ditentukan untuk fitur unggah data. Untuk informasi selengkapnya, lihat Limitations.

Klik ikon di pojok kiri atas dan pilih All Products > Data Integration > Upload and Download untuk membuka halaman Upload and Download.

Di bagian Recent Upload Records, klik Upload Data untuk membuka halaman konfigurasi unggah data. Konfigurasikan parameter seperti yang ditunjukkan pada tabel berikut.

Parameter		Description
Data Source		File lokal.
Specify Data to Be Uploaded	Select File	Unggah file `banking.csv` yang telah diunduh.
Configure Destination Table	Compute Engine Type	MaxCompute
	MaxCompute Project Name	Pilih proyek MaxCompute tempat tabel `bank_data` berada.
	Select Destination Table	Pilih tabel `bank_data` sebagai tabel tujuan.
Preview Data of Uploaded File		Klik Mapping by Order untuk memetakan data file ke bidang-bidang pada tabel `bank_data`.

Catatan

Anda dapat mengunggah file lokal dalam format .csv, .xls, .xlsx, dan .json.
Untuk file spreadsheet, sheet pertama diunggah secara default.
Ukuran maksimum untuk file .csv adalah 5 GB. Untuk jenis file lainnya, batasnya adalah 100 MB.

Klik Upload Data untuk mengunggah data dari file CSV ke tabel bank_data di resource komputasi MaxCompute.
Konfirmasi bahwa data telah diunggah.

Setelah data berhasil diunggah, Anda dapat menggunakan SQL Query (Legacy) untuk mengonfirmasi apakah data telah ditulis ke tabel bank_data.
1. Klik ikon di pojok kiri atas dan klik All Products > DataAnalysis > SQL Query.
2. Di sebelah My Files, klik > Create File. Masukkan File Name kustom dan klik Determine.
3. Di editor SQL Query, masukkan pernyataan SQL berikut.
```
SELECT * FROM bank_data limit 10;
```
4. Di pojok kanan atas, pilih ruang kerja dan sumber data MaxCompute tempat tabel bank_data berada, lalu klik Determine.
  
  Catatan
  Tutorial ini menggunakan ruang kerja mode standar, dan tabel bank_data hanya dibuat di lingkungan pengembangan. Oleh karena itu, Anda harus memilih sumber data MaxCompute untuk lingkungan pengembangan. Jika Anda menggunakan ruang kerja mode simple, pilih sumber data MaxCompute untuk lingkungan produksi.
5. Klik tombol Run di bagian atas. Di halaman Estimate Costs, klik Run. Setelah kueri berhasil, 10 catatan pertama dari tabel bank_data muncul di bagian bawah halaman. Hal ini mengonfirmasi bahwa Anda berhasil mengunggah data lokal.
  
  Tabel bank_data berisi bidang seperti age, job, marital, education, default, housing, loan, contact, month, day_of_week, duration, campaign, dan pdays.

Langkah 3: Proses data

Gunakan node MaxCompute SQL untuk memfilter data di tabel bank_data, mendapatkan distribusi tingkat pendidikan di antara individu lajang dengan pinjaman perumahan, lalu menulis data ke tabel baru bernama result_table.

Bangun pipeline pemrosesan data

Klik ikon di pojok kiri atas dan pilih All Products > Data Development and O&M > DataStudio untuk membuka halaman pengembangan data.
Di bagian atas halaman, alihkan ke ruang kerja yang dibuat untuk tutorial ini. Di panel navigasi kiri, klik untuk membuka DataStudio.
Di area Project Directory, klik , pilih Create Workflow, atur nama alur kerja menjadi dw_basic_case, lalu klik Confirm untuk menyimpan alur kerja. Halaman orkestrasi alur kerja terbuka.

Di halaman orkestrasi alur kerja, seret node Zero-Load Node dan node MaxCompute SQL dari panel kiri ke kanvas, lalu atur nama mereka.

Tabel berikut menjelaskan nama node dan tujuannya dalam tutorial ini.

Node Type	Node Name	Purpose
Zero Load Node	`workshop_start`	Mengelola keseluruhan alur kerja untuk tutorial analisis pembeli rumah sederhana ini, sehingga alur data menjadi lebih jelas. Node ini merupakan Dry-run Task dan tidak memerlukan kode.
MaxCompute SQL	`ddl_result_table`	Membuat result_table untuk menyimpan data yang diproses dari tabel bank_data.
MaxCompute SQL	`insert_result_table`	Memfilter data dari tabel bank_data dan menulisnya ke tabel result_table.

Catatan
Alur kerja mendukung pengaturan dependensi hulu dan hilir antar node melalui koneksi manual. Alur kerja juga mendukung identifikasi dependensi otomatis dengan menggunakan penguraian kode di node anak. Tutorial ini menggunakan metode koneksi manual. Untuk informasi selengkapnya tentang penguraian kode, lihat Automatic Dependency Parsing.
Di bilah alat node, klik Save.

Konfigurasikan node pemrosesan data

Node ddl_result_table

Node ini membuat tabel result_table untuk menyimpan distribusi tingkat pendidikan bagi pembeli rumah lajang dengan pinjaman perumahan, yang dikueri oleh node insert_result_table.

Di halaman pengeditan alur kerja, arahkan kursor ke node ddl_result_table dan klik Open Node untuk menyediakan tabel tujuan bagi node insert_result_table.

Tempel kode berikut ke editor node.

CREATE TABLE IF NOT EXISTS result_table(
  education STRING COMMENT'Education level',
  num       BIGINT COMMENT'Count'
);

Konfigurasikan parameter eksekusi.

Di sisi kanan halaman pengeditan node MaxCompute SQL, klik Run Configuration dan konfigurasikan parameter berikut:
- Computing Resources: Pilih resource komputasi MaxCompute dan kuota komputasi yang sesuai yang telah Anda kaitkan di bagian Prasyarat.
- Resource Group: Pilih kelompok resource arsitektur tanpa server yang telah Anda beli di bagian Prasyarat.
Di bilah alat node, klik Save.

Node insert_result_table

Node ini memproses dan memfilter data dari tabel bank_data untuk mendapatkan distribusi tingkat pendidikan di antara pembeli rumah lajang dengan pinjaman, lalu menulis data tersebut ke result_table untuk analisis dan visualisasi selanjutnya.

Di halaman pengeditan alur kerja, arahkan kursor ke node insert_result_table dan klik Open Node.

Tempel kode berikut ke editor node.

INSERT OVERWRITE TABLE result_table --Insert data into result_table.
SELECT
  education,
  COUNT(marital) AS num
FROM bank_data
WHERE 
  housing = 'yes'
  AND marital = 'single'
GROUP BY
education;

Konfigurasikan parameter eksekusi.

Di sisi kanan halaman pengeditan node MaxCompute SQL, klik Run Configuration dan konfigurasikan parameter berikut:
- Computing Resources: Pilih resource komputasi MaxCompute dan kuota komputasi yang sesuai yang telah Anda kaitkan di bagian Prasyarat.
- Resource Group: Pilih kelompok resource arsitektur tanpa server yang telah Anda beli di bagian Prasyarat.
Di bilah alat node, klik Save.

Langkah 4: Debug dan jalankan

Setelah alur kerja dikonfigurasi, klik ikon di halaman orkestrasi alur kerja dw_basic_case untuk melakukan debug dan menjalankan seluruh alur kerja serta memverifikasi bahwa alur kerja berjalan sesuai harapan. Jika eksekusi gagal, periksa log untuk memecahkan masalah.

Jika eksekusi berhasil, node workshop_start (Zero Load Node), ddl_result_table (MaxCompute SQL), dan insert_result_table (MaxCompute SQL) semuanya menampilkan ikon tanda centang hijau, yang menunjukkan bahwa semua node dalam alur kerja telah dieksekusi dengan sukses.

Langkah 5: Kueri dan visualisasi data

Sekarang Anda telah mengunggah data ke resource komputasi MaxCompute dan memprosesnya menggunakan pengembangan data, Anda dapat mengkueri data result_table dan menganalisisnya di SQL Query (Legacy).

Klik ikon di pojok kiri atas dan klik All Products > DataAnalysis > SQL Query.
Di sebelah My Files, klik > Create File. Masukkan File Name kustom dan klik Determine.
Di editor SQL Query, masukkan pernyataan SQL berikut.
```
SELECT * FROM result_table;
```
Di pojok kanan atas, pilih Workspace dan MaxCompute data source tempat tabel result_table berada, lalu klik Determine.

Catatan
Tutorial ini menggunakan ruang kerja mode standar. Tabel result_table hanya dibuat di lingkungan pengembangan dan tidak dideploy ke lingkungan produksi. Oleh karena itu, Anda harus memilih sumber data MaxCompute untuk lingkungan pengembangan. Jika Anda menggunakan ruang kerja mode simple, pilih sumber data MaxCompute untuk lingkungan produksi.
Klik tombol Run di bagian atas. Di halaman Estimate Costs, klik Run.
Di hasil kueri, klik untuk melihat grafik. Anda dapat mengklik ikon di pojok kanan atas grafik untuk menyesuaikan gayanya.
Anda juga dapat mengklik Save di pojok kanan atas grafik untuk menyimpannya sebagai kartu. Anda kemudian dapat melihatnya dengan mengklik Card () di panel navigasi kiri.

Langkah selanjutnya

Untuk informasi selengkapnya tentang operasi dan parameter setiap modul dalam tutorial ini, lihat Pengembangan Data (Data Studio) (Versi Baru) dan Analisis Data.
Selain modul yang dijelaskan dalam tutorial ini, DataWorks juga mendukung modul seperti Pemodelan Data, Kualitas Data, Penjaga Keamanan Data, Studio Layanan Data, Integrasi Data, dan Konfigurasi Penjadwalan Node untuk memberikan pemantauan dan O&M data terpadu.
Anda juga dapat menjelajahi lebih banyak tutorial praktis DataWorks. Untuk informasi selengkapnya, lihat Lebih Banyak Skenario dan Tutorial.

Bersihkan resource

Untuk melepaskan resource yang dibuat dalam tutorial ini, lakukan langkah-langkah berikut:

Hentikan tugas yang dipicu otomatis.
1. Masuk ke Konsol DataWorks. Di wilayah target, klik Data Development and O&M > Operation Center di panel navigasi kiri. Pilih ruang kerja dari daftar drop-down dan klik Go to Operation Center.
2. Di bagian Auto Triggered Task O&M > Auto Triggered Task, pilih kotak centang untuk Node yang Dipicu Otomatis yang telah Anda buat. Jangan undeploy node root ruang kerja. Di bagian bawah halaman, klik Operation > Undeploy.
Hapus node pengembangan data dan putuskan kaitan resource komputasi MaxCompute.
1. Buka halaman Ruang Kerja di konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Temukan ruang kerja yang diinginkan dan pilih Shortcuts > Data Studio di kolom Actions.
2. Di panel navigasi kiri Data Studio, klik ikon . Di bagian Project Directory, temukan alur kerja Anda, klik kanan, lalu klik Delete.
3. Di panel navigasi kiri, klik > Compute Resource Management. Temukan resource komputasi MaxCompute dan klik Disassociate. Di kotak dialog konfirmasi, pilih opsi yang diperlukan dan ikuti petunjuknya.
Hapus proyek MaxCompute.

Buka halaman Manajemen Proyek MaxCompute. Temukan proyek MaxCompute Anda, klik Delete di kolom Operation, lalu ikuti petunjuknya.
Hapus ruang kerja DataWorks.
1. Masuk ke Konsol DataWorks. Alihkan ke wilayah target, klik Workspace di panel navigasi kiri, temukan ruang kerja DataWorks yang akan dihapus di daftar ruang kerja, klik ikon di kolom Actions, lalu pilih Delete Workspace.
2. Di kotak dialog Delete Workspace, klik Confirm untuk menghapus ruang kerja.