全部产品
Search
文档中心

DataWorks:Menggunakan Pengalaman Pengembangan Data Lama

更新时间:Nov 10, 2025

Tutorial ini menunjukkan cara menggunakan portofolio produk DataWorks dan EMR untuk pengembangan dan analisis data besar. Tutorial ini menggunakan studi kasus analisis persona pengguna untuk mengilustrasikan kemampuan DataWorks dalam Integrasi Data, Pengembangan Data, dan Pusat Operasi.

Deskripsi kasus

Untuk menyusun strategi bisnis yang lebih baik, Anda perlu memperoleh data profil dasar—seperti atribut geografis dan sosial—dari perilaku pengguna di situs web. Data ini memungkinkan pelaksanaan analisis persona terjadwal serta manajemen lalu lintas situs web secara detail halus. Anda dapat memanfaatkan portofolio produk DataWorks dan EMR untuk melakukan sinkronisasi data, transformasi data, manajemen data, dan konsumsi data.

Catatan

Untuk mengikuti tutorial ini, baca Tujuan dan desain tutorial guna memahami alur keseluruhan analisis persona pengguna.

Platform pengembangan data

Tutorial ini menggunakan platform DataStudio klasik DataWorks. Pastikan ruang kerja Anda tidak diatur ke Use The New Data Studio.

  • Saat Anda membuat ruang kerja, jangan pilih opsi Use The New Data Development (DataStudio).

  • Mulai 18 Februari 2025, Data Studio baru diaktifkan secara default saat Anda pertama kali membuat ruang kerja di wilayah-wilayah berikut menggunakan Akun Alibaba Cloud dengan DataWorks yang diaktifkan. Jika Data Studio baru diaktifkan secara default di ruang kerja Anda, lihat tutorial Mencoba Data Studio baru.

    Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Thailand (Bangkok), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), AS (Virginia)

Prosedur

  1. Persiapkan lingkungan

    Buat kluster EMR dan ruang kerja DataWorks untuk tutorial ini. Kemudian, konfigurasikan jaringan kelompok sumber daya.

  2. Sinkronkan data

    Di DataWorks, konfigurasikan tugas sinkronisasi data untuk menyinkronkan data informasi pengguna dan log situs web yang disediakan ke Object Storage Service (OSS). Buat tabel eksternal EMR untuk mengurai data di OSS, yang menyinkronkan data ke sumber daya komputasi EMR yang terhubung. Anda kemudian dapat melakukan kueri terhadap data yang telah disinkronkan.

  3. Transformasi data

    Gunakan node EMR Hive di DataWorks untuk mentransformasi data pada tabel informasi pengguna dan log akses yang telah disinkronkan ke EMR. Tujuannya adalah menghasilkan data persona pengguna target.

  4. Pantau kualitas data

    Konfigurasikan pemantauan kualitas data untuk tabel-tabel yang dihasilkan selama transformasi data. Hal ini membantu mendeteksi dan memblokir data kotor sedini mungkin agar tidak memengaruhi proses hilir.

  5. Kelola data

    Setelah alur kerja analisis persona pengguna selesai, tabel data dibuat di EMR. Gunakan Peta Data untuk melihat alur data antar tabel tersebut.

  6. Konsumsi data

    Setelah analisis persona pengguna selesai, gunakan modul Analisis Data untuk memvisualisasikan data yang telah ditransformasi. Hal ini membantu Anda dengan cepat mengekstraksi informasi penting dan memahami tren bisnis.