Tutorial ini menunjukkan cara menggunakan portofolio produk DataWorks dan EMR untuk pengembangan dan analisis data besar. Tutorial ini menggunakan studi kasus analisis persona pengguna untuk mengilustrasikan kemampuan DataWorks dalam Integrasi Data, Pengembangan Data, dan Pusat Operasi.
Deskripsi kasus
Untuk menyusun strategi bisnis yang lebih baik, Anda perlu memperoleh data profil dasar—seperti atribut geografis dan sosial—dari perilaku pengguna di situs web. Data ini memungkinkan pelaksanaan analisis persona terjadwal serta manajemen lalu lintas situs web secara detail halus. Anda dapat memanfaatkan portofolio produk DataWorks dan EMR untuk melakukan sinkronisasi data, transformasi data, manajemen data, dan konsumsi data.
Untuk mengikuti tutorial ini, baca Tujuan dan desain tutorial guna memahami alur keseluruhan analisis persona pengguna.
Platform pengembangan data
Tutorial ini menggunakan platform DataStudio klasik DataWorks. Pastikan ruang kerja Anda tidak diatur ke Use The New Data Studio.
Saat Anda membuat ruang kerja, jangan pilih opsi Use The New Data Development (DataStudio).
Mulai 18 Februari 2025, Data Studio baru diaktifkan secara default saat Anda pertama kali membuat ruang kerja di wilayah-wilayah berikut menggunakan Akun Alibaba Cloud dengan DataWorks yang diaktifkan. Jika Data Studio baru diaktifkan secara default di ruang kerja Anda, lihat tutorial Mencoba Data Studio baru.
Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Ulanqab), Tiongkok (Shenzhen), Tiongkok (Chengdu), Tiongkok (Hong Kong), Jepang (Tokyo), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Thailand (Bangkok), Jerman (Frankfurt), Inggris (London), AS (Silicon Valley), AS (Virginia)
Prosedur
Buat kluster EMR dan ruang kerja DataWorks untuk tutorial ini. Kemudian, konfigurasikan jaringan kelompok sumber daya.
Di DataWorks, konfigurasikan tugas sinkronisasi data untuk menyinkronkan data informasi pengguna dan log situs web yang disediakan ke Object Storage Service (OSS). Buat tabel eksternal EMR untuk mengurai data di OSS, yang menyinkronkan data ke sumber daya komputasi EMR yang terhubung. Anda kemudian dapat melakukan kueri terhadap data yang telah disinkronkan.
Gunakan node EMR Hive di DataWorks untuk mentransformasi data pada tabel informasi pengguna dan log akses yang telah disinkronkan ke EMR. Tujuannya adalah menghasilkan data persona pengguna target.
Konfigurasikan pemantauan kualitas data untuk tabel-tabel yang dihasilkan selama transformasi data. Hal ini membantu mendeteksi dan memblokir data kotor sedini mungkin agar tidak memengaruhi proses hilir.
Setelah alur kerja analisis persona pengguna selesai, tabel data dibuat di EMR. Gunakan Peta Data untuk melihat alur data antar tabel tersebut.
Konsumsi data
Setelah analisis persona pengguna selesai, gunakan modul Analisis Data untuk memvisualisasikan data yang telah ditransformasi. Hal ini membantu Anda dengan cepat mengekstraksi informasi penting dan memahami tren bisnis.