Topik ini menjelaskan cara menggunakan kombinasi DataWorks dan E-MapReduce (EMR) untuk pengembangan dan analisis gudang data. Topik ini juga menyertakan studi kasus tentang analisis profil pengguna, sehingga Anda dapat memahami kemampuan layanan DataWorks seperti Data Integration, Data Studio, dan Operation Center.
Pengenalan eksperimen
Untuk mengembangkan strategi manajemen bisnis yang efektif, Anda perlu mendapatkan data profil dasar pengguna situs web berdasarkan aktivitas mereka di situs tersebut. Data profil dasar mencakup atribut geografis dan sosial dari pengguna situs web. Anda dapat menganalisis data profil berdasarkan waktu dan lokasi, memungkinkan operasi lebih rinci terhadap lalu lintang situs web. Kombinasi DataWorks dan EMR dapat digunakan untuk menyelesaikan sinkronisasi data, pemrosesan data, manajemen data, dan konsumsi data.
Anda harus membaca Pengenalan Eksperimen untuk memahami seluruh proses eksperimen analisis profil pengguna. Hal ini memastikan bahwa Anda dapat menyelesaikan tutorial ini.
Prosedur
Langkah 1: Siapkan Lingkungan
Buat kluster EMR dan ruang kerja DataWorks yang diperlukan untuk tutorial ini, serta konfigurasikan lingkungan tersebut.
Langkah 2: Sinkronkan Data
Konfigurasikan tugas sinkronisasi data di DataWorks untuk menyinkronkan informasi pengguna dasar dan log akses situs web pengguna yang disediakan dalam tutorial ke sumber data Object Storage Service (OSS), serta buat tabel menggunakan node EMR Hive untuk menanyakan data yang telah disinkronkan.
Langkah 3: Proses Data
Gunakan node EMR Hive di DataWorks untuk memproses data dalam tabel informasi pengguna dasar dan tabel log akses yang disinkronkan ke OSS guna mendapatkan data profil pengguna yang diinginkan.
Langkah 4: Konfigurasikan Monitor
Di DataWorks Data Quality, konfigurasikan monitor untuk tabel dwd_log_info_di_emr yang dihasilkan setelah data yang disinkronkan diproses.