Tutorial ini menjelaskan cara melakukan analisis profil pengguna. Dalam tutorial ini, DataWorks digunakan untuk menyinkronkan data, memproses data, dan memantau kualitas data. Untuk menyelesaikan tutorial ini sesuai harapan, Anda harus membuat kluster E-MapReduce (EMR) dan ruang kerja DataWorks serta mengonfigurasi lingkungan yang diperlukan.
Latar Belakang Bisnis
Untuk mengembangkan strategi manajemen bisnis yang efektif, Anda perlu mendapatkan data profil dasar pengguna situs web berdasarkan aktivitas mereka di situs tersebut. Data profil dasar mencakup atribut geografis dan sosial dari pengguna situs web. Anda dapat menganalisis data profil berdasarkan waktu dan lokasi, sehingga memungkinkan operasi yang lebih rinci pada lalu lintas situs web.
Catatan Penggunaan
Anda harus membaca Pengenalan Eksperimen untuk memahami seluruh proses eksperimen analisis profil pengguna. Hal ini memastikan bahwa Anda dapat menyelesaikan tutorial sesuai harapan.
Perhatian
Informasi pengguna dasar dan log akses situs web pengguna yang diperlukan untuk pengujian dalam eksperimen ini telah disediakan.
Data dalam eksperimen ini hanya dapat digunakan untuk operasi eksperimen di DataWorks, dan semua data adalah data tiruan manual.
Dalam eksperimen ini, DataStudio (versi lama) digunakan.
Menyiapkan Lingkungan EMR
Membuat Kluster EMR
Tutorial ini memerlukan kluster EMR, yang perlu didaftarkan ke DataWorks. Ini memungkinkan Anda menjalankan tugas pemrosesan data berbasis kluster EMR di konsol DataWorks. Saat membuat kluster EMR, perhatikan item-item berikut dalam langkah Konfigurasi Perangkat Lunak.
Parameter | Deskripsi |
Region | Pilih China (Shanghai). |
Business Scenario | Pilih Data Lake. |
Product Version | Pilih versi terbaru. |
Optional Services (Select One At Least) | Pilih komponen berdasarkan kebutuhan bisnis Anda. Tutorial ini memerlukan komponen Hive dan OSS-HDFS. |
Metadata | Pilih DLF Unified Metadata. |
Root Storage Directory of Cluster | Pilih bucket OSS-HDFS. Jika tidak ada opsi yang tersedia dalam daftar drop-down, klik Create OSS-HDFS Bucket. |
Untuk informasi lebih lanjut tentang cara membuat kluster EMR, lihat Langkah 1: Buat kluster.
Dukungan DataWorks untuk konfigurasi berbeda dari kluster EMR bervariasi. Sebelum membuat kluster EMR dan mengembangkan tugas EMR di DataWorks berdasarkan kluster EMR, kami sarankan Anda membaca topik Praktik Terbaik untuk Mengonfigurasi Kluster EMR yang Digunakan di DataWorks.
Menyiapkan Lingkungan DataWorks
Sebelum mengembangkan tugas di DataWorks, Anda harus mengaktifkan DataWorks. Untuk informasi lebih lanjut, lihat Menyiapkan lingkungan.
Langkah 1: Membuat Ruang Kerja
Jika ruang kerja sudah ada di wilayah Cina (Shanghai), lewati langkah ini dan gunakan ruang kerja yang sudah ada.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah China (Shanghai).
Di panel navigasi sisi kiri, klik Workspace. Pada halaman Ruang Kerja, klik Create Workspace untuk membuat ruang kerja dalam mode standar. Untuk informasi lebih lanjut, lihat Membuat Ruang Kerja. Untuk ruang kerja dalam mode standar, lingkungan pengembangan dipisahkan dari lingkungan produksi.
Langkah 2: Membuat Grup Sumber Daya Tanpa Server
Tutorial ini memerlukan grup sumber daya tanpa server untuk sinkronisasi data dan penjadwalan. Oleh karena itu, Anda perlu membeli dan mengonfigurasi grup sumber daya tanpa server.
Beli grup sumber daya tanpa server.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah China (Shanghai). Di panel navigasi sisi kiri, klik Resource Group untuk masuk ke halaman Resource Groups.
Di halaman Grup Sumber Daya, klik Create Resource Group. Di halaman pembelian, atur Region and Zone ke China (Shanghai), tentukan resource group name, konfigurasikan parameter lainnya sesuai petunjuk, dan ikuti instruksi di layar untuk membayar grup sumber daya. Untuk informasi tentang detail penagihan grup sumber daya tanpa server, lihat Penagihan Grup Sumber Daya Tanpa Server.
CatatanJika tidak ada virtual private cloud (VPC) atau vSwitch di wilayah saat ini, klik tautan dalam deskripsi parameter untuk masuk ke konsol VPC dan membuat satu. Untuk informasi lebih lanjut tentang VPC dan vSwitch, lihat Apa itu VPC?
Hubungkan grup sumber daya tanpa server dengan ruang kerja DataWorks.
Anda dapat menggunakan grup sumber daya tanpa server yang Anda beli dalam operasi berikutnya hanya setelah Anda menghubungkan grup sumber daya tanpa server dengan ruang kerja.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah China (Shanghai). Di panel navigasi sisi kiri, klik Grup Sumber Daya. Di halaman Grup Sumber Daya, temukan grup sumber daya tanpa server yang Anda beli, dan klik Associate Workspace di kolom Actions. Di panel Hubungkan Ruang Kerja, temukan ruang kerja yang ingin Anda hubungkan dan klik Associate di kolom Tindakan.
Aktifkan grup sumber daya tanpa server untuk mengakses Internet.
Data uji yang digunakan dalam tutorial ini harus diperoleh melalui Internet. Secara default, grup sumber daya tanpa server tidak dapat digunakan untuk mengakses Internet. Anda harus mengonfigurasi Gateway NAT Internet untuk VPC yang terkait dengan grup sumber daya tanpa server dan mengonfigurasi EIP untuk VPC untuk membangun koneksi jaringan antara VPC dan lingkungan jaringan data uji. Dengan cara ini, Anda dapat menggunakan grup sumber daya tanpa server untuk mengakses data uji.
Pergi ke halaman Gateway NAT Internet di konsol VPC. Di bilah navigasi atas, pilih wilayah China (Shanghai).
Klik Create Internet NAT Gateway dan konfigurasikan parameter. Tabel berikut menjelaskan parameter utama yang diperlukan dalam tutorial ini. Anda dapat mempertahankan nilai default untuk parameter yang tidak dijelaskan dalam tabel berikut.
Parameter
Deskripsi
Region
Pilih Cina (Shanghai).
VPC
Pilih VPC dan vSwitch yang terkait dengan grup sumber daya.
Untuk melihat VPC dan vSwitch yang terkait dengan grup sumber daya, lakukan operasi berikut: Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah tempat Anda mengaktifkan DataWorks. Di panel navigasi sisi kiri, klik Resource Group. Di halaman Grup Sumber Daya, temukan grup sumber daya yang dibuat dan klik Network Settings di kolom Actions. Di bagian Data Scheduling & Data Integration tab Pengikatan VPC pada halaman yang muncul, lihat VPC dan vSwitch yang terkait dengan grup sumber daya. Untuk informasi lebih lanjut tentang VPC dan vSwitch, lihat Apa itu VPC?
Associate vSwitch
Access Mode
Pilih Mode SNAT-enabled.
EIP
Pilih Beli EIP.
Service-linked Role
Klik Create Service-linked Role untuk membuat peran layanan-terkait jika ini pertama kalinya Anda membuat Gateway NAT.
Klik Buy Now. Di halaman Konfirmasi, baca ketentuan layanan, centang kotak untuk Ketentuan Layanan, dan klik Activate Now.
Untuk informasi lebih lanjut tentang cara membuat dan menggunakan grup sumber daya tanpa server, lihat Buat dan Gunakan Grup Sumber Daya Tanpa Server.
Langkah 3: Daftarkan kluster EMR ke DataWorks dan inisialisasi grup sumber daya
Anda dapat menggunakan kluster EMR di DataWorks hanya jika Anda mendaftarkan kluster ke DataWorks.
Pergi ke halaman Daftarkan Kluster EMR.
Pergi ke halaman SettingCenter.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah China (Shanghai). Di panel navigasi sisi kiri, pilih . Di halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Management Center.
Di panel navigasi sisi kiri halaman SettingCenter, klik Cluster Management. Di halaman Cluster Management, klik Register Cluster. Di kotak dialog Pilih Jenis Kluster, klik E-MapReduce. Halaman Register EMR Cluster muncul.
Daftarkan kluster EMR ke DataWorks.
Di halaman Register EMR Cluster, konfigurasikan informasi kluster. Tabel berikut menjelaskan parameter utama.
Parameter
Deskripsi
Alibaba Cloud Account to Which Cluster Belongs
Atur ke Current Alibaba Cloud Account.
Cluster Type
Pilih Data Lake.
Default Access Identity
Atur ke Cluster Account: hadoop.
Pass Proxy User Information
Atur ke Pass.
Inisialisasi grup sumber daya.
Pergi ke halaman Cluster Management di SettingCenter. Temukan kluster EMR yang didaftarkan ke DataWorks dan klik Initialize Resource Group di bagian yang menampilkan informasi kluster EMR.
Di kotak dialog Inisialisasi Grup Sumber Daya, temukan grup sumber daya yang diinginkan dan klik Initialize.
Setelah inisialisasi selesai, klik OK.
PentingAnda harus memastikan bahwa inisialisasi grup sumber daya berhasil. Jika tidak, tugas yang menggunakan grup sumber daya mungkin gagal. Jika inisialisasi grup sumber daya gagal, Anda dapat melihat penyebab kegagalan dan melakukan diagnosis konektivitas jaringan sesuai petunjuk.
Untuk informasi lebih lanjut tentang cara mendaftarkan kluster EMR, lihat DataStudio (versi lama): Hubungkan sumber daya komputasi EMR.
Apa yang Harus Dilakukan Selanjutnya
Anda telah menyiapkan lingkungan Anda dan dapat melanjutkan ke tutorial berikutnya. Di tutorial berikutnya, Anda akan mempelajari cara menyinkronkan informasi pengguna dasar dan log akses situs web pengguna ke OSS, dan cara membuat tabel di node EMR Hive untuk menanyakan data yang disinkronkan. Untuk informasi lebih lanjut, lihat Sinkronkan data.