Tutorial ini memandu Anda dalam menyiapkan lingkungan E-MapReduce (EMR) dan DataWorks yang diperlukan untuk rangkaian tutorial analisis profil pengguna. Setelah menyelesaikan panduan ini, Anda akan memiliki:
Kluster EMR yang dikonfigurasi untuk integrasi dengan DataWorks.
Ruang kerja DataWorks di wilayah China (Shanghai).
Kelompok sumber daya serverless dengan akses jaringan publik.
Kluster EMR yang terdaftar di DataWorks dan siap menjalankan tugas.
Sumber daya yang Anda buat dalam tutorial ini berjalan di lingkungan produksi dan dikenai biaya. Untuk menghindari biaya yang tidak perlu, hapus sumber daya tersebut setelah menyelesaikan rangkaian tutorial ini.
Prasyarat
Sebelum memulai, pastikan Anda telah memiliki:
Akun Alibaba Cloud dengan izin untuk membuat kluster EMR, ruang kerja DataWorks, dan resource VPC.
DataWorks yang telah diaktifkan. Untuk langkah-langkah aktivasi, lihat Persiapkan lingkungan.
Pemahaman umum mengenai alur kerja tutorial analisis profil pengguna melalui pengantar tutorial tersebut.
Catatan
Informasi pengguna dasar dan log akses website yang digunakan dalam tutorial ini disediakan sebagai data uji.
Semua data dalam tutorial ini merupakan data tiruan manual dan hanya dapat digunakan untuk operasi eksperimen di DataWorks.
Untuk manipulasi data, tutorial ini menggunakan Pengembangan Data (DataStudio) (Versi Lama).
Siapkan kluster EMR
Buat kluster EMR yang dapat dihubungkan oleh DataWorks untuk menjalankan tugas pemrosesan data.
Ikuti langkah-langkah dalam Buat kluster untuk membuat kluster baru. Gunakan konfigurasi berikut:
PentingSebelum membuat kluster, periksa Praktik terbaik untuk mengonfigurasi DataWorks pada kluster EMR guna memastikan konfigurasi kluster yang didukung oleh DataWorks.
Parameter Nilai Region China (Shanghai) Business Scenario Data Lake Product Version Versi terbaru Optional Services Pilih minimal: komponen Hive, komponen OSS-HDFS (keduanya wajib) Metadata DLF Unified Metadata Cluster Storage Root Path Pilih instans OSS-HDFS. Jika daftarnya kosong, klik Create OSS-HDFS Instance untuk membuatnya.
Siapkan lingkungan DataWorks
Langkah 1: Buat ruang kerja
Lewati langkah ini jika Anda sudah memiliki ruang kerja di wilayah China (Shanghai).
Login ke Konsol DataWorks. Di pojok kiri atas, ubah wilayah menjadi China (Shanghai).
Di panel navigasi sebelah kiri, klik Workspace, lalu klik Create Workspace. Buat ruang kerja dalam mode standar untuk mengisolasi lingkungan produksi dan pengembangan. Untuk detail selengkapnya, lihat Membuat ruang kerja.
Langkah 2: Buat kelompok sumber daya serverless
Tutorial ini menggunakan kelompok sumber daya serverless untuk sinkronisasi data dan penjadwalan. Kelompok sumber daya serverless tidak mendukung operasi lintas wilayah, sehingga harus dibuat di wilayah China (Shanghai).
Beli kelompok sumber daya
Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah China (Shanghai). Di panel navigasi sebelah kiri, klik Resource Group.
Klik Create Resource Group. Di halaman pembelian, atur Region And Zone menjadi China (Shanghai), masukkan nama untuk kelompok sumber daya tersebut, lalu selesaikan pembelian sesuai petunjuk. Untuk detail penagihan, lihat Serverless resource group billing.
Konfigurasi kelompok sumber daya
Di halaman Resource Group, temukan kelompok sumber daya yang telah Anda buat dan klik Associate Workspace di kolom Actions. Asosiasikan dengan ruang kerja yang Anda buat pada Langkah 1.
Aktifkan akses jaringan publik untuk kelompok sumber daya tersebut. Data uji dalam tutorial ini diambil melalui internet publik. Secara default, kelompok sumber daya tidak memiliki akses jaringan publik. Siapkan Gateway NAT Internet untuk Virtual Private Cloud (VPC) yang terkait dengan kelompok sumber daya tersebut dan tetapkan alamat IP elastis (EIP) untuk mengaktifkan konektivitas internet.
Login ke Konsol VPC dan buka halaman Gateway NAT Internet. Pilih wilayah China (Shanghai).
Klik Create Internet NAT Gateway dan konfigurasikan parameter berikut:
Parameter Nilai Region China (Shanghai) VPC VPC yang terkait dengan kelompok sumber daya Anda. Untuk menemukannya: di Konsol DataWorks, buka Resource Group > temukan kelompok sumber daya Anda > Network Settings di kolom Actions > tab VPC Binding > bagian Data Scheduling & Data Integration. Associate vSwitch vSwitch yang terkait dengan kelompok sumber daya Anda (lokasi yang sama dengan VPC di atas) Access Mode SNAT-enabled Mode EIP Purchase EIP Create Service-Linked Role Klik Create Service-Linked Role. Diperlukan saat pertama kali membuat Gateway NAT Internet. Biarkan semua parameter lain pada nilai default-nya.
Klik Buy Now. Di halaman konfirmasi, terima syarat layanan dan klik Activate Now.
Untuk detail lebih lanjut, lihat Buat dan gunakan kelompok sumber daya serverless.
Langkah 3: Daftarkan kluster EMR dan inisialisasi kelompok sumber daya
Daftarkan kluster EMR ke DataWorks agar dapat menjalankan tugas pada kluster tersebut.
Buka halaman pendaftaran kluster EMR
Login ke Konsol DataWorks. Ubah ke wilayah China (Shanghai). Di panel navigasi sebelah kiri, klik More > Management Center. Pilih ruang kerja Anda dari daftar drop-down dan klik Go To Management Center.
Di panel navigasi sebelah kiri halaman SettingCenter, klik Cluster Management. Di halaman Cluster Management, klik Register Cluster. Di kotak dialog, klik E-MapReduce. Halaman Register EMR Cluster akan muncul.
Daftarkan kluster
Di halaman Register EMR Cluster, masukkan detail kluster. Atur parameter berikut:
Parameter Nilai Cluster Alibaba Cloud Account Current Alibaba Cloud Account Cluster Type Data Lake (datalake) Default Access Identity Cluster Account: Hadoop Pass Proxy User Information Pass
Inisialisasi kelompok sumber daya
Di halaman Cluster Management, temukan kluster yang telah terdaftar dan klik Resource Group Initialization di pojok kanan atas.
Klik Initialize di samping kelompok sumber daya yang perlu diinisialisasi.
Setelah inisialisasi selesai, klik Confirm.
PentingPastikan inisialisasi berhasil sebelum melanjutkan. Jika gagal, periksa pesan error dan jalankan diagnostik konektivitas jaringan seperti yang disarankan. Inisialisasi yang gagal menyebabkan tugas-tugas berikutnya gagal.
Untuk instruksi pendaftaran langkah demi langkah, lihat Register an EMR cluster to DataWorks.
Langkah selanjutnya
Dengan lingkungan yang telah siap, lanjutkan ke tutorial berikutnya untuk menyinkronkan data profil pengguna dan log akses website ke Object Storage Service (OSS), membuat tabel Apache Hive, serta melakukan kueri data menggunakan node EMR Hive. Lihat Sinkronisasi data.