All Products
Search
Document Center

E-MapReduce:Persiapkan lingkungan

Last Updated:Mar 27, 2026

Tutorial ini memandu Anda dalam menyiapkan lingkungan E-MapReduce (EMR) dan DataWorks yang diperlukan untuk rangkaian tutorial analisis profil pengguna. Setelah menyelesaikan panduan ini, Anda akan memiliki:

  1. Kluster EMR yang dikonfigurasi untuk integrasi dengan DataWorks.

  2. Ruang kerja DataWorks di wilayah China (Shanghai).

  3. Kelompok sumber daya serverless dengan akses jaringan publik.

  4. Kluster EMR yang terdaftar di DataWorks dan siap menjalankan tugas.

Sumber daya yang Anda buat dalam tutorial ini berjalan di lingkungan produksi dan dikenai biaya. Untuk menghindari biaya yang tidak perlu, hapus sumber daya tersebut setelah menyelesaikan rangkaian tutorial ini.

Prasyarat

Sebelum memulai, pastikan Anda telah memiliki:

  • Akun Alibaba Cloud dengan izin untuk membuat kluster EMR, ruang kerja DataWorks, dan resource VPC.

  • DataWorks yang telah diaktifkan. Untuk langkah-langkah aktivasi, lihat Persiapkan lingkungan.

  • Pemahaman umum mengenai alur kerja tutorial analisis profil pengguna melalui pengantar tutorial tersebut.

Catatan

  • Informasi pengguna dasar dan log akses website yang digunakan dalam tutorial ini disediakan sebagai data uji.

  • Semua data dalam tutorial ini merupakan data tiruan manual dan hanya dapat digunakan untuk operasi eksperimen di DataWorks.

  • Untuk manipulasi data, tutorial ini menggunakan Pengembangan Data (DataStudio) (Versi Lama).

Siapkan kluster EMR

Buat kluster EMR yang dapat dihubungkan oleh DataWorks untuk menjalankan tugas pemrosesan data.

  1. Ikuti langkah-langkah dalam Buat kluster untuk membuat kluster baru. Gunakan konfigurasi berikut:

    Penting

    Sebelum membuat kluster, periksa Praktik terbaik untuk mengonfigurasi DataWorks pada kluster EMR guna memastikan konfigurasi kluster yang didukung oleh DataWorks.

    ParameterNilai
    RegionChina (Shanghai)
    Business ScenarioData Lake
    Product VersionVersi terbaru
    Optional ServicesPilih minimal: komponen Hive, komponen OSS-HDFS (keduanya wajib)
    MetadataDLF Unified Metadata
    Cluster Storage Root PathPilih instans OSS-HDFS. Jika daftarnya kosong, klik Create OSS-HDFS Instance untuk membuatnya.

Siapkan lingkungan DataWorks

Langkah 1: Buat ruang kerja

Lewati langkah ini jika Anda sudah memiliki ruang kerja di wilayah China (Shanghai).

  1. Login ke Konsol DataWorks. Di pojok kiri atas, ubah wilayah menjadi China (Shanghai).

  2. Di panel navigasi sebelah kiri, klik Workspace, lalu klik Create Workspace. Buat ruang kerja dalam mode standar untuk mengisolasi lingkungan produksi dan pengembangan. Untuk detail selengkapnya, lihat Membuat ruang kerja.

Langkah 2: Buat kelompok sumber daya serverless

Tutorial ini menggunakan kelompok sumber daya serverless untuk sinkronisasi data dan penjadwalan. Kelompok sumber daya serverless tidak mendukung operasi lintas wilayah, sehingga harus dibuat di wilayah China (Shanghai).

Beli kelompok sumber daya

  1. Login ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah China (Shanghai). Di panel navigasi sebelah kiri, klik Resource Group.

  2. Klik Create Resource Group. Di halaman pembelian, atur Region And Zone menjadi China (Shanghai), masukkan nama untuk kelompok sumber daya tersebut, lalu selesaikan pembelian sesuai petunjuk. Untuk detail penagihan, lihat Serverless resource group billing.

Konfigurasi kelompok sumber daya

  1. Di halaman Resource Group, temukan kelompok sumber daya yang telah Anda buat dan klik Associate Workspace di kolom Actions. Asosiasikan dengan ruang kerja yang Anda buat pada Langkah 1.

  2. Aktifkan akses jaringan publik untuk kelompok sumber daya tersebut. Data uji dalam tutorial ini diambil melalui internet publik. Secara default, kelompok sumber daya tidak memiliki akses jaringan publik. Siapkan Gateway NAT Internet untuk Virtual Private Cloud (VPC) yang terkait dengan kelompok sumber daya tersebut dan tetapkan alamat IP elastis (EIP) untuk mengaktifkan konektivitas internet.

    1. Login ke Konsol VPC dan buka halaman Gateway NAT Internet. Pilih wilayah China (Shanghai).

    2. Klik Create Internet NAT Gateway dan konfigurasikan parameter berikut:

      ParameterNilai
      RegionChina (Shanghai)
      VPCVPC yang terkait dengan kelompok sumber daya Anda. Untuk menemukannya: di Konsol DataWorks, buka Resource Group > temukan kelompok sumber daya Anda > Network Settings di kolom Actions > tab VPC Binding > bagian Data Scheduling & Data Integration.
      Associate vSwitchvSwitch yang terkait dengan kelompok sumber daya Anda (lokasi yang sama dengan VPC di atas)
      Access ModeSNAT-enabled Mode
      EIPPurchase EIP
      Create Service-Linked RoleKlik Create Service-Linked Role. Diperlukan saat pertama kali membuat Gateway NAT Internet.

      Biarkan semua parameter lain pada nilai default-nya.

    3. Klik Buy Now. Di halaman konfirmasi, terima syarat layanan dan klik Activate Now.

Untuk detail lebih lanjut, lihat Buat dan gunakan kelompok sumber daya serverless.

Langkah 3: Daftarkan kluster EMR dan inisialisasi kelompok sumber daya

Daftarkan kluster EMR ke DataWorks agar dapat menjalankan tugas pada kluster tersebut.

Buka halaman pendaftaran kluster EMR

  1. Login ke Konsol DataWorks. Ubah ke wilayah China (Shanghai). Di panel navigasi sebelah kiri, klik More > Management Center. Pilih ruang kerja Anda dari daftar drop-down dan klik Go To Management Center.

  2. Di panel navigasi sebelah kiri halaman SettingCenter, klik Cluster Management. Di halaman Cluster Management, klik Register Cluster. Di kotak dialog, klik E-MapReduce. Halaman Register EMR Cluster akan muncul.

Daftarkan kluster

  1. Di halaman Register EMR Cluster, masukkan detail kluster. Atur parameter berikut:

    ParameterNilai
    Cluster Alibaba Cloud AccountCurrent Alibaba Cloud Account
    Cluster TypeData Lake (datalake)
    Default Access IdentityCluster Account: Hadoop
    Pass Proxy User InformationPass

Inisialisasi kelompok sumber daya

  1. Di halaman Cluster Management, temukan kluster yang telah terdaftar dan klik Resource Group Initialization di pojok kanan atas.

  2. Klik Initialize di samping kelompok sumber daya yang perlu diinisialisasi.

  3. Setelah inisialisasi selesai, klik Confirm.

    Penting

    Pastikan inisialisasi berhasil sebelum melanjutkan. Jika gagal, periksa pesan error dan jalankan diagnostik konektivitas jaringan seperti yang disarankan. Inisialisasi yang gagal menyebabkan tugas-tugas berikutnya gagal.

Untuk instruksi pendaftaran langkah demi langkah, lihat Register an EMR cluster to DataWorks.

Langkah selanjutnya

Dengan lingkungan yang telah siap, lanjutkan ke tutorial berikutnya untuk menyinkronkan data profil pengguna dan log akses website ke Object Storage Service (OSS), membuat tabel Apache Hive, serta melakukan kueri data menggunakan node EMR Hive. Lihat Sinkronisasi data.