Topik ini menjelaskan cara membuat kluster DataLake berbasis ekosistem Hadoop open source di Konsol E-MapReduce (EMR) secara cepat serta menggunakan kluster tersebut untuk mengirimkan pekerjaan WordCount. Pekerjaan WordCount merupakan salah satu tugas komputasi terdistribusi paling mendasar dalam Hadoop yang digunakan untuk menghitung jumlah kata dalam sejumlah besar data teks. Pekerjaan ini dapat diterapkan dalam berbagai skenario seperti analisis data dan penambangan data.
Ikhtisar
Anda dapat mengikuti petunjuk dalam topik ini untuk:
Membuat kluster DataLake dengan cepat.
Menggunakan kluster DataLake untuk mengirimkan dan menjalankan pekerjaan WordCount.
Memahami fitur inti dari Alibaba Cloud EMR dan penggunaan dasar ekosistem Hadoop.
Prasyarat
Akun Alibaba Cloud telah dibuat, dan verifikasi nama asli telah selesai.
Peran EMR dan Elastic Compute Service (ECS) default telah ditetapkan ke akun Alibaba Cloud Anda. Untuk informasi lebih lanjut, lihat Tetapkan Peran ke Akun Alibaba Cloud.
Peringatan
Lingkungan runtime kode dikelola dan dikonfigurasi oleh pemilik lingkungan tersebut.
Prosedur
Langkah 1: Buat kluster
Pergi ke halaman pembuatan kluster.
Masuk ke Konsol EMR. Di panel navigasi sisi kiri, klik EMR on ECS.
Di bilah navigasi atas, pilih wilayah dan grup sumber daya sesuai kebutuhan bisnis Anda.
Wilayah kluster tidak dapat diubah setelah kluster dibuat.
Secara default, semua grup sumber daya di akun Anda akan ditampilkan.
Di halaman EMR on ECS, klik Create Cluster.
Di halaman yang muncul, konfigurasikan parameter. Tabel berikut menjelaskan parameter tersebut.
Langkah
Parameter
Contoh
Deskripsi
Software Configuration
Region
Cina (Hangzhou)
Lokasi geografis tempat instance ECS kluster berada.
PentingAnda tidak dapat mengubah wilayah setelah kluster dibuat. Pilih wilayah berdasarkan kebutuhan bisnis Anda.
Business Scenario
Danau Data
Skenario bisnis kluster. Pilih skenario bisnis berdasarkan kebutuhan bisnis Anda. Alibaba Cloud EMR secara otomatis mengonfigurasi komponen, layanan, dan sumber daya untuk menyederhanakan konfigurasi kluster dan menyediakan lingkungan kluster yang memenuhi persyaratan skenario bisnis tertentu.
Product Version
EMR-5.18.1
Versi EMR. Pilih versi terbaru.
High Service Availability
Nonaktif
Menentukan apakah akan mengaktifkan ketersediaan tinggi (HA) untuk kluster EMR. Jika Anda menyalakan sakelar High Service Availability, EMR mendistribusikan node master di perangkat keras dasar yang berbeda untuk mengurangi risiko kegagalan. Secara default, sakelar dimatikan.
Optional Services
Hadoop-Common, OSS-HDFS, YARN, Hive, Spark3, Tez, Knox, dan OpenLDAP
Layanan opsional untuk kluster. Anda dapat memilih layanan berdasarkan kebutuhan bisnis Anda. Proses yang terkait dengan layanan yang dipilih akan dimulai secara otomatis.
CatatanJika Anda ingin mengakses antarmuka web layanan, Anda juga perlu memilih Knox dan OpenLDAP.
Collect Service Operational Logs
Aktif
Menentukan apakah akan mengaktifkan pengumpulan log untuk semua layanan. Secara default, sakelar ini dihidupkan untuk mengumpulkan log operasional layanan kluster Anda. Log hanya digunakan untuk diagnosis kluster.
Setelah Anda membuat kluster, Anda dapat mengubah parameter Collection Status of Service Operational Logs pada tab Basic Information.
PentingJika Anda mematikan sakelar ini, pemeriksaan kesehatan kluster EMR dan dukungan teknis terkait layanan dibatasi. Untuk informasi lebih lanjut tentang cara menonaktifkan pengumpulan log dan dampak yang ditimbulkan oleh penonaktifan pengumpulan log, lihat Bagaimana cara menghentikan pengumpulan log operasional layanan?
Metadata
MySQL Bawaan
Jika Anda memilih MySQL Bawaan untuk Metadata, metadata disimpan di MySQL.
PentingMySQL Bawaan cocok untuk lingkungan pengujian. Kami sarankan Anda tidak menggunakan MySQL Bawaan di lingkungan produksi. Jika Anda berencana menggunakan layanan metadata di lingkungan produksi, kami sarankan Anda memilih RDS Mandiri atau DLF Unified Metadata berdasarkan kebutuhan bisnis Anda.
Root Storage Directory of Cluster
oss://******.cn-hangzhou.oss-dls.aliyuncs.com
Direktori penyimpanan root data kluster. Parameter ini hanya diperlukan jika Anda memilih layanan OSS-HDFS.
CatatanSebelum Anda menggunakan layanan OSS-HDFS, pastikan bahwa layanan OSS-HDFS tersedia di wilayah tempat Anda ingin membuat kluster. Jika layanan OSS-HDFS tidak tersedia di wilayah tersebut, Anda dapat mengubah wilayah atau menggunakan HDFS sebagai ganti OSS-HDFS. Untuk informasi lebih lanjut tentang wilayah di mana OSS-HDFS tersedia, lihat Aktifkan OSS-HDFS dan berikan izin akses.
Anda dapat memilih layanan OSS-HDFS saat membuat kluster DataLake di skenario danau data baru, kluster Dataflow, kluster DataServing, atau kluster kustom EMR V5.12.1, EMR V3.46.1, atau versi minor setelah EMR V5.12.1 atau EMR V3.46.1.
Hardware Configuration
Billing Method
Bayar sesuai pemakaian
Metode penagihan kluster. Jika Anda ingin melakukan pengujian, kami sarankan Anda menggunakan metode penagihan pay-as-you-go. Setelah pengujian selesai, Anda dapat melepaskan kluster dan membuat kluster subscription di lingkungan produksi.
Zone
Zona I
Zona tempat kluster berada. Anda tidak dapat mengubah zona setelah kluster dibuat. Pilih zona berdasarkan kebutuhan bisnis Anda.
VPC
vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****
VPC tempat kluster diterapkan. Pilih VPC di wilayah saat ini. Jika tidak ada VPC yang tersedia, klik Create VPC untuk membuat VPC. Setelah VPC dibuat, klik ikon Refresh dan pilih VPC yang telah dibuat.
vSwitch
vsw_i/vsw-bp1e2f5fhaplp0g6p****
vSwitch kluster. Pilih vSwitch di zona yang ditentukan. Jika tidak ada vSwitch yang tersedia di zona tersebut, buat vSwitch.
Default Security Group
sg_seurity/sg-bp1ddw7sm2risw****
PentingAnda tidak diizinkan menggunakan kelompok keamanan tingkat lanjut yang dibuat di konsol ECS.
Kelompok keamanan tempat Anda ingin menambahkan kluster. Jika Anda telah membuat kelompok keamanan di EMR, Anda dapat memilih kelompok keamanan berdasarkan kebutuhan bisnis Anda. Anda juga dapat membuat kelompok keamanan.
Node Group
Nyalakan sakelar Assign Public Network IP untuk grup node master dan gunakan pengaturan default parameter lainnya
Instance dalam kluster. Konfigurasikan node master, node inti, dan node tugas berdasarkan kebutuhan bisnis Anda. Untuk informasi lebih lanjut, lihat Pilih spesifikasi perangkat keras dan konfigurasi jaringan.
Basic Configuration
Cluster Name
Emr-DataLake
Nama kluster. Nama harus memiliki panjang 1 hingga 64 karakter dan hanya dapat berisi huruf, angka, tanda hubung (-), dan garis bawah (_).
Identity Credentials
Kata Sandi
Kredensial identitas yang ingin Anda gunakan untuk mengakses node master kluster secara remote.
CatatanJika Anda ingin melakukan autentikasi tanpa perlu memasukkan kata sandi, Anda dapat memilih Key Pair untuk parameter ini. Untuk informasi lebih lanjut, lihat Kelola pasangan kunci SSH.
Password dan Confirm Password
Kata sandi kustom
Kata sandi yang ingin Anda gunakan untuk mengakses kluster. Catat kata sandi ini untuk operasi selanjutnya.
Klik Next: Confirm. Ikuti petunjuk di layar untuk menyelesaikan pembuatan kluster.
Kluster berhasil dibuat jika statusnya menjadi Running. Untuk informasi lebih lanjut tentang parameter kluster, lihat Buat Kluster.
Langkah 2: Persiapkan data
Setelah kluster dibuat, Anda dapat menggunakan program WordCount bawaan kluster untuk menganalisis data atau mengunggah dan menjalankan program big data yang dikembangkan sendiri. Topik ini menggunakan program WordCount bawaan sebagai contoh untuk menjelaskan cara mempersiapkan data dan mengirimkan pekerjaan untuk analisis data.
Masuk ke kluster Anda dalam mode SSH. Untuk informasi lebih lanjut, lihat Masuk ke Kluster.
Persiapkan file data.
Buat file teks bernama
wordcount.txtsebagai data masukan program WordCount. Contoh kode:halo dunia halo wordcountUnggah file data.
CatatanAnda dapat mengunggah file data ke HDFS, OSS, atau OSS-HDFS sesuai kebutuhan bisnis Anda. Dalam contoh ini, file data diunggah ke OSS-HDFS. Untuk informasi tentang cara mengunggah file ke OSS, lihat Unggah Sederhana.
Jalankan perintah berikut untuk membuat direktori bernama
input:hadoop fs -mkdir oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/input/Jalankan perintah berikut untuk mengunggah file
wordcount.txtdari direktori root lokal ke direktoriinputOSS-HDFS:hadoop fs -put wordcount.txt oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/input/
Langkah 3: Kirim pekerjaan
Gunakan program WordCount untuk menganalisis frekuensi kata dalam data teks.
Jalankan perintah berikut untuk mengirimkan pekerjaan WordCount:
hadoop jar /opt/apps/HDFS/hadoop-3.2.1-1.2.16-alinux3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount -D mapreduce.job.reduces=1 "oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/input/wordcount.txt" "oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/output/"Tabel berikut menjelaskan parameter dalam perintah tersebut.
Parameter | Deskripsi |
| Paket JAR Hadoop bawaan yang berisi program MapReduce sampel tertentu. |
| Jumlah tugas reduce yang diizinkan untuk pekerjaan MapReduce. Secara default, Hadoop secara otomatis menentukan jumlah tugas reduce berdasarkan volume data masukan. Jika Anda tidak mengonfigurasi parameter ini, beberapa file keluaran, seperti |
| Jalur masukan pekerjaan WordCount, yaitu jalur yang menyimpan file data yang diunggah pada langkah sebelumnya. |
| Jalur keluaran pekerjaan WordCount, yang digunakan untuk menyimpan hasil perhitungan pekerjaan. |
Langkah 4: Lihat hasilnya
Lihat hasil eksekusi pekerjaan
Jalankan perintah Shell Hadoop untuk melihat hasil eksekusi pekerjaan.
Masuk ke kluster Anda dalam mode SSH. Untuk informasi lebih lanjut, lihat Masuk ke Kluster.
Jalankan perintah berikut untuk melihat hasil eksekusi pekerjaan:
hadoop fs -cat oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/output/part-r-00000Gambar berikut menunjukkan keluarannya.

Lihat detail pekerjaan
YARN adalah kerangka kerja manajemen sumber daya Hadoop yang digunakan untuk menjadwalkan dan mengelola pekerjaan yang dikirimkan ke kluster. Anda dapat melihat detail pekerjaan di antarmuka web YARN, termasuk status, detail tugas, log, dan penggunaan sumber daya.
Aktifkan port 8443. Untuk informasi lebih lanjut, lihat Kelola Kelompok Keamanan.
Tambahkan pengguna. Untuk informasi lebih lanjut, lihat Kelola Pengguna OpenLDAP.
Untuk mengakses antarmuka web YARN menggunakan akun Knox, Anda harus mendapatkan nama pengguna dan kata sandi akun Knox.
Di halaman EMR on ECS, temukan kluster Anda dan klik Services di kolom Actions.
Di halaman yang muncul, klik tab Access Links and Ports.
Di tab Access Links and Ports, klik tautan di sebelah kanan Internet di kolom Knox Proxy Address untuk YARN UI.
Anda dapat menggunakan pengguna yang telah ditambahkan untuk otentikasi login dan mengakses antarmuka web YARN.
Di halaman All Applications, klik ID pekerjaan untuk melihat detail pekerjaan tersebut.

(Opsional) Langkah 5: Lepaskan kluster
Jika Anda tidak lagi memerlukan kluster, Anda dapat melepaskannya untuk mengurangi biaya. Setelah Anda mengonfirmasi pelepasan kluster, sistem akan melakukan operasi berikut pada kluster:
Paksa hentikan semua pekerjaan di kluster.
Hentikan dan lepaskan semua instance ECS yang dibuat untuk kluster.
Waktu yang diperlukan untuk melepaskan kluster tergantung pada ukuran kluster. Sebagian besar kluster dapat dilepaskan dalam hitungan detik. Melepaskan kluster besar tidak memerlukan waktu lebih dari 5 menit.
Kluster bayar sesuai pemakaian dapat dilepaskan kapan saja. Kluster langganan hanya dapat dilepaskan setelah kluster kedaluwarsa.
Sebelum melepaskan kluster, pastikan bahwa kluster berada dalam status Menginisialisasi, Berjalan, atau Idle.
Di halaman EMR on ECS, temukan kluster Anda, arahkan penunjuk ke ikon
, lalu pilih Release.Anda juga dapat melepaskan kluster dengan melakukan operasi berikut: Klik nama kluster. Di sudut kanan atas tab Basic Information, pilih .
Di pesan Release Cluster, klik OK.
Referensi
Untuk informasi tentang jalur file yang sering digunakan di EMR, lihat Jalur File yang Sering Digunakan.
Untuk informasi lebih lanjut tentang operasi API yang tersedia untuk manajemen kluster dan manajemen layanan kluster, lihat Daftar Operasi Berdasarkan Fungsi.
FAQ
Untuk informasi tentang beberapa pertanyaan yang sering diajukan tentang EMR, lihat FAQ.