Topik ini menjelaskan cara menggunakan konsol E-MapReduce (EMR) untuk membuat kluster Data Lake berbasis ekosistem Hadoop open-source secara cepat dan mengirimkan pekerjaan WordCount klasik melalui client kluster. WordCount merupakan tugas komputasi terdistribusi dasar dalam Hadoop yang menghitung frekuensi kemunculan setiap kata dalam file teks besar, dan banyak digunakan dalam analisis data, penambangan data, serta skenario lainnya.
Ikhtisar
Panduan cepat ini menunjukkan cara:
-
Membuat kluster Data Lake secara cepat.
-
Mengirimkan dan menjalankan pekerjaan WordCount menggunakan client kluster.
-
Memahami fitur inti Alibaba Cloud EMR dan penggunaan dasar ekosistem Hadoop.
Prasyarat
-
Anda telah membuat Akun Alibaba Cloud dan menyelesaikan verifikasi nama asli.
-
Berikan role EMR dan ECS default kepada akun layanan E-MapReduce. Untuk informasi selengkapnya, lihat Otorisasi role.
Perhatian
Anda bertanggung jawab untuk mengelola dan mengonfigurasi lingkungan runtime kode Anda.
Prosedur
Langkah 1: Buat kluster
-
Buka halaman Create Cluster.
-
Login ke Konsol EMR on ECS.
-
Pada bilah navigasi atas, pilih wilayah dan kelompok sumber daya sesuai kebutuhan bisnis Anda.
-
Wilayah: menentukan wilayah tempat kluster akan dibuat. Wilayah tidak dapat diubah setelah kluster dibuat.
-
Kelompok sumber daya: Secara default menampilkan semua resource dalam akun Anda.
-
-
Di pojok kiri atas, klik CREATE_CLUSTER.
-
-
Pada halaman Create Cluster, konfigurasikan parameter untuk kluster.
Bagian
Parameter
Contoh
Deskripsi
Software Configuration
Region
China (Hangzhou)
Lokasi fisik instans ECS untuk node kluster.
PentingAnda tidak dapat mengubah wilayah setelah kluster dibuat. Pilih wilayah dengan cermat.
Business Scenario
Data Lake
Pilih skenario agar EMR secara otomatis mengonfigurasi komponen, layanan, dan resource default. Hal ini menyederhanakan penyiapan kluster dan menyediakan lingkungan yang disesuaikan dengan kasus penggunaan tertentu.
Product Version
EMR-5.18.1
Pilih versi EMR terbaru.
High Service Availability
Disabled
Fitur ini dinonaktifkan secara default. Jika Anda mengaktifkan High Service Availability, EMR mendistribusikan node master di perangkat keras dasar yang berbeda untuk mengurangi risiko kegagalan.
Optional Services
HADOOP-COMMON, OSS-HDFS, YARN, Hive, Spark3, Tez, Knox, dan OpenLDAP.
Pilih layanan berdasarkan kebutuhan bisnis Anda. Secara default, EMR menjalankan proses layanan untuk layanan yang Anda pilih.
CatatanUntuk mengakses antarmuka web layanan dari konsol, Anda juga harus memilih layanan Knox dan OpenLDAP.
Collect Service Operational Logs
Enabled
Menentukan apakah akan mengaktifkan pengumpulan log untuk semua layanan. Secara default, sakelar ini diaktifkan untuk mengumpulkan log operasional layanan kluster Anda. Log tersebut hanya digunakan untuk diagnostik kluster.
Setelah membuat kluster, Anda dapat mengubah parameter Collection Status of Service Operational Logs pada tab Basic Information.
PentingJika Anda mematikan sakelar ini, pemeriksaan kesehatan kluster EMR dan dukungan teknis terkait layanan akan terbatas. Untuk informasi lebih lanjut tentang cara menonaktifkan pengumpulan log dan dampaknya, lihat Bagaimana cara menghentikan pengumpulan log layanan?
Metadata
Built-in MySQL
Menyimpan metadata dalam database MySQL bawaan.
PentingDatabase MySQL bawaan memungkinkan Anda menyiapkan lingkungan pengujian dengan cepat tetapi tidak direkomendasikan untuk lingkungan produksi. Untuk lingkungan produksi, gunakan instans ApsaraDB RDS yang dikelola sendiri atau Data Lake Formation (DLF) untuk manajemen metadata terpadu sesuai kebutuhan bisnis Anda.
Root Storage Directory of Cluster
oss://******.cn-hangzhou.oss-dls.aliyuncs.com
Direktori penyimpanan root data kluster. Parameter ini wajib diisi hanya jika Anda memilih layanan OSS-HDFS.
CatatanSebelum menggunakan layanan OSS-HDFS, pastikan layanan OSS-HDFS tersedia di wilayah tempat Anda ingin membuat kluster. Jika layanan OSS-HDFS tidak tersedia di wilayah tersebut, Anda dapat mengganti wilayah atau menggunakan HDFS sebagai ganti OSS-HDFS. Untuk informasi lebih lanjut tentang wilayah tempat OSS-HDFS tersedia, lihat Aktifkan OSS-HDFS dan berikan izin akses.
Anda dapat memilih layanan OSS-HDFS saat membuat kluster DataLake dalam skenario data lake baru, kluster Dataflow, kluster DataServing, atau kluster kustom EMR V5.12.1, EMR V3.46.1, atau versi minor yang lebih baru dari EMR V5.12.1 atau EMR V3.46.1.
Hardware Configuration
Billing Method
Pay-as-you-go
Untuk pengujian, gunakan metode penagihan Pay-as-you-go. Setelah pengujian berhasil, Anda dapat menghentikan kluster pengujian dan membuat kluster baru yang menggunakan metode penagihan Subscription untuk produksi.
Zone
Zone I
Anda tidak dapat mengubah zona setelah kluster dibuat. Pilih zona dengan cermat.
VPC
vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****
Pilih VPC di wilayah saat ini. Jika tidak tersedia VPC, klik Create VPC untuk membuatnya. Setelah membuat VPC, klik ikon Refresh untuk memilihnya.
vSwitch
vsw_i/vsw-bp1e2f5fhaplp0g6p****
Pilih vSwitch di zona yang ditentukan dari VPC yang dipilih. Jika tidak tersedia vSwitch di zona tersebut, Anda harus membuatnya.
Default Security Group
sg_seurity/sg-bp1ddw7sm2risw****
PentingEMR tidak mendukung security group enterprise yang dibuat di Konsol ECS.
Anda dapat memilih security group yang sudah ada atau membuat yang baru.
Node Group
Aktifkan sakelar Assign Public Network IP untuk grup node master. Anda dapat mempertahankan nilai default untuk parameter lainnya.
Anda dapat mengonfigurasi grup node master, core, dan task sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Konfigurasi hardware dan jaringan.
Basic Configuration
Cluster Name
Emr-Data Lake
Nama kluster, yang harus terdiri dari 1 hingga 64 karakter dan dapat berisi huruf, angka, tanda hubung (-), garis bawah (_), dan karakter Tionghoa.
Identity Credentials
Password
Memungkinkan Anda login jarak jauh ke node master kluster.
CatatanJika ingin menggunakan autentikasi tanpa password, Anda dapat memilih Key Pair. Untuk informasi selengkapnya, lihat Kelola pasangan kunci SSH.
Password dan Confirm Password
Password kustom.
Catat password tersebut. Anda akan membutuhkannya untuk login ke kluster.
-
Klik Confirm.
Pada halaman EMR on ECS, kluster siap digunakan ketika Status-nya berubah menjadi Running. Untuk informasi selengkapnya tentang parameter kluster, lihat Buat kluster.
Langkah 2: Siapkan data
Setelah membuat kluster, Anda dapat menjalankan pengujian analisis data menggunakan program contoh WordCount yang telah dipra-instal. Anda juga dapat mengunggah dan menjalankan aplikasi data besar Anda sendiri. Topik ini menggunakan program WordCount untuk menunjukkan prosesnya, mulai dari persiapan data hingga pengiriman pekerjaan.
-
Sambungkan ke kluster melalui SSH. Untuk informasi selengkapnya, lihat Login ke kluster.
-
Siapkan file data.
Buat file teks bernama
wordcount.txtsebagai data masukan untuk pekerjaan WordCount. File tersebut harus berisi konten berikut:hello world hello wordcount -
Unggah file data.
CatatanAnda dapat mengunggah file data ke layanan HDFS, OSS, atau OSS-HDFS kluster sesuai kebutuhan bisnis Anda. Topik ini menggunakan layanan OSS-HDFS sebagai contoh. Untuk mengunggah file ke OSS, lihat Simple upload.
-
Jalankan perintah berikut untuk membuat direktori bernama
input:hadoop fs -mkdir oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/input/ -
Jalankan perintah berikut untuk mengunggah file
wordcount.txtdari direktori lokal saat ini ke direktoriinputdi OSS-HDFS:hadoop fs -put wordcount.txt oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/input/
-
Langkah 3: Kirim pekerjaan
Anda dapat menggunakan program WordCount untuk menganalisis data teks dan menghitung frekuensi kata.
Jalankan perintah berikut untuk mengirimkan pekerjaan WordCount:
hadoop jar /opt/apps/HDFS/hadoop-3.2.1-1.2.16-alinux3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount -D mapreduce.job.reduces=1 "oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/input/wordcount.txt" "oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/output/"
Tabel berikut menjelaskan parameter dalam perintah tersebut.
|
Parameter |
Deskripsi |
|
|
Paket program contoh yang disertakan dengan Hadoop. Paket ini mencakup beberapa program contoh MapReduce klasik. Dalam contoh ini, |
|
|
Menetapkan jumlah reducer untuk pekerjaan MapReduce. Secara default, Hadoop secara otomatis menentukan jumlah reducer berdasarkan ukuran data masukan. Jika Anda tidak menentukan jumlah reducer, beberapa file output seperti |
|
|
Jalur input untuk pekerjaan WordCount. Ini adalah jalur ke file data di OSS. Ganti |
|
|
Jalur output tempat pekerjaan WordCount menyimpan hasilnya. |
Langkah 4: Lihat hasilnya
Output pekerjaan
Anda dapat menggunakan perintah shell Hadoop untuk melihat output pekerjaan.
-
Sambungkan ke kluster melalui SSH. Untuk informasi selengkapnya, lihat Login ke kluster.
-
Jalankan perintah berikut untuk melihat output pekerjaan:
hadoop fs -cat oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/output/part-r-00000Output berikut dikembalikan:
hello 2 wordcount 1 world 1
Riwayat pekerjaan
YARN adalah framework manajemen resource Hadoop untuk penjadwalan dan pengelolaan tugas kluster. Anda dapat menggunakan antarmuka YARN untuk melihat status dan riwayat pekerjaan guna meninjau detail eksekusinya.
-
Buka port 8443. Untuk informasi selengkapnya, lihat Kelola security group.
-
Tambahkan pengguna. Untuk informasi selengkapnya, lihat Manajemen pengguna OpenLDAP.
Saat mengakses halaman antarmuka YARN, Anda harus menggunakan username dan password akun Knox.
-
Pada halaman EMR on ECS, temukan kluster Anda dan klik Services di kolom Actions.
-
Klik tab Access Links and Ports.
-
Pada baris YARN UI, klik tautan di kolom Public URL.
Autentikasi dengan kredensial pengguna Anda untuk mengakses halaman antarmuka YARN.
-
Pada halaman All Applications, klik ID pekerjaan untuk melihat detailnya.
Bagian atas halaman ini menampilkan Cluster Metrics (seperti Apps Submitted, Apps Running, dan Memory Used) dan Cluster Nodes Metrics. Bagian bawah halaman mencantumkan aplikasi dengan kolom seperti ID, Name, Application Type, State, dan FinalStatus.
(Opsional) Langkah 5: Melepaskan kluster
Jika Anda tidak lagi membutuhkan kluster, hentikan kluster tersebut untuk menghindari biaya tambahan. Setelah Anda mengonfirmasi penghentian, sistem akan melakukan operasi berikut:
-
Memaksa menghentikan semua pekerjaan di kluster.
-
Menghentikan dan melepas semua instans ECS.
Waktu yang dibutuhkan untuk menghentikan kluster bergantung pada ukuran kluster. Kluster yang lebih kecil dilepas lebih cepat. Proses penghentian biasanya selesai dalam beberapa detik dan tidak melebihi 5 menit.
-
Anda dapat menghentikan kluster Pay-as-you-go kapan saja. Kluster Subscription hanya dapat dihentikan setelah langganan berakhir.
-
Sebelum menghentikan kluster, pastikan kluster berada dalam status Initializing, Running, atau Idle.
-
Pada halaman EMR on ECS, temukan kluster yang akan dihentikan, lalu pilih di kolom Actions.
Atau, klik nama kluster tersebut. Pada tab Basic Information, pilih di pojok kanan atas.
-
Pada kotak dialog yang muncul, klik OK.
Dokumentasi terkait
-
Jalur file yang umum digunakan: Temukan jalur instalasi file yang umum digunakan.
-
Ikhtisar API: Gunakan Operasi API untuk mengelola kluster dan layanan.
FAQ
Untuk masalah umum terkait Alibaba Cloud EMR, lihat FAQ.
> Release