Panduan cepat: Buat dan gunakan kluster Data Lake - E-MapReduce

Topik ini menjelaskan cara menggunakan konsol E-MapReduce (EMR) untuk membuat kluster Data Lake berbasis ekosistem Hadoop open-source secara cepat dan mengirimkan pekerjaan WordCount klasik melalui client kluster. WordCount merupakan tugas komputasi terdistribusi dasar dalam Hadoop yang menghitung frekuensi kemunculan setiap kata dalam file teks besar, dan banyak digunakan dalam analisis data, penambangan data, serta skenario lainnya.

Ikhtisar

Panduan cepat ini menunjukkan cara:

Membuat kluster Data Lake secara cepat.
Mengirimkan dan menjalankan pekerjaan WordCount menggunakan client kluster.
Memahami fitur inti Alibaba Cloud EMR dan penggunaan dasar ekosistem Hadoop.

Prasyarat

Anda telah membuat Akun Alibaba Cloud dan menyelesaikan verifikasi nama asli.
Berikan role EMR dan ECS default kepada akun layanan E-MapReduce. Untuk informasi selengkapnya, lihat Otorisasi role.

Perhatian

Anda bertanggung jawab untuk mengelola dan mengonfigurasi lingkungan runtime kode Anda.

Prosedur

Langkah 1: Buat kluster

Buka halaman Create Cluster.
1. Login ke Konsol EMR on ECS.
2. Pada bilah navigasi atas, pilih wilayah dan kelompok sumber daya sesuai kebutuhan bisnis Anda.
  - Wilayah: menentukan wilayah tempat kluster akan dibuat. Wilayah tidak dapat diubah setelah kluster dibuat.
  - Kelompok sumber daya: Secara default menampilkan semua resource dalam akun Anda.
3. Di pojok kiri atas, klik CREATE_CLUSTER.

Pada halaman Create Cluster, konfigurasikan parameter untuk kluster.

Bagian	Parameter	Contoh	Deskripsi
Software Configuration	Region	China (Hangzhou)	Lokasi fisik instans ECS untuk node kluster. Penting Anda tidak dapat mengubah wilayah setelah kluster dibuat. Pilih wilayah dengan cermat.
	Business Scenario	Data Lake	Pilih skenario agar EMR secara otomatis mengonfigurasi komponen, layanan, dan resource default. Hal ini menyederhanakan penyiapan kluster dan menyediakan lingkungan yang disesuaikan dengan kasus penggunaan tertentu.
	Product Version	EMR-5.18.1	Pilih versi EMR terbaru.
	High Service Availability	Disabled	Fitur ini dinonaktifkan secara default. Jika Anda mengaktifkan High Service Availability, EMR mendistribusikan node master di perangkat keras dasar yang berbeda untuk mengurangi risiko kegagalan.
	Optional Services	HADOOP-COMMON, OSS-HDFS, YARN, Hive, Spark3, Tez, Knox, dan OpenLDAP.	Pilih layanan berdasarkan kebutuhan bisnis Anda. Secara default, EMR menjalankan proses layanan untuk layanan yang Anda pilih. Catatan Untuk mengakses antarmuka web layanan dari konsol, Anda juga harus memilih layanan Knox dan OpenLDAP.
	Collect Service Operational Logs	Enabled	Menentukan apakah akan mengaktifkan pengumpulan log untuk semua layanan. Secara default, sakelar ini diaktifkan untuk mengumpulkan log operasional layanan kluster Anda. Log tersebut hanya digunakan untuk diagnostik kluster. Setelah membuat kluster, Anda dapat mengubah parameter Collection Status of Service Operational Logs pada tab Basic Information. Penting Jika Anda mematikan sakelar ini, pemeriksaan kesehatan kluster EMR dan dukungan teknis terkait layanan akan terbatas. Untuk informasi lebih lanjut tentang cara menonaktifkan pengumpulan log dan dampaknya, lihat Bagaimana cara menghentikan pengumpulan log layanan?
	Metadata	Built-in MySQL	Menyimpan metadata dalam database MySQL bawaan. Penting Database MySQL bawaan memungkinkan Anda menyiapkan lingkungan pengujian dengan cepat tetapi tidak direkomendasikan untuk lingkungan produksi. Untuk lingkungan produksi, gunakan instans ApsaraDB RDS yang dikelola sendiri atau Data Lake Formation (DLF) untuk manajemen metadata terpadu sesuai kebutuhan bisnis Anda.
	Root Storage Directory of Cluster	oss://******.cn-hangzhou.oss-dls.aliyuncs.com	Direktori penyimpanan root data kluster. Parameter ini wajib diisi hanya jika Anda memilih layanan OSS-HDFS. Catatan Sebelum menggunakan layanan OSS-HDFS, pastikan layanan OSS-HDFS tersedia di wilayah tempat Anda ingin membuat kluster. Jika layanan OSS-HDFS tidak tersedia di wilayah tersebut, Anda dapat mengganti wilayah atau menggunakan HDFS sebagai ganti OSS-HDFS. Untuk informasi lebih lanjut tentang wilayah tempat OSS-HDFS tersedia, lihat Aktifkan OSS-HDFS dan berikan izin akses. Anda dapat memilih layanan OSS-HDFS saat membuat kluster DataLake dalam skenario data lake baru, kluster Dataflow, kluster DataServing, atau kluster kustom EMR V5.12.1, EMR V3.46.1, atau versi minor yang lebih baru dari EMR V5.12.1 atau EMR V3.46.1.
Hardware Configuration	Billing Method	Pay-as-you-go	Untuk pengujian, gunakan metode penagihan Pay-as-you-go. Setelah pengujian berhasil, Anda dapat menghentikan kluster pengujian dan membuat kluster baru yang menggunakan metode penagihan Subscription untuk produksi.
	Zone	Zone I	Anda tidak dapat mengubah zona setelah kluster dibuat. Pilih zona dengan cermat.
	VPC	vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****	Pilih VPC di wilayah saat ini. Jika tidak tersedia VPC, klik Create VPC untuk membuatnya. Setelah membuat VPC, klik ikon Refresh untuk memilihnya.
	vSwitch	vsw_i/vsw-bp1e2f5fhaplp0g6p****	Pilih vSwitch di zona yang ditentukan dari VPC yang dipilih. Jika tidak tersedia vSwitch di zona tersebut, Anda harus membuatnya.
	Default Security Group	sg_seurity/sg-bp1ddw7sm2risw****	Penting EMR tidak mendukung security group enterprise yang dibuat di Konsol ECS. Anda dapat memilih security group yang sudah ada atau membuat yang baru.
	Node Group	Aktifkan sakelar Assign Public Network IP untuk grup node master. Anda dapat mempertahankan nilai default untuk parameter lainnya.	Anda dapat mengonfigurasi grup node master, core, dan task sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Konfigurasi hardware dan jaringan.
Basic Configuration	Cluster Name	Emr-Data Lake	Nama kluster, yang harus terdiri dari 1 hingga 64 karakter dan dapat berisi huruf, angka, tanda hubung (-), garis bawah (_), dan karakter Tionghoa.
	Identity Credentials	Password	Memungkinkan Anda login jarak jauh ke node master kluster. Catatan Jika ingin menggunakan autentikasi tanpa password, Anda dapat memilih Key Pair. Untuk informasi selengkapnya, lihat Kelola pasangan kunci SSH.
	Password dan Confirm Password	Password kustom.	Catat password tersebut. Anda akan membutuhkannya untuk login ke kluster.

Klik Confirm.

Pada halaman EMR on ECS, kluster siap digunakan ketika Status-nya berubah menjadi Running. Untuk informasi selengkapnya tentang parameter kluster, lihat Buat kluster.

Langkah 2: Siapkan data

Setelah membuat kluster, Anda dapat menjalankan pengujian analisis data menggunakan program contoh WordCount yang telah dipra-instal. Anda juga dapat mengunggah dan menjalankan aplikasi data besar Anda sendiri. Topik ini menggunakan program WordCount untuk menunjukkan prosesnya, mulai dari persiapan data hingga pengiriman pekerjaan.

Sambungkan ke kluster melalui SSH. Untuk informasi selengkapnya, lihat Login ke kluster.
Siapkan file data.

Buat file teks bernama wordcount.txt sebagai data masukan untuk pekerjaan WordCount. File tersebut harus berisi konten berikut:
```
hello world
hello wordcount
```
Unggah file data.

Catatan
Anda dapat mengunggah file data ke layanan HDFS, OSS, atau OSS-HDFS kluster sesuai kebutuhan bisnis Anda. Topik ini menggunakan layanan OSS-HDFS sebagai contoh. Untuk mengunggah file ke OSS, lihat Simple upload.
1. Jalankan perintah berikut untuk membuat direktori bernama input:
```
hadoop fs -mkdir oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/input/
```
2. Jalankan perintah berikut untuk mengunggah file wordcount.txt dari direktori lokal saat ini ke direktori input di OSS-HDFS:
```
hadoop fs -put wordcount.txt oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/input/
```

Langkah 3: Kirim pekerjaan

Anda dapat menggunakan program WordCount untuk menganalisis data teks dan menghitung frekuensi kata.

Jalankan perintah berikut untuk mengirimkan pekerjaan WordCount:

hadoop jar /opt/apps/HDFS/hadoop-3.2.1-1.2.16-alinux3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount -D mapreduce.job.reduces=1 "oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/input/wordcount.txt" "oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/output/"

Tabel berikut menjelaskan parameter dalam perintah tersebut.

Parameter	Deskripsi
`/opt/apps/.../hadoop-mapreduce-examples-3.2.1.jar`	Paket program contoh yang disertakan dengan Hadoop. Paket ini mencakup beberapa program contoh MapReduce klasik. Dalam contoh ini, `hadoop-mapreduce-examples-3.2.1.jar` adalah nama file JAR di kluster Anda, dan 3.2.1 adalah nomor versinya. Nomor versi biasanya 3.2.1 untuk kluster seri EMR 5.x dan 2.8.5 untuk kluster seri EMR 3.x.
`-D mapreduce.job.reduces`	Menetapkan jumlah reducer untuk pekerjaan MapReduce. Secara default, Hadoop secara otomatis menentukan jumlah reducer berdasarkan ukuran data masukan. Jika Anda tidak menentukan jumlah reducer, beberapa file output seperti `part-r-00000` dan `part-r-00001` mungkin dihasilkan. Dengan menyetel parameter ini ke 1, Anda dapat memastikan hanya satu file output bernama `part-r-00000` yang dihasilkan.
`oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/input/wordcount.txt`	Jalur input untuk pekerjaan WordCount. Ini adalah jalur ke file data di OSS. Ganti `<yourBucketname>` dengan nama bucket OSS Anda dan `cn-hangzhou` dengan ID wilayah.
`oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/output/`	Jalur output tempat pekerjaan WordCount menyimpan hasilnya.

Langkah 4: Lihat hasilnya

Output pekerjaan

Anda dapat menggunakan perintah shell Hadoop untuk melihat output pekerjaan.

Sambungkan ke kluster melalui SSH. Untuk informasi selengkapnya, lihat Login ke kluster.

Jalankan perintah berikut untuk melihat output pekerjaan:

hadoop fs -cat oss://<yourBucketname>.cn-hangzhou.oss-dls.aliyuncs.com/output/part-r-00000

Output berikut dikembalikan:

hello	2
wordcount	1
world	1

Riwayat pekerjaan

YARN adalah framework manajemen resource Hadoop untuk penjadwalan dan pengelolaan tugas kluster. Anda dapat menggunakan antarmuka YARN untuk melihat status dan riwayat pekerjaan guna meninjau detail eksekusinya.

Buka port 8443. Untuk informasi selengkapnya, lihat Kelola security group.
Tambahkan pengguna. Untuk informasi selengkapnya, lihat Manajemen pengguna OpenLDAP.

Saat mengakses halaman antarmuka YARN, Anda harus menggunakan username dan password akun Knox.
Pada halaman EMR on ECS, temukan kluster Anda dan klik Services di kolom Actions.
Klik tab Access Links and Ports.
Pada baris YARN UI, klik tautan di kolom Public URL.

Autentikasi dengan kredensial pengguna Anda untuk mengakses halaman antarmuka YARN.
Pada halaman All Applications, klik ID pekerjaan untuk melihat detailnya.

Bagian atas halaman ini menampilkan Cluster Metrics (seperti Apps Submitted, Apps Running, dan Memory Used) dan Cluster Nodes Metrics. Bagian bawah halaman mencantumkan aplikasi dengan kolom seperti ID, Name, Application Type, State, dan FinalStatus.

(Opsional) Langkah 5: Melepaskan kluster

Jika Anda tidak lagi membutuhkan kluster, hentikan kluster tersebut untuk menghindari biaya tambahan. Setelah Anda mengonfirmasi penghentian, sistem akan melakukan operasi berikut:

Memaksa menghentikan semua pekerjaan di kluster.
Menghentikan dan melepas semua instans ECS.

Waktu yang dibutuhkan untuk menghentikan kluster bergantung pada ukuran kluster. Kluster yang lebih kecil dilepas lebih cepat. Proses penghentian biasanya selesai dalam beberapa detik dan tidak melebihi 5 menit.

Penting

Anda dapat menghentikan kluster Pay-as-you-go kapan saja. Kluster Subscription hanya dapat dihentikan setelah langganan berakhir.
Sebelum menghentikan kluster, pastikan kluster berada dalam status Initializing, Running, atau Idle.

Pada halaman EMR on ECS, temukan kluster yang akan dihentikan, lalu pilih > Release di kolom Actions.

Atau, klik nama kluster tersebut. Pada tab Basic Information, pilih All operations > Release di pojok kanan atas.
Pada kotak dialog yang muncul, klik OK.

Dokumentasi terkait

Jalur file yang umum digunakan: Temukan jalur instalasi file yang umum digunakan.
Ikhtisar API: Gunakan Operasi API untuk mengelola kluster dan layanan.

FAQ

Untuk masalah umum terkait Alibaba Cloud EMR, lihat FAQ.