Topik ini menjelaskan cara membuat node E-MapReduce (EMR) Hive. Node ini memungkinkan Anda menggunakan pernyataan bergaya SQL untuk membaca, menulis, dan mengelola gudang data yang menyimpan kumpulan data besar pada sistem penyimpanan terdistribusi. Gunakan node ini untuk menganalisis dan mengembangkan sejumlah besar data log. - DataWorks

Anda dapat membuat node E-MapReduce (EMR) Hive yang memungkinkan penggunaan pernyataan bergaya SQL untuk membaca, menulis, dan mengelola gudang data berisi kumpulan data besar pada sistem penyimpanan terdistribusi. Node ini cocok untuk menganalisis dan mengembangkan volume besar data log.

Prasyarat

Kluster Alibaba Cloud EMR telah dibuat dan didaftarkan ke DataWorks. Untuk informasi selengkapnya, lihat DataStudio (versi lama): Mengaitkan sumber daya komputasi EMR.
(Wajib jika Anda menggunakan Pengguna RAM untuk mengembangkan tugas) Pengguna RAM telah ditambahkan ke ruang kerja DataWorks sebagai anggota dan diberikan peran Develop atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang lebih luas daripada yang diperlukan, sehingga berhati-hatilah saat memberikannya. Untuk informasi selengkapnya tentang cara menambahkan anggota, lihat Menambahkan anggota ke ruang kerja.
Kelompok sumber daya arsitektur tanpa server telah dibeli dan dikonfigurasi, termasuk pengaitannya dengan ruang kerja serta konfigurasi jaringan. Untuk informasi selengkapnya, lihat Membuat dan menggunakan kelompok sumber daya arsitektur tanpa server.
Alur kerja telah dibuat di DataStudio.
Operasi pengembangan pada berbagai jenis mesin komputasi dilakukan melalui alur kerja di DataStudio. Oleh karena itu, Anda harus membuat alur kerja terlebih dahulu sebelum membuat node. Untuk informasi selengkapnya, lihat Membuat alur kerja.

Batasan

Jenis node ini hanya dapat dijalankan pada kelompok sumber daya arsitektur tanpa server atau kelompok sumber daya eksklusif untuk penjadwalan. Kami menyarankan Anda menggunakan kelompok sumber daya arsitektur tanpa server.
Jika ingin mengelola metadata untuk DataLake atau kluster kustom di DataWorks, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK di kluster tersebut. Tanpa konfigurasi EMR-HOOK, metadata tidak dapat ditampilkan secara real time, log audit tidak dapat dihasilkan, alur data tidak tersedia di DataWorks, dan tugas tata kelola EMR tidak dapat dijalankan. Untuk informasi selengkapnya tentang cara mengonfigurasi EMR-HOOK, lihat Mengonfigurasi EMR-HOOK untuk Hive.

Langkah 1: Buat node EMR Hive

Buka halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Di panel navigasi kiri, pilih Data Development and O&M > Data Development. Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Buat node EMR Hive.
1. Klik kanan alur kerja target dan pilih Create Node > EMR > EMR Hive.
  Catatan
  Atau, arahkan kursor ke Create dan pilih Create Node > EMR > EMR Hive.
2. Pada kotak dialog Create Node, konfigurasikan parameter Name, Engine Instance, Node Type, dan Path, lalu klik Confirm. Tab konfigurasi untuk node EMR Hive akan muncul.
  Catatan
  Nama node dapat berisi huruf kapital, huruf kecil, karakter Tionghoa, angka, garis bawah (_), dan titik (.).

Langkah 2: Kembangkan tugas EMR Hive

Pada halaman konfigurasi node EMR Hive, klik ganda node yang telah Anda buat untuk membuka halaman pengembangan tugas, lalu lakukan operasi pengembangan.

Kembangkan kode SQL

Di editor SQL, Anda dapat mengembangkan kode node. Dalam kode tersebut, Anda dapat mendefinisikan variabel menggunakan format ${variable_name}. Nilai untuk variabel-variabel ini dapat ditetapkan di bawah Scheduling Configuration > Scheduling Parameters pada panel navigasi kanan halaman pengeditan node. Pendekatan ini memungkinkan Anda meneruskan parameter secara dinamis ke dalam kode dalam skenario penjadwalan. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan. Berikut adalah contohnya.

show tables;
select '${var}'; --Anda dapat memberikan parameter penjadwalan tertentu ke variabel var.
select * from userinfo ;

Catatan

Total ukuran pernyataan SQL tidak boleh melebihi 130 KB.
Jika beberapa sumber daya komputasi EMR dikaitkan ke ruang kerja, Anda harus memilih sumber daya komputasi. Jika hanya satu sumber daya komputasi EMR yang dikaitkan, pemilihan tidak diperlukan.
Klik Run With Parameters di bilah alat atas untuk mengubah penetapan parameter dalam kode. Untuk informasi selengkapnya mengenai logika penetapan parameter, lihat Apa perbedaan logika penetapan parameter antara Run, Run with Parameters, dan smoke testing di lingkungan pengembangan?.

(Opsional) Konfigurasi parameter lanjutan

Anda dapat mengonfigurasi properti khusus node di bagian Advanced Settings. Untuk informasi selengkapnya tentang parameter properti, lihat Spark Configuration. Parameter lanjutan yang tersedia bervariasi tergantung pada jenis kluster EMR. Tabel berikut menjelaskan parameter-parameter tersebut.

DataLake atau kluster kustom: EMR on ECS

Parameter lanjutan	Deskripsi
queue	Antrian penjadwalan tempat pekerjaan dikirimkan. Nilai default: default. Untuk informasi tentang EMR YARN, lihat Konfigurasi Antrian Dasar.
priority	Prioritas. Nilai default adalah 1.
FLOW_SKIP_SQL_ANALYZE	Metode yang digunakan untuk mengeksekusi pernyataan SQL. Nilai yang valid: `true`: Mengeksekusi beberapa pernyataan SQL dalam satu kali eksekusi. `false` (default): Mengeksekusi satu pernyataan SQL dalam satu waktu. Catatan Parameter ini hanya tersedia untuk pengujian alur kerja di lingkungan pengembangan.
DATAWORKS_SESSION_DISABLE	Parameter ini berlaku untuk skenario di mana Anda langsung menjalankan pengujian di lingkungan pengembangan. Nilai yang valid: `true`: Koneksi JDBC dibuat setiap kali pernyataan SQL dieksekusi. `false` (default): Koneksi JDBC yang sama digunakan kembali ketika pernyataan SQL berbeda dieksekusi dalam satu node. Catatan Jika parameter ini diatur ke `false`, `yarn applicationId` untuk Hive tidak dicetak. Jika Anda ingin mencetak `yarn applicationId`, atur parameter ini ke `true`.
Lainnya	Anda juga dapat menambahkan parameter koneksi Hive kustom di konfigurasi lanjutan.

Kluster Hadoop: EMR on ECS

Parameter lanjutan	Deskripsi
queue	Antrian penjadwalan tempat pekerjaan dikirimkan. Nilai default: default. Untuk informasi tentang EMR YARN, lihat Penjadwal YARN.
priority	Prioritas. Nilai default adalah 1.
FLOW_SKIP_SQL_ANALYZE	Metode yang digunakan untuk mengeksekusi pernyataan SQL. Nilai yang valid: `true`: Beberapa pernyataan SQL dieksekusi dalam setiap eksekusi. `false` (default): Hanya satu pernyataan SQL yang dieksekusi dalam satu waktu. Catatan Parameter ini hanya tersedia untuk pengujian alur kerja di lingkungan pengembangan.
USE_GATEWAY	Menentukan apakah pekerjaan untuk node ini dikirimkan melalui kluster gateway. Nilai yang valid: `true`: Mengirimkan pekerjaan melalui kluster Gateway. `false` (default): Tidak menggunakan kluster gateway untuk mengirimkan pekerjaan. Pekerjaan secara otomatis dikirimkan ke Node master. Catatan Jika kluster tempat node ini berada tidak dikaitkan dengan kluster gateway dan Anda mengatur parameter ini ke `true`, pengiriman pekerjaan EMR selanjutnya akan gagal.

Jalankan tugas SQL

Di bilah alat, klik ikon . Pada kotak dialog Parameters, pilih kelompok sumber daya penjadwalan yang telah Anda buat dan klik Run.
Catatan
- Untuk mengakses sumber daya komputasi melalui internet publik atau di dalam VPC, Anda memerlukan kelompok sumber daya penjadwalan yang telah lulus uji konektivitas dengan sumber daya komputasi tersebut. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
- Untuk mengubah kelompok sumber daya untuk suatu tugas, klik ikon Run With Parameters dan pilih kelompok sumber daya penjadwalan yang berbeda.
- Saat menggunakan node EMR Hive untuk mengkueri data, maksimal 10.000 catatan data dapat dikembalikan, dan total ukuran data tidak boleh melebihi 10 MB.
Klik ikon untuk menyimpan pernyataan SQL.
(Opsional) Lakukan Pengujian asap.
Jika ingin melakukan Pengujian asap di lingkungan pengembangan, Anda dapat melakukannya setelah mengirimkan node. Untuk informasi selengkapnya, lihat Melakukan Pengujian asap.

Langkah 3: Konfigurasi properti penjadwalan

Jika Anda ingin sistem menjalankan tugas pada node secara berkala, klik Properties di panel navigasi kanan pada tab konfigurasi node untuk mengonfigurasi properti penjadwalan sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Ikhtisar.

Catatan

Anda harus mengonfigurasi parameter Rerun dan Parent Nodes pada tab Properties sebelum mengirimkan tugas.

Langkah 4: Deploy tugas

Setelah tugas pada suatu node dikonfigurasi, Anda harus mengirimkan dan mendeploy tugas tersebut. Setelah dikirim dan dideploy, sistem akan menjalankan tugas secara berkala berdasarkan konfigurasi penjadwalan.

Klik ikon di bilah alat atas untuk menyimpan tugas.
Klik ikon di bilah alat atas untuk mengirimkan tugas.
Pada kotak dialog Submit, konfigurasikan parameter Change description. Kemudian, tentukan apakah akan meninjau kode tugas setelah pengiriman berdasarkan kebutuhan bisnis Anda.
Catatan
- Anda harus mengonfigurasi parameter Rerun dan Parent Nodes pada tab Properties sebelum mengirimkan tugas.
- Anda dapat menggunakan fitur Tinjauan kode untuk memastikan kualitas kode tugas dan mencegah kesalahan eksekusi akibat kode tugas yang tidak valid. Jika fitur Tinjauan kode diaktifkan, kode tugas yang dikirimkan hanya dapat dideploy setelah lulus proses Tinjauan kode. Untuk informasi selengkapnya, lihat Tinjauan kode.

Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus mendeploy tugas ke lingkungan produksi setelah mengirimkannya. Untuk mendeploy tugas pada suatu node, klik Deploy di pojok kanan atas tab konfigurasi node. Untuk informasi selengkapnya, lihat Deploy node.

Langkah selanjutnya

Setelah Anda mengirimkan dan mendeploy tugas, tugas tersebut akan dijalankan secara berkala sesuai konfigurasi penjadwalan. Untuk melihat status penjadwalannya, klik Operation Center di pojok kanan atas tab konfigurasi node yang sesuai guna membuka Operation Center. Untuk informasi selengkapnya, lihat Melihat dan mengelola Tugas yang dipicu otomatis.

Pertanyaan Umum

T: Mengapa terjadi timeout koneksi (ConnectException) saat saya menjalankan node?

J: Pastikan konektivitas jaringan antara kelompok sumber daya dan kluster. Buka halaman daftar sumber daya komputasi untuk menginisialisasi sumber daya tersebut. Pada kotak dialog yang muncul, klik Re-initialize dan pastikan bahwa inisialisasi berhasil.