Node Hive E-MapReduce (EMR) di DataWorks mendukung analisis batch data berskala besar. Node ini beroperasi pada data yang disimpan dalam sistem terdistribusi untuk menyederhanakan pemrosesan data besar dan meningkatkan efisiensi pengembangan. Di node Hive EMR, Anda dapat menggunakan pernyataan mirip SQL untuk membaca, menulis, dan mengelola kumpulan data besar, sehingga memudahkan analisis dan pengembangan tugas yang melibatkan volume besar data log.
Prasyarat
Anda telah membuat kluster Alibaba Cloud EMR dan mengaitkannya dengan DataWorks. Untuk informasi selengkapnya, lihat Data Studio (versi baru): Mengaitkan sumber daya komputasi EMR.
(Opsional) Jika Anda adalah pengguna Resource Access Management (RAM), pastikan Anda telah ditambahkan ke ruang kerja untuk pengembangan tugas dan diberikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas, sehingga harus diberikan dengan hati-hati. Untuk informasi selengkapnya tentang penambahan anggota, lihat Menambahkan anggota ke ruang kerja.
Jika Anda menggunakan akun Alibaba Cloud, Anda dapat melewati langkah ini.
Anda telah mengonfigurasi sumber data Hive di DataWorks dan memverifikasi konektivitasnya. Untuk informasi selengkapnya, lihat Manajemen sumber data.
Batasan
Jenis tugas ini hanya dapat dijadwalkan pada kelompok sumber daya arsitektur tanpa server (direkomendasikan) atau kelompok sumber daya eksklusif.
Untuk mengelola metadata DataLake atau kluster kustom di DataWorks, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK pada kluster tersebut. Untuk informasi selengkapnya tentang cara mengonfigurasi EMR-HOOK, lihat Mengonfigurasi EMR-HOOK untuk Hive.
CatatanJika EMR-HOOK tidak dikonfigurasi pada kluster, DataWorks tidak dapat menampilkan metadata secara real-time, menghasilkan log audit, menampilkan alur data, atau melakukan tugas administrasi terkait EMR.
Langkah 1: Mengembangkan node Hive EMR
Anda dapat mengembangkan node Hive EMR pada halaman pengeditan node.
Mengembangkan kode SQL
Anda dapat mengembangkan kode tugas di area pengeditan SQL. Dalam kode tersebut, gunakan format ${variable_name} untuk mendefinisikan variabel, lalu tetapkan nilai untuk setiap variabel di bagian Scheduling Configuration > Scheduling Parameters pada panel kanan halaman pengeditan node. Pendekatan ini memungkinkan Anda meneruskan parameter secara dinamis ke kode dalam skenario penjadwalan. Untuk informasi selengkapnya tentang format yang didukung untuk parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan. Berikut contohnya.
SHOW TABLES ;
SELECT '${var}'; --Gunakan dengan parameter penjadwalan.
SELECT * FROM userinfo ;Ukuran maksimum pernyataan SQL adalah 130 KB.
Langkah 2: Mengonfigurasi node Hive EMR
(Opsional) Mengonfigurasi parameter lanjutan
Anda dapat mengonfigurasi parameter properti unik yang tercantum dalam tabel berikut. Pengaturan ini tersedia di bagian pada panel Scheduling Configuration di sebelah kanan.
Parameter lanjutan yang tersedia bervariasi tergantung pada jenis kluster EMR, seperti yang ditunjukkan dalam tabel berikut.
Anda juga dapat mengonfigurasi lebih banyak parameter properti Spark open-source di bagian pada panel Scheduling Configuration di sebelah kanan.
Kluster DataLake/Kluster Kustom: EMR on ECS
Parameter lanjutan | Deskripsi |
queue | Antrian penjadwalan tempat pekerjaan dikirimkan. Antrian default adalah default. Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar. |
priority | Prioritas. Nilai default adalah 1. |
FLOW_SKIP_SQL_ANALYZE | Mode eksekusi untuk pernyataan SQL. Nilai yang valid:
Catatan Parameter ini hanya didukung untuk pengujian di lingkungan pengembangan. |
DATAWORKS_SESSION_DISABLE | Berlaku untuk pengujian langsung di lingkungan pengembangan. Nilai yang valid:
Catatan Jika parameter ini diatur ke |
Lainnya | Anda juga dapat menambahkan parameter koneksi Hive kustom secara langsung di bagian konfigurasi lanjutan. |
Kluster Hadoop: EMR on ECS
Parameter lanjutan | Deskripsi |
queue | Antrian penjadwalan tempat pekerjaan dikirimkan. Antrian default adalah default. Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar. |
priority | Prioritas. Nilai default adalah 1. |
FLOW_SKIP_SQL_ANALYZE | Mode eksekusi untuk pernyataan SQL. Nilai yang valid:
Catatan Parameter ini hanya didukung untuk pengujian di lingkungan pengembangan. |
USE_GATEWAY | Menentukan apakah pekerjaan dari node ini dikirimkan melalui kluster gateway. Nilai yang valid:
Catatan Jika kluster tempat node ini berada tidak dikaitkan dengan kluster gateway, mengatur parameter ini ke |
Untuk menjalankan tugas node sesuai jadwal, konfigurasikan properti penjadwalannya. Untuk informasi selengkapnya, lihat Penjadwalan node.
Langkah 3: Menguji dan menjalankan node
Menjalankan tugas SQL
Di Debug Configuration, di bawah Computing Resource, konfigurasikan Computing Resource dan DataWorks Resource Group.
CatatanAnda juga dapat menetapkan Scheduling CUs sesuai kebutuhan sumber daya tugas. Nilai default adalah
0,25.Untuk mengakses sumber data melalui internet publik atau di Virtual Private Cloud (VPC), Anda harus menggunakan kelompok sumber daya penjadwalan yang telah lulus uji konektivitas dengan sumber data. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
Di bilah alat, pada kotak dialog parameter, pilih sumber data Hive Anda dan klik Run untuk menjalankan tugas SQL.
CatatanSaat mengkueri data menggunakan node Hive EMR, sebuah kueri dapat mengembalikan maksimal
10.000catatan. Ukuran total data tidak boleh melebihi10 MB.Klik tombol Save.
Operasi lainnya
Setelah mengonfigurasi tugas node, Anda dapat menerbitkan node tersebut. Untuk informasi selengkapnya, lihat Menerbitkan node atau alur kerja.
Setelah tugas diterbitkan, Anda dapat melihat status tugas yang dipicu otomatis di Pusat Operasi. Untuk informasi selengkapnya, lihat Memulai Pusat Operasi.
FAQ
T: Mengapa terjadi timeout koneksi (ConnectException) saat saya menjalankan node?

J: Pastikan konektivitas jaringan antara kelompok sumber daya dan kluster. Buka halaman daftar sumber daya komputasi untuk menginisialisasi sumber daya. Di kotak dialog yang muncul, klik Re-initialize dan verifikasi bahwa inisialisasi berhasil.

