Anda dapat membuat node E-MapReduce (EMR) Hive yang memungkinkan penggunaan pernyataan bergaya SQL untuk membaca, menulis, dan mengelola gudang data berisi kumpulan data besar pada sistem penyimpanan terdistribusi. Node ini cocok untuk menganalisis dan mengembangkan volume besar data log.
Prasyarat
Kluster Alibaba Cloud EMR telah dibuat dan didaftarkan ke DataWorks. Untuk informasi selengkapnya, lihat DataStudio (versi lama): Mengaitkan sumber daya komputasi EMR.
(Wajib jika Anda menggunakan Pengguna RAM untuk mengembangkan tugas) Pengguna RAM telah ditambahkan ke ruang kerja DataWorks sebagai anggota dan diberikan peran Develop atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang lebih luas daripada yang diperlukan, sehingga berhati-hatilah saat memberikannya. Untuk informasi selengkapnya tentang cara menambahkan anggota, lihat Menambahkan anggota ke ruang kerja.
Kelompok sumber daya arsitektur tanpa server telah dibeli dan dikonfigurasi, termasuk pengaitannya dengan ruang kerja serta konfigurasi jaringan. Untuk informasi selengkapnya, lihat Membuat dan menggunakan kelompok sumber daya arsitektur tanpa server.
Alur kerja telah dibuat di DataStudio.
Operasi pengembangan pada berbagai jenis mesin komputasi dilakukan melalui alur kerja di DataStudio. Oleh karena itu, Anda harus membuat alur kerja terlebih dahulu sebelum membuat node. Untuk informasi selengkapnya, lihat Membuat alur kerja.
Batasan
Jenis node ini hanya dapat dijalankan pada kelompok sumber daya arsitektur tanpa server atau kelompok sumber daya eksklusif untuk penjadwalan. Kami menyarankan Anda menggunakan kelompok sumber daya arsitektur tanpa server.
Jika ingin mengelola metadata untuk DataLake atau kluster kustom di DataWorks, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK di kluster tersebut. Tanpa konfigurasi EMR-HOOK, metadata tidak dapat ditampilkan secara real time, log audit tidak dapat dihasilkan, alur data tidak tersedia di DataWorks, dan tugas tata kelola EMR tidak dapat dijalankan. Untuk informasi selengkapnya tentang cara mengonfigurasi EMR-HOOK, lihat Mengonfigurasi EMR-HOOK untuk Hive.
Langkah 1: Buat node EMR Hive
Buka halaman DataStudio.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih Wilayah yang diinginkan. Di panel navigasi kiri, pilih . Pada halaman yang muncul, pilih ruang kerja yang diinginkan dari daftar drop-down dan klik Go to Data Development.
Buat node EMR Hive.
Klik kanan alur kerja target dan pilih .
CatatanAtau, arahkan kursor ke Create dan pilih .
Pada kotak dialog Create Node, konfigurasikan parameter Name, Engine Instance, Node Type, dan Path, lalu klik Confirm. Tab konfigurasi untuk node EMR Hive akan muncul.
CatatanNama node dapat berisi huruf kapital, huruf kecil, karakter Tionghoa, angka, garis bawah (_), dan titik (.).
Langkah 2: Kembangkan tugas EMR Hive
Pada halaman konfigurasi node EMR Hive, klik ganda node yang telah Anda buat untuk membuka halaman pengembangan tugas, lalu lakukan operasi pengembangan.
Kembangkan kode SQL
Di editor SQL, Anda dapat mengembangkan kode node. Dalam kode tersebut, Anda dapat mendefinisikan variabel menggunakan format ${variable_name}. Nilai untuk variabel-variabel ini dapat ditetapkan di bawah Scheduling Configuration > Scheduling Parameters pada panel navigasi kanan halaman pengeditan node. Pendekatan ini memungkinkan Anda meneruskan parameter secara dinamis ke dalam kode dalam skenario penjadwalan. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat Format yang didukung untuk parameter penjadwalan. Berikut adalah contohnya.
show tables;
select '${var}'; --Anda dapat memberikan parameter penjadwalan tertentu ke variabel var.
select * from userinfo ;Total ukuran pernyataan SQL tidak boleh melebihi 130 KB.
Jika beberapa sumber daya komputasi EMR dikaitkan ke ruang kerja, Anda harus memilih sumber daya komputasi. Jika hanya satu sumber daya komputasi EMR yang dikaitkan, pemilihan tidak diperlukan.
Klik Run With Parameters di bilah alat atas untuk mengubah penetapan parameter dalam kode. Untuk informasi selengkapnya mengenai logika penetapan parameter, lihat Apa perbedaan logika penetapan parameter antara Run, Run with Parameters, dan smoke testing di lingkungan pengembangan?.
(Opsional) Konfigurasi parameter lanjutan
Anda dapat mengonfigurasi properti khusus node di bagian Advanced Settings. Untuk informasi selengkapnya tentang parameter properti, lihat Spark Configuration. Parameter lanjutan yang tersedia bervariasi tergantung pada jenis kluster EMR. Tabel berikut menjelaskan parameter-parameter tersebut.
DataLake atau kluster kustom: EMR on ECS
Parameter lanjutan | Deskripsi |
queue | Antrian penjadwalan tempat pekerjaan dikirimkan. Nilai default: default. Untuk informasi tentang EMR YARN, lihat Konfigurasi Antrian Dasar. |
priority | Prioritas. Nilai default adalah 1. |
FLOW_SKIP_SQL_ANALYZE | Metode yang digunakan untuk mengeksekusi pernyataan SQL. Nilai yang valid:
Catatan Parameter ini hanya tersedia untuk pengujian alur kerja di lingkungan pengembangan. |
DATAWORKS_SESSION_DISABLE | Parameter ini berlaku untuk skenario di mana Anda langsung menjalankan pengujian di lingkungan pengembangan. Nilai yang valid:
Catatan Jika parameter ini diatur ke |
Lainnya | Anda juga dapat menambahkan parameter koneksi Hive kustom di konfigurasi lanjutan. |
Kluster Hadoop: EMR on ECS
Parameter lanjutan | Deskripsi |
queue | Antrian penjadwalan tempat pekerjaan dikirimkan. Nilai default: default. Untuk informasi tentang EMR YARN, lihat Penjadwal YARN. |
priority | Prioritas. Nilai default adalah 1. |
FLOW_SKIP_SQL_ANALYZE | Metode yang digunakan untuk mengeksekusi pernyataan SQL. Nilai yang valid:
Catatan Parameter ini hanya tersedia untuk pengujian alur kerja di lingkungan pengembangan. |
USE_GATEWAY | Menentukan apakah pekerjaan untuk node ini dikirimkan melalui kluster gateway. Nilai yang valid:
Catatan Jika kluster tempat node ini berada tidak dikaitkan dengan kluster gateway dan Anda mengatur parameter ini ke |
Jalankan tugas SQL
Di bilah alat, klik ikon
. Pada kotak dialog Parameters, pilih kelompok sumber daya penjadwalan yang telah Anda buat dan klik Run.CatatanUntuk mengakses sumber daya komputasi melalui internet publik atau di dalam VPC, Anda memerlukan kelompok sumber daya penjadwalan yang telah lulus uji konektivitas dengan sumber daya komputasi tersebut. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
Untuk mengubah kelompok sumber daya untuk suatu tugas, klik ikon Run With Parameters
dan pilih kelompok sumber daya penjadwalan yang berbeda.Saat menggunakan node EMR Hive untuk mengkueri data, maksimal 10.000 catatan data dapat dikembalikan, dan total ukuran data tidak boleh melebihi 10 MB.
Klik ikon
untuk menyimpan pernyataan SQL.(Opsional) Lakukan Pengujian asap.
Jika ingin melakukan Pengujian asap di lingkungan pengembangan, Anda dapat melakukannya setelah mengirimkan node. Untuk informasi selengkapnya, lihat Melakukan Pengujian asap.
Langkah 3: Konfigurasi properti penjadwalan
Jika Anda ingin sistem menjalankan tugas pada node secara berkala, klik Properties di panel navigasi kanan pada tab konfigurasi node untuk mengonfigurasi properti penjadwalan sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Ikhtisar.
Anda harus mengonfigurasi parameter Rerun dan Parent Nodes pada tab Properties sebelum mengirimkan tugas.
Langkah 4: Deploy tugas
Setelah tugas pada suatu node dikonfigurasi, Anda harus mengirimkan dan mendeploy tugas tersebut. Setelah dikirim dan dideploy, sistem akan menjalankan tugas secara berkala berdasarkan konfigurasi penjadwalan.
Klik ikon
di bilah alat atas untuk menyimpan tugas.Klik ikon
di bilah alat atas untuk mengirimkan tugas.Pada kotak dialog Submit, konfigurasikan parameter Change description. Kemudian, tentukan apakah akan meninjau kode tugas setelah pengiriman berdasarkan kebutuhan bisnis Anda.
CatatanAnda harus mengonfigurasi parameter Rerun dan Parent Nodes pada tab Properties sebelum mengirimkan tugas.
Anda dapat menggunakan fitur Tinjauan kode untuk memastikan kualitas kode tugas dan mencegah kesalahan eksekusi akibat kode tugas yang tidak valid. Jika fitur Tinjauan kode diaktifkan, kode tugas yang dikirimkan hanya dapat dideploy setelah lulus proses Tinjauan kode. Untuk informasi selengkapnya, lihat Tinjauan kode.
Jika Anda menggunakan ruang kerja dalam mode standar, Anda harus mendeploy tugas ke lingkungan produksi setelah mengirimkannya. Untuk mendeploy tugas pada suatu node, klik Deploy di pojok kanan atas tab konfigurasi node. Untuk informasi selengkapnya, lihat Deploy node.
Langkah selanjutnya
Setelah Anda mengirimkan dan mendeploy tugas, tugas tersebut akan dijalankan secara berkala sesuai konfigurasi penjadwalan. Untuk melihat status penjadwalannya, klik Operation Center di pojok kanan atas tab konfigurasi node yang sesuai guna membuka Operation Center. Untuk informasi selengkapnya, lihat Melihat dan mengelola Tugas yang dipicu otomatis.
Pertanyaan Umum
T: Mengapa terjadi timeout koneksi (ConnectException) saat saya menjalankan node?

J: Pastikan konektivitas jaringan antara kelompok sumber daya dan kluster. Buka halaman daftar sumber daya komputasi untuk menginisialisasi sumber daya tersebut. Pada kotak dialog yang muncul, klik Re-initialize dan pastikan bahwa inisialisasi berhasil.

