Node E-MapReduce (EMR) Hive di DataWorks memungkinkan analisis batch data cloud berskala besar. Dengan menggunakan pernyataan mirip SQL untuk mengoperasikan data dalam sistem terdistribusi, Anda dapat menyederhanakan alur kerja data besar dan meningkatkan efisiensi pengembangan. Proses ini efektif untuk membaca, menulis, mengelola, dan menganalisis kumpulan data masif, seperti log data.
Prasyarat
Anda telah membuat kluster Alibaba Cloud E-MapReduce (EMR) dan mendaftarkannya ke DataWorks. Untuk informasi selengkapnya, lihat Data Studio: Mengaitkan resource komputasi EMR.
(Opsional, wajib bagi pengguna RAM) Tambahkan Pengguna Resource Access Management (RAM) yang bertanggung jawab atas pengembangan task ke Ruang Kerja dan berikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas, sehingga berikan dengan hati-hati. Untuk informasi selengkapnya tentang penambahan anggota, lihat Menambahkan anggota ke ruang kerja.
Jika Anda menggunakan Akun Alibaba Cloud, Anda dapat melewati langkah ini.
Anda telah mengonfigurasi Data Source Hive di DataWorks dan lulus Uji Konektivitas. Untuk informasi selengkapnya, lihat Manajemen Data Source.
Batasan
Jenis node ini hanya dapat dijalankan pada kelompok sumber daya Serverless (disarankan) atau grup sumber daya eksklusif untuk penjadwalan.
Untuk mengelola Metadata di DataWorks untuk DataLake atau Kluster kustom, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK pada Kluster tersebut. Untuk informasi selengkapnya, lihat Mengonfigurasi EMR-HOOK untuk Hive.
CatatanJika EMR-HOOK tidak dikonfigurasi pada Kluster, DataWorks tidak dapat menampilkan Metadata secara real time, menghasilkan log audit, menampilkan Data Lineage, atau menjalankan tugas tata kelola data terkait EMR.
Langkah 1: Mengembangkan node Hive EMR
Pada halaman editor node EMR Hive, ikuti langkah-langkah berikut.
Kembangkan kode SQL
Pada editor SQL, tulis kode task Anda. Anda dapat mendefinisikan variabel dengan menggunakan format `${variable_name}`. Anda kemudian dapat memberikan nilai untuk variabel tersebut di bagian 调度配置 pada tab 调度参数. Hal ini memungkinkan Anda untuk secara dinamis pass parameter ke kode Anda selama eksekusi terjadwal. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat . Kode berikut memberikan contoh:
SHOW TABLES ;
SELECT '${var}'; -- Gunakan dengan parameter penjadwalan.
SELECT * FROM userinfo ;Pernyataan SQL tidak boleh melebihi ukuran 130 KB.
Langkah 2: Mengonfigurasi node Hive EMR
(Opsional) Mengonfigurasi parameter lanjutan
Pada tab Schedule, Anda dapat mengonfigurasi properti berikut di bagian .
Parameter advanced yang tersedia dapat berbeda tergantung pada jenis kluster EMR, seperti yang ditunjukkan pada tabel di bawah.
Anda dapat mengonfigurasi lebih banyak properti Spark open-source di bagian Spark Parameters section under EMR Node Parameters pada tab .
DataLake dan kluster kustom: EMR on ECS
Parameter | Deskripsi |
queue | Antrian Penjadwalan untuk pengiriman pekerjaan. Antrian default adalah `default`. Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar. |
priority | Prioritas pekerjaan. Nilai default adalah 1. |
FLOW_SKIP_SQL_ANALYZE | Menentukan mode eksekusi untuk Pernyataan SQL. Nilai yang valid:
Catatan Parameter ini hanya untuk eksekusi uji di lingkungan pengembangan. |
DATAWORKS_SESSION_DISABLE | Berlaku untuk eksekusi uji di lingkungan pengembangan. Nilai yang valid:
Catatan Saat parameter ini diatur ke |
Others | Anda juga dapat menambahkan parameter koneksi Hive kustom dalam konfigurasi lanjutan. |
Kluster Hadoop: EMR on ECS
Parameter | Deskripsi |
queue | Antrian Penjadwalan untuk pengiriman pekerjaan. Antrian default adalah `default`. Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar. |
priority | Prioritas pekerjaan. Nilai default adalah 1. |
FLOW_SKIP_SQL_ANALYZE | Menentukan mode eksekusi untuk Pernyataan SQL. Nilai yang valid:
Catatan Parameter ini hanya untuk eksekusi uji di lingkungan pengembangan. |
USE_GATEWAY | Menentukan apakah pekerjaan dikirim melalui Gateway Cluster. Nilai yang valid:
Catatan Jika Kluster tempat node ini berada tidak dikaitkan dengan Gateway Cluster, mengatur parameter ini ke |
Jika Anda perlu menjalankan node secara berkala, konfigurasikan properti penjadwalannya sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Konfigurasi penjadwalan node.
Langkah 3: Debug node
Jalankan tugas SQL
Pada bagian kanan, di bagian Run Configuration Computing Resources, tentukan Compute Resources dan Resource Group.
CatatanAnda dapat menyesuaikan jumlah scheduling CUs berdasarkan sumber daya yang dibutuhkan oleh task. Nilai default adalah
0,25CUs.Untuk mengakses Data Source di jaringan publik atau Virtual Private Cloud (VPC), Anda harus menggunakan grup sumber daya eksklusif untuk penjadwalan yang telah lulus Uji Konektivitas untuk Data Source tersebut. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.
Pada kotak dialog parameter di bilah alat, pilih Data Source Hive Anda dan klik Run.
CatatanSaat Anda melakukan kueri data menggunakan node EMR Hive, kueri tersebut mengembalikan maksimal
10.000baris data, dan ukuran total data tidak boleh melebihi10 MB.Klik Save.
Langkah selanjutnya
Setelah mengonfigurasi node, lakukan penerapannya. Untuk informasi selengkapnya, lihat Penerapan node dan alur kerja.
Setelah menerapkan node, Anda dapat melihat status Tugas Terjadwal di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.
FAQ
T: Terjadi timeout koneksi (ConnectException) saat node dijalankan. Apa yang harus saya lakukan?

J: Verifikasi Konektivitas Jaringan antara Resource Group dan Cluster. Buka halaman resource komputasi, temukan resource tersebut, lalu klik Initialize Resource. Pada kotak dialog yang muncul, klik Re-initialize dan pastikan inisialisasi berhasil.

