全部产品
Search
文档中心

DataWorks:Node Hive EMR

更新时间:Feb 05, 2026

Node E-MapReduce (EMR) Hive di DataWorks memungkinkan analisis batch data cloud berskala besar. Dengan menggunakan pernyataan mirip SQL untuk mengoperasikan data dalam sistem terdistribusi, Anda dapat menyederhanakan alur kerja data besar dan meningkatkan efisiensi pengembangan. Proses ini efektif untuk membaca, menulis, mengelola, dan menganalisis kumpulan data masif, seperti log data.

Prasyarat

  • Anda telah membuat kluster Alibaba Cloud E-MapReduce (EMR) dan mendaftarkannya ke DataWorks. Untuk informasi selengkapnya, lihat Data Studio: Mengaitkan resource komputasi EMR.

  • (Opsional, wajib bagi pengguna RAM) Tambahkan Pengguna Resource Access Management (RAM) yang bertanggung jawab atas pengembangan task ke Ruang Kerja dan berikan peran Developer atau Workspace Administrator. Peran Workspace Administrator memiliki izin yang luas, sehingga berikan dengan hati-hati. Untuk informasi selengkapnya tentang penambahan anggota, lihat Menambahkan anggota ke ruang kerja.

    Jika Anda menggunakan Akun Alibaba Cloud, Anda dapat melewati langkah ini.
  • Anda telah mengonfigurasi Data Source Hive di DataWorks dan lulus Uji Konektivitas. Untuk informasi selengkapnya, lihat Manajemen Data Source.

Batasan

  • Jenis node ini hanya dapat dijalankan pada kelompok sumber daya Serverless (disarankan) atau grup sumber daya eksklusif untuk penjadwalan.

  • Untuk mengelola Metadata di DataWorks untuk DataLake atau Kluster kustom, Anda harus terlebih dahulu mengonfigurasi EMR-HOOK pada Kluster tersebut. Untuk informasi selengkapnya, lihat Mengonfigurasi EMR-HOOK untuk Hive.

    Catatan

    Jika EMR-HOOK tidak dikonfigurasi pada Kluster, DataWorks tidak dapat menampilkan Metadata secara real time, menghasilkan log audit, menampilkan Data Lineage, atau menjalankan tugas tata kelola data terkait EMR.

Langkah 1: Mengembangkan node Hive EMR

Pada halaman editor node EMR Hive, ikuti langkah-langkah berikut.

Kembangkan kode SQL

Pada editor SQL, tulis kode task Anda. Anda dapat mendefinisikan variabel dengan menggunakan format `${variable_name}`. Anda kemudian dapat memberikan nilai untuk variabel tersebut di bagian 调度配置 pada tab 调度参数. Hal ini memungkinkan Anda untuk secara dinamis pass parameter ke kode Anda selama eksekusi terjadwal. Untuk informasi selengkapnya tentang parameter penjadwalan, lihat . Kode berikut memberikan contoh:

SHOW  TABLES ; 
SELECT '${var}'; -- Gunakan dengan parameter penjadwalan.
SELECT * FROM userinfo ;
Catatan

Pernyataan SQL tidak boleh melebihi ukuran 130 KB.

Langkah 2: Mengonfigurasi node Hive EMR

(Opsional) Mengonfigurasi parameter lanjutan

Pada tab Schedule, Anda dapat mengonfigurasi properti berikut di bagian DataWorks Parameters > EMR Node Parameters.

Catatan
  • Parameter advanced yang tersedia dapat berbeda tergantung pada jenis kluster EMR, seperti yang ditunjukkan pada tabel di bawah.

  • Anda dapat mengonfigurasi lebih banyak properti Spark open-source di bagian Spark Parameters section under EMR Node Parameters pada tab .

DataLake dan kluster kustom: EMR on ECS

Parameter

Deskripsi

queue

Antrian Penjadwalan untuk pengiriman pekerjaan. Antrian default adalah `default`. Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar.

priority

Prioritas pekerjaan. Nilai default adalah 1.

FLOW_SKIP_SQL_ANALYZE

Menentukan mode eksekusi untuk Pernyataan SQL. Nilai yang valid:

  • true: Mengeksekusi beberapa Pernyataan SQL per eksekusi.

  • false (Default): Mengeksekusi satu Pernyataan SQL per eksekusi.

Catatan

Parameter ini hanya untuk eksekusi uji di lingkungan pengembangan.

DATAWORKS_SESSION_DISABLE

Berlaku untuk eksekusi uji di lingkungan pengembangan. Nilai yang valid:

  • true: Koneksi JDBC baru dibuat untuk setiap eksekusi Pernyataan SQL.

  • false (Default): Koneksi JDBC yang sama digunakan kembali saat Anda menjalankan Pernyataan SQL berbeda dalam satu node yang sama.

Catatan

Saat parameter ini diatur ke false, log Hive tidak mencetak yarn applicationId. Untuk mencetak yarn applicationId, atur parameter ini ke true.

Others

Anda juga dapat menambahkan parameter koneksi Hive kustom dalam konfigurasi lanjutan.

Kluster Hadoop: EMR on ECS

Parameter

Deskripsi

queue

Antrian Penjadwalan untuk pengiriman pekerjaan. Antrian default adalah `default`. Untuk informasi selengkapnya tentang EMR YARN, lihat Konfigurasi antrian dasar.

priority

Prioritas pekerjaan. Nilai default adalah 1.

FLOW_SKIP_SQL_ANALYZE

Menentukan mode eksekusi untuk Pernyataan SQL. Nilai yang valid:

  • true: Mengeksekusi beberapa Pernyataan SQL per eksekusi.

  • false (Default): Mengeksekusi satu Pernyataan SQL per eksekusi.

Catatan

Parameter ini hanya untuk eksekusi uji di lingkungan pengembangan.

USE_GATEWAY

Menentukan apakah pekerjaan dikirim melalui Gateway Cluster. Nilai yang valid:

  • true: Mengirim pekerjaan melalui Gateway Cluster.

  • false (Default): Mengirim pekerjaan ke node Header, bukan melalui Gateway Cluster.

Catatan

Jika Kluster tempat node ini berada tidak dikaitkan dengan Gateway Cluster, mengatur parameter ini ke true akan menyebabkan pengiriman pekerjaan EMR gagal.

Jika Anda perlu menjalankan node secara berkala, konfigurasikan properti penjadwalannya sesuai kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Konfigurasi penjadwalan node.

Langkah 3: Debug node

Jalankan tugas SQL

  1. Pada bagian kanan, di bagian Run Configuration Computing Resources, tentukan Compute Resources dan Resource Group.

    Catatan
    • Anda dapat menyesuaikan jumlah scheduling CUs berdasarkan sumber daya yang dibutuhkan oleh task. Nilai default adalah 0,25 CUs.

    • Untuk mengakses Data Source di jaringan publik atau Virtual Private Cloud (VPC), Anda harus menggunakan grup sumber daya eksklusif untuk penjadwalan yang telah lulus Uji Konektivitas untuk Data Source tersebut. Untuk informasi selengkapnya, lihat Solusi konektivitas jaringan.

  2. Pada kotak dialog parameter di bilah alat, pilih Data Source Hive Anda dan klik Run.

    Catatan

    Saat Anda melakukan kueri data menggunakan node EMR Hive, kueri tersebut mengembalikan maksimal 10.000 baris data, dan ukuran total data tidak boleh melebihi 10 MB.

  3. Klik Save.

Langkah selanjutnya

  1. Setelah mengonfigurasi node, lakukan penerapannya. Untuk informasi selengkapnya, lihat Penerapan node dan alur kerja.

  2. Setelah menerapkan node, Anda dapat melihat status Tugas Terjadwal di Operation Center. Untuk informasi selengkapnya, lihat Memulai Operation Center.

FAQ

T: Terjadi timeout koneksi (ConnectException) saat node dijalankan. Apa yang harus saya lakukan?

image

J: Verifikasi Konektivitas Jaringan antara Resource Group dan Cluster. Buka halaman resource komputasi, temukan resource tersebut, lalu klik Initialize Resource. Pada kotak dialog yang muncul, klik Re-initialize dan pastikan inisialisasi berhasil.

image

image