All Products
Search
Document Center

E-MapReduce:Gunakan ekstensi Hive untuk mencatat alur data dan riwayat akses

Last Updated:Mar 27, 2026

EMR-HOOK terintegrasi secara default dengan Hive di kluster E-MapReduce (EMR). EMR-HOOK menangkap informasi pekerjaan SQL—khususnya alur data dan frekuensi akses tabel atau partisi—berdasarkan metadata yang dikelola di Data Lake Formation (DLF). Setelah mengaktifkan EMR-HOOK, Anda dapat melihat data alur di DataWorks dan data frekuensi akses di Konsol DLF.

Kompatibilitas versi

Versi EMRStatus default EMR-HOOKSinkronisasi parameter gateway
Lebih awal dari V5.14.0 atau V3.48.0DiaktifkanTidak didukung
V5.14.0, V3.48.0, atau lebih baruNonaktif — harus diaktifkan secara manualTidak didukung
V5.16.0, V3.50.0, atau lebih baruNonaktif — harus diaktifkan secara manualDidukung; parameter hive_aux_jars_path_gateway_only tersedia

Prasyarat

Sebelum memulai, pastikan Anda telah:

  • Membuat kluster DataLake atau kluster kustom dengan layanan Hive yang dipilih. Lihat Buat kluster.

Batasan

  • EMR-HOOK tidak dapat mengumpulkan informasi pekerjaan SQL dari gateway yang diterapkan menggunakan EMR-CLI.

  • Pada versi EMR sebelum V5.16.0 atau V3.50.0, pengaturan hive.exec.post.hooks (Hive) dan spark.sql.queryExecutionListeners (Spark) tidak dapat disinkronkan ke gateway. Mulai versi V5.16.0, V3.50.0, atau lebih baru, sinkronisasi didukung, dan parameter hive_aux_jars_path_gateway_only memungkinkan Anda memuat file JAR kustom hanya pada gateway.

Aktifkan EMR-HOOK untuk Hive

Langkah 1: Buka konfigurasi Hive

  1. Masuk ke Konsol EMR. Di panel navigasi kiri, klik EMR on ECS.

  2. Di bilah navigasi atas, pilih Wilayah dan kelompok sumber daya.

  3. Di halaman EMR on ECS, temukan kluster dan klik Services di kolom Actions.

  4. Di tab Services, temukan layanan Hive dan klik Configure.

Langkah 2: Atur parameter konfigurasi

Di tab Configure, perbarui parameter berikut. Parameter dikelompokkan berdasarkan subtab.

hive-site.xml

ParameterNilai
hive.exec.post.hooks
  • Untuk mengaktifkan EMR-HOOK, atur parameter ini menjadi com.aliyun.emr.meta.hive.hook.LineageLoggerHook.

  • Untuk menonaktifkan EMR-HOOK, biarkan parameter ini kosong.

dlf.emrhook.webtrackingtrue untuk mengaktifkan pelaporan frekuensi akses; false untuk menonaktifkan

hivemetastore-site.xml

ParameterNilai
hive.metastore.event.listeners
  • Untuk mengaktifkan EMR-HOOK, atur parameter ini menjadi com.aliyun.emr.meta.hive.listener.MetaStoreListener.

  • Untuk menonaktifkan EMR-HOOK, biarkan parameter ini kosong.

hive.metastore.pre.event.listeners
  • Untuk mengaktifkan EMR-HOOK, atur parameter ini menjadi com.aliyun.emr.meta.hive.listener.MetaStorePreAuditListener.

  • Untuk menonaktifkan EMR-HOOK, biarkan parameter ini kosong.

Catatan

Jika EMR-HOOK dinonaktifkan, tab Data Overview untuk suatu tabel di Konsol DLF tidak lagi menampilkan data di kolom File Visits within Last Day, File Visits within Last Seven Days, dan File Visits within Last 30 Days.

Langkah 3: Simpan konfigurasi

  1. Di tab Configure, klik Save.

  2. Di kotak dialog, isi Execution Reason lalu klik Save.

Langkah 4: Restart Hive

  1. Di pojok kanan atas tab Configure, pilih More > Restart.

  2. Di kotak dialog, isi Execution Reason lalu klik OK.

  3. Pada pesan Confirm, klik OK.

Lihat hasil

Setelah Hive direstart, EMR-HOOK mulai mengumpulkan data.

  • Frekuensi akses: Di Konsol DLF, buka suatu tabel dan klik Data Overview. Lihat Ikhtisar data tabel.

  • Alur data: Di Konsol DataWorks, buka tampilan alur data. Lihat Lihat alur data.

FAQ

Bagaimana cara mengaktifkan EMR-HOOK pada kluster kustom yang menjalankan EMR V3.44?

Di tab Configure layanan Hive, tambahkan path file JAR ke parameter hive_aux_jars_path di kedua subtab, lalu terapkan perubahan sesuai petunjuk.

SubtabParameterPerubahan
hive-site.xmlhive_aux_jars_pathTambahkan ,/opt/apps/EMRHOOK/emrhook-1.1.5/hive-hook-1.1.5-hive23.jar
hive-env.shhive_aux_jars_pathTambahkan ,/opt/apps/EMRHOOK/emrhook-1.1.5/hive-hook-1.1.5-hive23.jar

Langkah selanjutnya