EMR-HOOK terintegrasi secara default dengan Hive di kluster E-MapReduce (EMR). EMR-HOOK menangkap informasi pekerjaan SQL—khususnya alur data dan frekuensi akses tabel atau partisi—berdasarkan metadata yang dikelola di Data Lake Formation (DLF). Setelah mengaktifkan EMR-HOOK, Anda dapat melihat data alur di DataWorks dan data frekuensi akses di Konsol DLF.
Kompatibilitas versi
| Versi EMR | Status default EMR-HOOK | Sinkronisasi parameter gateway |
|---|---|---|
| Lebih awal dari V5.14.0 atau V3.48.0 | Diaktifkan | Tidak didukung |
| V5.14.0, V3.48.0, atau lebih baru | Nonaktif — harus diaktifkan secara manual | Tidak didukung |
| V5.16.0, V3.50.0, atau lebih baru | Nonaktif — harus diaktifkan secara manual | Didukung; parameter hive_aux_jars_path_gateway_only tersedia |
Prasyarat
Sebelum memulai, pastikan Anda telah:
Membuat kluster DataLake atau kluster kustom dengan layanan Hive yang dipilih. Lihat Buat kluster.
Batasan
EMR-HOOK tidak dapat mengumpulkan informasi pekerjaan SQL dari gateway yang diterapkan menggunakan EMR-CLI.
Pada versi EMR sebelum V5.16.0 atau V3.50.0, pengaturan
hive.exec.post.hooks(Hive) danspark.sql.queryExecutionListeners(Spark) tidak dapat disinkronkan ke gateway. Mulai versi V5.16.0, V3.50.0, atau lebih baru, sinkronisasi didukung, dan parameterhive_aux_jars_path_gateway_onlymemungkinkan Anda memuat file JAR kustom hanya pada gateway.
Aktifkan EMR-HOOK untuk Hive
Langkah 1: Buka konfigurasi Hive
Masuk ke Konsol EMR. Di panel navigasi kiri, klik EMR on ECS.
Di bilah navigasi atas, pilih Wilayah dan kelompok sumber daya.
Di halaman EMR on ECS, temukan kluster dan klik Services di kolom Actions.
Di tab Services, temukan layanan Hive dan klik Configure.
Langkah 2: Atur parameter konfigurasi
Di tab Configure, perbarui parameter berikut. Parameter dikelompokkan berdasarkan subtab.
hive-site.xml
| Parameter | Nilai |
|---|---|
hive.exec.post.hooks |
|
dlf.emrhook.webtracking | true untuk mengaktifkan pelaporan frekuensi akses; false untuk menonaktifkan |
hivemetastore-site.xml
| Parameter | Nilai |
|---|---|
hive.metastore.event.listeners |
|
hive.metastore.pre.event.listeners |
|
Jika EMR-HOOK dinonaktifkan, tab Data Overview untuk suatu tabel di Konsol DLF tidak lagi menampilkan data di kolom File Visits within Last Day, File Visits within Last Seven Days, dan File Visits within Last 30 Days.
Langkah 3: Simpan konfigurasi
Di tab Configure, klik Save.
Di kotak dialog, isi Execution Reason lalu klik Save.
Langkah 4: Restart Hive
Di pojok kanan atas tab Configure, pilih More > Restart.
Di kotak dialog, isi Execution Reason lalu klik OK.
Pada pesan Confirm, klik OK.
Lihat hasil
Setelah Hive direstart, EMR-HOOK mulai mengumpulkan data.
Frekuensi akses: Di Konsol DLF, buka suatu tabel dan klik Data Overview. Lihat Ikhtisar data tabel.
Alur data: Di Konsol DataWorks, buka tampilan alur data. Lihat Lihat alur data.
FAQ
Bagaimana cara mengaktifkan EMR-HOOK pada kluster kustom yang menjalankan EMR V3.44?
Di tab Configure layanan Hive, tambahkan path file JAR ke parameter hive_aux_jars_path di kedua subtab, lalu terapkan perubahan sesuai petunjuk.
| Subtab | Parameter | Perubahan |
|---|---|---|
| hive-site.xml | hive_aux_jars_path | Tambahkan ,/opt/apps/EMRHOOK/emrhook-1.1.5/hive-hook-1.1.5-hive23.jar |
| hive-env.sh | hive_aux_jars_path | Tambahkan ,/opt/apps/EMRHOOK/emrhook-1.1.5/hive-hook-1.1.5-hive23.jar |
Langkah selanjutnya
Untuk mengumpulkan alur data dan riwayat akses pekerjaan Spark, lihat Gunakan fitur ekstensi Spark SQL untuk mencatat alur data dan informasi akses historis.