Secara default, EMR-HOOK terintegrasi dengan Hive yang digunakan dalam kluster E-MapReduce (EMR). EMR-HOOK dapat mengumpulkan informasi SQL dari pekerjaan seperti keturunan data dan frekuensi akses. Anda dapat menggunakan EMR-HOOK untuk mengumpulkan frekuensi akses ke tabel atau partisi berdasarkan metadata yang dikelola di Data Lake Formation (DLF). Selain itu, Anda dapat menggunakan DataWorks untuk mengelola keturunan data. Topik ini menjelaskan cara mengonfigurasi EMR-HOOK untuk Hive.
Prasyarat
Kluster DataLake atau kustom telah dibuat, dan layanan Hive dipilih saat pembuatan kluster. Untuk informasi lebih lanjut, lihat Buat Kluster.
Batasan
Anda tidak dapat menggunakan EMR-HOOK untuk mengumpulkan informasi SQL dari pekerjaan dalam gateway yang diterapkan menggunakan EMR-CLI.
Pada versi minor sebelum EMR V5.16.0 atau EMR V3.50.0, pengaturan parameter hive.exec.post.hooks yang dikonfigurasikan untuk Hive dan parameter park.sql.queryExecutionListeners yang dikonfigurasikan untuk Spark tidak dapat disinkronkan ke gateway. Pada EMR V5.16.0, EMR V3.50.0, atau versi minor setelahnya, pengaturan parameter tersebut dapat disinkronkan ke gateway, dan parameter hive_aux_jars_path_gateway_only diperkenalkan. Anda dapat mengonfigurasi parameter hive_aux_jars_path_gateway_only untuk menggunakan file JAR dengan ekstensi kustom secara mandiri di gateway guna meningkatkan fungsionalitas.
Peringatan
EMR-HOOK diaktifkan secara default pada versi minor sebelum EMR V5.14.0 atau EMR V3.48.0.
Jika EMR-HOOK dinonaktifkan secara default dalam kluster kustom EMR V3.44, Anda dapat mengaktifkannya secara manual dengan merujuk ke FAQ.
EMR-HOOK dinonaktifkan secara default pada EMR V5.14.0, EMR V3.48.0, atau versi minor setelah EMR V5.14.0 atau EMR V3.48.0. Jika ingin menggunakan EMR-HOOK, Anda harus mengaktifkannya secara manual.
Prosedur
Buka tab Layanan.
Masuk ke Konsol EMR. Di panel navigasi sisi kiri, klik EMR on ECS.
Di bilah navigasi atas, pilih wilayah dan grup sumber daya sesuai kebutuhan bisnis Anda.
Di halaman EMR on ECS, temukan kluster yang diinginkan dan klik Services di kolom Tindakan.
Konfigurasikan EMR-HOOK.
Di tab Services, temukan layanan Hive dan klik Configure.
Di tab Configure, modifikasi atau tambahkan item konfigurasi terkait EMR-HOOK di subtab tertentu.
Subtab
Parameter
Deskripsi
hive-site.xml
hive.exec.post.hooks
Mendengarkan informasi SQL Hive, termasuk keturunan data dan frekuensi akses.
Jika EMR-HOOK diaktifkan, atur parameter ini ke
com.aliyun.emr.meta.hive.hook.LineageLoggerHook.Jika EMR-HOOK dinonaktifkan, biarkan parameter ini kosong.
dlf.emrhook.webtracking
Menentukan apakah pelaporan frekuensi akses diaktifkan. Nilai valid:
true: aktifkan
false: nonaktifkan
hivemetastore-site.xml
hive.metastore.event.listeners
Mendengarkan informasi peristiwa tentang perubahan metadata di Hive, termasuk keturunan data.
Jika EMR-HOOK diaktifkan, atur parameter ini ke
com.aliyun.emr.meta.hive.listener.MetaStoreListener.Jika EMR-HOOK dinonaktifkan, biarkan parameter ini kosong.
hive.metastore.pre.event.listeners
Mendengarkan informasi peristiwa sebelum perubahan metadata di Hive, termasuk keturunan data.
Jika EMR-HOOK diaktifkan, atur parameter ini ke
com.aliyun.emr.meta.hive.listener.MetaStorePreAuditListener.Jika EMR-HOOK dinonaktifkan, biarkan parameter ini kosong.
CatatanJika EMR-HOOK dinonaktifkan, tab Data Overview dari tabel tertentu di konsol DLF tidak akan menampilkan data di kolom berikut: File Visits within Last Day, File Visits within Last Seven Days, dan File Visits within Last 30 Days.
Simpan konfigurasi.
Di tab Configure, klik Save.
Di kotak dialog yang muncul, konfigurasikan parameter Execution Reason dan klik Save.
Mulai ulang Hive.
Di sudut kanan atas tab Configure, pilih More > Restart.
Di kotak dialog yang muncul, konfigurasikan parameter Execution Reason dan klik OK.
Di pesan Konfirmasi, klik OK.
Lihat ikhtisar data dan keturunan data.
Anda dapat melihat ikhtisar data di konsol DLF. Untuk informasi lebih lanjut, lihat Ikhtisar Data Tabel.
Anda dapat melihat keturunan data di konsol DataWorks. Untuk informasi lebih lanjut, lihat Lihat Keturunan.
FAQ
Referensi
Untuk informasi tentang cara mengonfigurasi EMR-HOOK untuk Spark, lihat Gunakan Fitur Ekstensi Spark SQL untuk Mencatat Keturunan Data dan Informasi Akses Historis.