Secara default, EMR-HOOK terintegrasi dengan Spark 2 atau Spark 3 yang diterapkan dalam kluster E-MapReduce (EMR). EMR-HOOK dapat mengumpulkan informasi SQL tentang pekerjaan, seperti keturunan data dan frekuensi akses. Anda dapat menggunakan EMR-HOOK untuk mengumpulkan frekuensi akses ke tabel atau partisi berdasarkan metadata yang dikelola di Data Lake Formation (DLF). Anda juga dapat menggunakan DataWorks untuk mengelola keturunan data. Topik ini menjelaskan cara mengonfigurasi EMR-HOOK untuk Spark.
Prasyarat
Kluster DataLake atau kustom dibuat dan layanan Spark dipilih saat Anda membuat kluster. Untuk informasi lebih lanjut, lihat Buat Kluster.
Batasan
Anda tidak dapat menggunakan EMR-HOOK untuk mengumpulkan informasi SQL pekerjaan di gateway yang diterapkan menggunakan EMR-CLI.
Pada versi minor sebelum EMR V5.16.0 atau EMR V3.50.0, pengaturan parameter hive.exec.post.hooks yang dikonfigurasi untuk Hive dan parameter park.sql.queryExecutionListeners yang dikonfigurasi untuk Spark tidak dapat disinkronkan ke gateway. Pada EMR V5.16.0, EMR V3.50.0, atau versi minor setelah EMR V5.16.0 atau EMR V3.50.0, pengaturan parameter tersebut dapat disinkronkan ke gateway, dan parameter hive_aux_jars_path_gateway_only diperkenalkan. Anda dapat mengonfigurasi parameter hive_aux_jars_path_gateway_only untuk secara independen menggunakan file JAR dengan ekstensi kustom pada gateway guna meningkatkan fungsionalitas.
Peringatan
EMR-HOOK diaktifkan secara default pada versi minor sebelum EMR V5.14.0 atau EMR V3.48.0.
Jika EMR-HOOK dinonaktifkan secara default dalam kluster kustom EMR V3.44, Anda dapat mengaktifkan EMR-HOOK secara manual dengan merujuk ke FAQ.
EMR-HOOK dinonaktifkan secara default pada EMR V5.14.0, EMR V3.48.0, atau versi minor setelah EMR V5.14.0 atau EMR V3.48.0. Jika Anda ingin menggunakan EMR-HOOK, Anda harus mengaktifkannya secara manual.
Prosedur
Pergi ke tab Layanan.
Masuk ke Konsol EMR. Di panel navigasi kiri, klik EMR on ECS.
Di bilah navigasi atas, pilih wilayah dan grup sumber daya sesuai kebutuhan bisnis Anda.
Di halaman EMR on ECS, temukan kluster yang diinginkan dan klik Services di kolom Tindakan.
Konfigurasikan EMR-HOOK.
Di tab Services, temukan layanan Spark 2 atau Spark 3 dan klik Configure.
Di tab Configure, modifikasi atau tambahkan item konfigurasi terkait EMR-HOOK berikut pada subtab tertentu.
Subtab
Parameter
Deskripsi
spark-defaults.conf
spark.sql.queryExecutionListeners
Mendengarkan informasi SQL dari Spark, termasuk keturunan data dan frekuensi akses.
Jika EMR-HOOK diaktifkan, atur parameter ini ke
com.aliyun.emr.meta.spark.listener.EMRQueryLogger.Jika EMR-HOOK dinonaktifkan, biarkan parameter ini kosong.
hive-site.xml
dlf.emrhook.webtracking
Menentukan apakah akan mengaktifkan pelaporan frekuensi akses. Nilai valid:
true: aktifkan
false: nonaktifkan
CatatanJika EMR-HOOK dinonaktifkan, tab Data Overview dari tabel tertentu di konsol DLF tidak lagi menampilkan data di kolom berikut: File Visits within Last Day, File Visits within Last Seven Days, dan File Visits within Last 30 Days.
Simpan konfigurasi.
Di tab Configure, klik Save.
Di kotak dialog yang muncul, konfigurasikan parameter Execution Reason dan klik Save.
Mulai ulang Spark.
Di pojok kanan atas tab Configuration, pilih More > Restart.
Di kotak dialog yang muncul, konfigurasikan parameter Execution Reason dan klik OK.
Di pesan Konfirmasi, klik OK.
Lihat ikhtisar data dan keturunan data.
Anda dapat melihat ikhtisar data di konsol DLF. Untuk informasi lebih lanjut, lihat Ikhtisar Data Tabel.
Anda dapat melihat keturunan data di konsol DataWorks. Untuk informasi lebih lanjut, lihat Lihat Keturunan.
FAQ
Referensi
Untuk informasi tentang cara mengonfigurasi EMR-HOOK untuk Hive, lihat Gunakan Fitur Ekstensi Hive untuk Mencatat Keturunan Data dan Informasi Akses Historis.