Konfigurasi EMR-HOOK untuk Spark SQL untuk merekam lineage data dan informasi akses historis - E-MapReduce

Secara default, EMR-HOOK terintegrasi dengan Spark 2 atau Spark 3 yang diterapkan dalam kluster E-MapReduce (EMR). EMR-HOOK dapat mengumpulkan informasi SQL tentang pekerjaan, seperti keturunan data dan frekuensi akses. Anda dapat menggunakan EMR-HOOK untuk mengumpulkan frekuensi akses ke tabel atau partisi berdasarkan metadata yang dikelola di Data Lake Formation (DLF). Anda juga dapat menggunakan DataWorks untuk mengelola keturunan data. Topik ini menjelaskan cara mengonfigurasi EMR-HOOK untuk Spark.

Prasyarat

Kluster DataLake atau kustom dibuat dan layanan Spark dipilih saat Anda membuat kluster. Untuk informasi lebih lanjut, lihat Buat Kluster.

Batasan

Anda tidak dapat menggunakan EMR-HOOK untuk mengumpulkan informasi SQL pekerjaan di gateway yang diterapkan menggunakan EMR-CLI.
Pada versi minor sebelum EMR V5.16.0 atau EMR V3.50.0, pengaturan parameter hive.exec.post.hooks yang dikonfigurasi untuk Hive dan parameter park.sql.queryExecutionListeners yang dikonfigurasi untuk Spark tidak dapat disinkronkan ke gateway. Pada EMR V5.16.0, EMR V3.50.0, atau versi minor setelah EMR V5.16.0 atau EMR V3.50.0, pengaturan parameter tersebut dapat disinkronkan ke gateway, dan parameter hive_aux_jars_path_gateway_only diperkenalkan. Anda dapat mengonfigurasi parameter hive_aux_jars_path_gateway_only untuk secara independen menggunakan file JAR dengan ekstensi kustom pada gateway guna meningkatkan fungsionalitas.

Peringatan

EMR-HOOK diaktifkan secara default pada versi minor sebelum EMR V5.14.0 atau EMR V3.48.0.
Jika EMR-HOOK dinonaktifkan secara default dalam kluster kustom EMR V3.44, Anda dapat mengaktifkan EMR-HOOK secara manual dengan merujuk ke FAQ.
EMR-HOOK dinonaktifkan secara default pada EMR V5.14.0, EMR V3.48.0, atau versi minor setelah EMR V5.14.0 atau EMR V3.48.0. Jika Anda ingin menggunakan EMR-HOOK, Anda harus mengaktifkannya secara manual.

Prosedur

Pergi ke tab Layanan.
1. Masuk ke Konsol EMR. Di panel navigasi kiri, klik EMR on ECS.
2. Di bilah navigasi atas, pilih wilayah dan grup sumber daya sesuai kebutuhan bisnis Anda.
3. Di halaman EMR on ECS, temukan kluster yang diinginkan dan klik Services di kolom Tindakan.

Konfigurasikan EMR-HOOK.

Di tab Services, temukan layanan Spark 2 atau Spark 3 dan klik Configure.

Di tab Configure, modifikasi atau tambahkan item konfigurasi terkait EMR-HOOK berikut pada subtab tertentu.

Subtab

Parameter

Deskripsi

spark-defaults.conf

spark.sql.queryExecutionListeners

Mendengarkan informasi SQL dari Spark, termasuk keturunan data dan frekuensi akses.

Jika EMR-HOOK diaktifkan, atur parameter ini ke com.aliyun.emr.meta.spark.listener.EMRQueryLogger.
Jika EMR-HOOK dinonaktifkan, biarkan parameter ini kosong.

hive-site.xml

dlf.emrhook.webtracking

Menentukan apakah akan mengaktifkan pelaporan frekuensi akses. Nilai valid:

true: aktifkan
false: nonaktifkan

Catatan

Jika EMR-HOOK dinonaktifkan, tab Data Overview dari tabel tertentu di konsol DLF tidak lagi menampilkan data di kolom berikut: File Visits within Last Day, File Visits within Last Seven Days, dan File Visits within Last 30 Days.

Simpan konfigurasi.
1. Di tab Configure, klik Save.
2. Di kotak dialog yang muncul, konfigurasikan parameter Execution Reason dan klik Save.

Mulai ulang Spark.
1. Di pojok kanan atas tab Configuration, pilih More > Restart.
2. Di kotak dialog yang muncul, konfigurasikan parameter Execution Reason dan klik OK.
3. Di pesan Konfirmasi, klik OK.
Lihat ikhtisar data dan keturunan data.
- Anda dapat melihat ikhtisar data di konsol DLF. Untuk informasi lebih lanjut, lihat Ikhtisar Data Tabel.
- Anda dapat melihat keturunan data di konsol DataWorks. Untuk informasi lebih lanjut, lihat Lihat Keturunan.

FAQ

Bagaimana cara mengaktifkan EMR-HOOK untuk kluster kustom EMR V3.44?

Di tab Configure pada halaman layanan Spark, ubah item konfigurasi berikut dan terapkan konfigurasi sesuai panduan.

Subtab

Item konfigurasi

Modifikasi

spark-defaults.conf

spark.driver.extraClassPath

Tambahkan /opt/apps/EMRHOOK/emrhook-1.1.5/spark-hook-1.1.5-spark30.jar ke nilai item konfigurasi.

spark.executor.extraClassPath

Referensi

Untuk informasi tentang cara mengonfigurasi EMR-HOOK untuk Hive, lihat Gunakan Fitur Ekstensi Hive untuk Mencatat Keturunan Data dan Informasi Akses Historis.