Hive - E-MapReduce

Hive adalah kerangka kerja gudang data berbasis Hadoop yang mendukung operasi ekstrak, transformasi, dan muat (ETL) serta manajemen metadata dalam skenario data besar.

Komponen Hive

Nama	Deskripsi
HiveServer2	Server kueri HiveQL yang menerima permintaan SQL dari klien Java Database Connectivity (JDBC) melalui protokol Thrift atau HTTP. Komponen ini mendukung akses konkuren dari beberapa klien dan otentikasi identitas.
Hive MetaStore	Komponen manajemen metadata. Komponen ini menyimpan metadata, seperti database dan tabel, untuk mesin lainnya. Misalnya, Spark dan Presto sama-sama menggunakan komponen ini untuk manajemen metadata.
Hive Client	Klien Hive. Komponen ini mengirimkan pekerjaan SQL dan mengonversinya menjadi pekerjaan MapReduce, Tez, atau Spark berdasarkan mesin eksekusi yang dikonfigurasi. Komponen ini diinstal pada semua node kluster EMR.

Peningkatan fitur

Untuk informasi lebih lanjut mengenai kompatibilitas antara versi EMR, Hadoop, dan Hive, lihat Versi rilis. Tabel-tabel berikut menjelaskan fitur-fitur yang ditingkatkan untuk Hive pada berbagai versi EMR.

Seri EMR 5.x

Versi EMR	Versi komponen	Peningkatan fitur
EMR-5.20.0	Hive 3.1.3	Mengoptimalkan kinerja penambahan bidang ke tabel partisi.
EMR-5.17.4	Hive 3.1.3	Mendukung penerapan grup node Master-Extend.
EMR-5.12.1	Hive 3.1.3	Secara default, OSS-HDFS digunakan untuk menyimpan data dalam file gudang Hive.
EMR-5.9.0	Hive 3.1.3	Otentikasi Kerberos didukung.
EMR-5.8.0	Hive 3.1.2	Otentikasi LDAP dapat diaktifkan dengan satu klik.
EMR-5.6.0	Hive 3.1.2	Masalah berikut telah diperbaiki: Setelah eksekusi spekulatif diaktifkan untuk Hive pada Tez, baik tugas asli maupun tugas spekulatif keduanya dikomit.
EMR-5.5.0	Hive 3.1.2	Masalah penghapusan batch yang terjadi pada Hive Jindo telah diperbaiki. Masalah kehabisan memori (OOM) yang terjadi pada HiveServer2 telah diperbaiki. Hive pada Spark dioptimalkan. Hive disesuaikan dengan JindoSDK.
EMR-5.4.0	Hive 3.1.2	Dalam JindoFS dalam mode penyimpanan blok, metadata dari beberapa tabel Hive dapat dioptimalkan secara bersamaan. Secara default, fitur ini dinonaktifkan.
EMR-5.3.0	Hive 3.1.2	Dalam JindoFS dalam mode penyimpanan blok, metadata dari beberapa tabel Hive dapat dioptimalkan secara bersamaan.
EMR-5.2.1	Hive 3.1.2	Masalah ketidakakuratan keluaran perintah show create table berdasarkan metadata Data Lake Formation (DLF) telah diperbaiki. Parameter default Hive dioptimalkan untuk meningkatkan kinerja pekerjaan Hive. Di Konsol EMR, nama parameter pada tab hive-env di tab Configure untuk layanan Hive diubah menjadi huruf kapital. Hal ini mempermudah penggunaan parameter tersebut. Masalah kebocoran memori HiveServer2 yang disebabkan oleh user-defined function (UDF) telah diperbaiki. Pesan kesalahan yang dilaporkan karena ketidakcocokan antara sistem file dan metastore Hive saat menulis data ke tabel Hive telah dioptimalkan.

Seri EMR 3.x

Versi EMR	Versi komponen	Peningkatan fitur
MR-3.51.4	Hive 2.3.9	Mendukung penerapan grup node Master-Extend.
EMR-3.46.1	Hive 2.3.9	Secara default, OSS-HDFS digunakan untuk menyimpan data dalam file gudang Hive.
EMR-3.40.0	Hive 2.3.8	Masalah berikut telah diperbaiki: Setelah eksekusi spekulatif diaktifkan untuk Hive pada Tez, baik tugas asli maupun tugas spekulatif keduanya dikomit. Masalah berikut telah diperbaiki: Fungsi user-defined (UDF) hanya dapat dipanggil setelah fungsi tersebut dimuat ulang.
EMR-3.39.1	Hive 2.3.8	Hive disesuaikan dengan JindoSDK.
EMR-3.36.1	Hive 2.3.8	Hive diperbarui ke versi 2.3.8. Masalah ketidakakuratan keluaran perintah `show create table` berdasarkan metadata Data Lake Formation (DLF) telah diperbaiki. Parameter default Hive dioptimalkan untuk meningkatkan kinerja pekerjaan Hive. Di Konsol EMR, nama parameter pada tab hive-env di tab Configure untuk layanan Hive diubah menjadi huruf kapital. Hal ini mempermudah penggunaan parameter tersebut. Pesan kesalahan yang dilaporkan karena ketidakcocokan antara sistem file dan metastore Hive saat menulis data ke tabel Hive telah dioptimalkan.
EMR-3.35.0	Hive 2.3.7	Memperbaiki masalah yang dilaporkan komunitas terkait tugas fetch.
EMR-3.34.0	Hive 2.3.7	Beberapa konfigurasi default dioptimalkan. Kinerja dioptimalkan. Fitur optimasi berbasis biaya (CBO) ditingkatkan. Otentikasi LDAP dapat diaktifkan atau dinonaktifkan dengan satu klik. Calcite diperbarui ke versi 1.12.0. Parameter hive.security.authorization.sqlstd.confwhitelist.append ditambahkan.
EMR-3.33.0	Hive 2.3.7	Hive diperbarui ke versi 2.3.7. Metadata dari Alibaba Cloud Data Lake Formation (DLF) dalam tabel HCatalog didukung. Metadata Hive dan informasi pekerjaan yang sedang berjalan dapat dikirim ke DataWorks.
EMR-3.32.0	Hive 2.3.5	Masalah kebocoran koneksi pada kolam koneksi HiveServer telah diperbaiki. Fitur pengumpulan data JindoTable dapat diaktifkan atau dinonaktifkan. Kinerja `ADD COLUMN` dioptimalkan. Masalah yang menyebabkan data yang dibaca dari tabel Hudi tidak valid telah diperbaiki. Konfigurasi default dapat disesuaikan berdasarkan ukuran node kluster.
EMR-3.30.0	Hive 2.3.5	Metadata dari Alibaba Cloud DLF didukung. Masalah yang terjadi saat membaca direktori tabel Delta kosong dan menulis data ke file dummy telah diperbaiki. Dependensi Has diperbarui ke versi 2.0.1.
EMR-3.29.0	Hive 2.3.5	Hive diperbarui ke versi 2.3.5.6.0. Metastore pihak ketiga didukung. Parameter datalake metastore-client ditambahkan.
EMR-3.28.0	Hive 2.3.5	Mendukung Delta Lake 0.6.0.
EMR-3.27.2	Hive 2.3.5	Magic committer dalam tabel HCatalog didukung. Beberapa konfigurasi default yang sudah usang dihapus.
EMR-3.26.3	Hive 2.3.5	Tabel HCatalog mendukung direct committer.
EMR-3.25.0	Hive 2.3.5	Memperbaiki masalah kegagalan pekerjaan MapReduce dalam mode LOCAL otomatis.
EMR-3.24.0	Hive 2.3.5	Kompatibilitas pernyataan SQL dapat diperiksa. Hive 2.3.5 dan Hadoop 2.8.5 dirilis sebagai kombinasi. Saat Hive dimulai ulang, konten dalam hiveserver2-site.xml tidak disinkronkan ke hive-site.xml di folder spark-conf. Perintah MSCK dapat digunakan untuk menambahkan direktori inkremental. Bug yang dipicu oleh penggunaan ulang kontainer Tez di Hive telah diperbaiki. Perintah MSCK dapat digunakan untuk mengoptimalkan direktori kolom.
EMR-3.23.0	Hive 2.3.5	Hooks Hive yang dikonfigurasi di versi Hive sebelumnya dihapus. Mendukung penggunaan beberapa COUNT(DISTINCT) untuk hive.groupby.skew dalam optimasi data. Memperbaiki masalah kehilangan data saat melakukan join tabel dengan versi bucket yang berbeda.
Versi sebelum EMR-3.23.0	Hive 2.x	Database terpadu eksternal disimpan ke metastore Hive. Semua kluster yang menggunakan metastore Hive eksternal berbagi metadata yang sama.

Seri EMR 4.x

Versi EMR	Versi komponen	Peningkatan fitur
EMR-4.10.0	Hive 3.1.2	Masalah karakter acak yang ditampilkan saat menggunakan Hue untuk mengkueri catatan historis telah diperbaiki. Pengecualian tampilan UI yang terjadi saat menggunakan Hue bersama Oozie telah diperbaiki. Masalah YARN Job Browser yang kadang-kadang tidak dapat menampilkan atau menghentikan pekerjaan telah diperbaiki. YARN Job Browser dapat diakses secara default. Protokol Presto didukung secara default.
EMR-4.8.0	Hive 3.1.2	Beberapa konfigurasi default dioptimalkan. Kinerja dioptimalkan. Fitur optimasi berbasis biaya (CBO) ditingkatkan. Otentikasi LDAP dapat diaktifkan atau dinonaktifkan dengan satu klik.
EMR-4.6.0	Hive 3.1.2	Metadata dari Alibaba Cloud Data Lake Formation (DLF) dalam tabel HCatalog didukung. Metadata Hive dan informasi pekerjaan yang sedang berjalan dapat dikirim ke DataWorks.
EMR-4.5.0	Hive 3.1.2	Metadata yang disimpan di Alibaba Cloud DLF didukung. Izin terkait kepemilikan Ranger didukung.
EMR-4.4.1	Hive 3.1.2	Konfigurasi parameter default dioptimalkan.
EMR-4.4.0	Hive 3.1.2	Hive diperbarui ke versi 3.1.2. JindoFS dioptimalkan. Pemeriksaan konsistensi metastore (MSCK) dioptimalkan. Jindo Job Committer dalam tabel HCatalog didukung. Dependensi telah diperbarui.
EMR-4.3.0	Hive 3.1.1	Mendukung penerapan kustom.

Sintaks Hive

Untuk memastikan pengalaman pengguna yang konsisten, EMR mempertahankan sintaks komponen open source sebanyak mungkin. Hive EMR sepenuhnya kompatibel dengan sintaks Apache Hive.

Untuk informasi lebih lanjut tentang Apache Hive, kunjungi situs web resmi Apache Hive.

Referensi

Untuk informasi lebih lanjut tentang cara menghubungkan ke Hive dengan klien Hive, lihat Metode koneksi Hive.
Untuk informasi lebih lanjut tentang otentikasi identitas untuk layanan Hive, lihat Menggunakan otentikasi Kerberos dan Menggunakan otentikasi LDAP.
Untuk informasi tentang mengakses data lake menggunakan Hive, lihat Menggunakan Hive untuk mengakses data Delta Lake dan Hudi.
Untuk informasi lebih lanjut tentang metode optimasi umum untuk pekerjaan Hive, lihat Optimasi pekerjaan Hive.
Untuk informasi tentang cara memecahkan masalah umum pada pekerjaan Hive, lihat Memecahkan masalah pengecualian pada pekerjaan Hive.