Hive adalah kerangka kerja gudang data berbasis Hadoop yang mendukung operasi ekstrak, transformasi, dan muat (ETL) serta manajemen metadata dalam skenario data besar.
Komponen Hive
Nama | Deskripsi |
HiveServer2 | Server kueri HiveQL yang menerima permintaan SQL dari klien Java Database Connectivity (JDBC) melalui protokol Thrift atau HTTP. Komponen ini mendukung akses konkuren dari beberapa klien dan otentikasi identitas. |
Hive MetaStore | Komponen manajemen metadata. Komponen ini menyimpan metadata, seperti database dan tabel, untuk mesin lainnya. Misalnya, Spark dan Presto sama-sama menggunakan komponen ini untuk manajemen metadata. |
Hive Client | Klien Hive. Komponen ini mengirimkan pekerjaan SQL dan mengonversinya menjadi pekerjaan MapReduce, Tez, atau Spark berdasarkan mesin eksekusi yang dikonfigurasi. Komponen ini diinstal pada semua node kluster EMR. |
Peningkatan fitur
Untuk informasi lebih lanjut mengenai kompatibilitas antara versi EMR, Hadoop, dan Hive, lihat Versi rilis. Tabel-tabel berikut menjelaskan fitur-fitur yang ditingkatkan untuk Hive pada berbagai versi EMR.
Seri EMR 5.x
Versi EMR | Versi komponen | Peningkatan fitur |
EMR-5.20.0 | Hive 3.1.3 | Mengoptimalkan kinerja penambahan bidang ke tabel partisi. |
EMR-5.17.4 | Hive 3.1.3 | Mendukung penerapan grup node Master-Extend. |
EMR-5.12.1 | Hive 3.1.3 | Secara default, OSS-HDFS digunakan untuk menyimpan data dalam file gudang Hive. |
EMR-5.9.0 | Hive 3.1.3 | Otentikasi Kerberos didukung. |
EMR-5.8.0 | Hive 3.1.2 | Otentikasi LDAP dapat diaktifkan dengan satu klik. |
EMR-5.6.0 | Hive 3.1.2 | Masalah berikut telah diperbaiki: Setelah eksekusi spekulatif diaktifkan untuk Hive pada Tez, baik tugas asli maupun tugas spekulatif keduanya dikomit. |
EMR-5.5.0 | Hive 3.1.2 |
|
EMR-5.4.0 | Hive 3.1.2 | Dalam JindoFS dalam mode penyimpanan blok, metadata dari beberapa tabel Hive dapat dioptimalkan secara bersamaan. Secara default, fitur ini dinonaktifkan. |
EMR-5.3.0 | Hive 3.1.2 | Dalam JindoFS dalam mode penyimpanan blok, metadata dari beberapa tabel Hive dapat dioptimalkan secara bersamaan. |
EMR-5.2.1 | Hive 3.1.2 |
|
Seri EMR 3.x
Versi EMR | Versi komponen | Peningkatan fitur |
MR-3.51.4 | Hive 2.3.9 | Mendukung penerapan grup node Master-Extend. |
EMR-3.46.1 | Hive 2.3.9 | Secara default, OSS-HDFS digunakan untuk menyimpan data dalam file gudang Hive. |
EMR-3.40.0 | Hive 2.3.8 |
|
EMR-3.39.1 | Hive 2.3.8 | Hive disesuaikan dengan JindoSDK. |
EMR-3.36.1 | Hive 2.3.8 |
|
EMR-3.35.0 | Hive 2.3.7 | Memperbaiki masalah yang dilaporkan komunitas terkait tugas fetch. |
EMR-3.34.0 | Hive 2.3.7 |
|
EMR-3.33.0 | Hive 2.3.7 |
|
EMR-3.32.0 | Hive 2.3.5 |
|
EMR-3.30.0 | Hive 2.3.5 |
|
EMR-3.29.0 | Hive 2.3.5 |
|
EMR-3.28.0 | Hive 2.3.5 | Mendukung Delta Lake 0.6.0. |
EMR-3.27.2 | Hive 2.3.5 |
|
EMR-3.26.3 | Hive 2.3.5 | Tabel HCatalog mendukung direct committer. |
EMR-3.25.0 | Hive 2.3.5 | Memperbaiki masalah kegagalan pekerjaan MapReduce dalam mode LOCAL otomatis. |
EMR-3.24.0 | Hive 2.3.5 |
|
EMR-3.23.0 | Hive 2.3.5 |
|
Versi sebelum EMR-3.23.0 | Hive 2.x | Database terpadu eksternal disimpan ke metastore Hive. Semua kluster yang menggunakan metastore Hive eksternal berbagi metadata yang sama. |
Seri EMR 4.x
Versi EMR | Versi komponen | Peningkatan fitur |
EMR-4.10.0 | Hive 3.1.2 |
|
EMR-4.8.0 | Hive 3.1.2 |
|
EMR-4.6.0 | Hive 3.1.2 |
|
EMR-4.5.0 | Hive 3.1.2 |
|
EMR-4.4.1 | Hive 3.1.2 | Konfigurasi parameter default dioptimalkan. |
EMR-4.4.0 | Hive 3.1.2 |
|
EMR-4.3.0 | Hive 3.1.1 | Mendukung penerapan kustom. |
Sintaks Hive
Untuk memastikan pengalaman pengguna yang konsisten, EMR mempertahankan sintaks komponen open source sebanyak mungkin. Hive EMR sepenuhnya kompatibel dengan sintaks Apache Hive.
Untuk informasi lebih lanjut tentang Apache Hive, kunjungi situs web resmi Apache Hive.
Referensi
Untuk informasi lebih lanjut tentang cara menghubungkan ke Hive dengan klien Hive, lihat Metode koneksi Hive.
Untuk informasi lebih lanjut tentang otentikasi identitas untuk layanan Hive, lihat Menggunakan otentikasi Kerberos dan Menggunakan otentikasi LDAP.
Untuk informasi tentang mengakses data lake menggunakan Hive, lihat Menggunakan Hive untuk mengakses data Delta Lake dan Hudi.
Untuk informasi lebih lanjut tentang metode optimasi umum untuk pekerjaan Hive, lihat Optimasi pekerjaan Hive.
Untuk informasi tentang cara memecahkan masalah umum pada pekerjaan Hive, lihat Memecahkan masalah pengecualian pada pekerjaan Hive.