Hive是一個基於Hadoop的資料倉儲架構,在巨量資料業務情境中,主要用來進行資料提取、轉化和載入(ETL)以及中繼資料管理。
Hive結構
名稱 | 說明 |
HiveServer2 | HiveQL查詢服務器,可以配置為Thrift或者HTTP協議,接收來自JDBC用戶端提交的SQL請求,支援多用戶端並發以及身分識別驗證。 |
Hive MetaStore | 中繼資料管理模組,此模組被其他引擎所依賴,用於儲存Database和Table等元資訊。例如,Spark和Presto均依賴此模組作為其中繼資料管理。 |
Hive Client | Hive用戶端,直接利用該用戶端提交SQL作業,根據其設定運行引擎配置,可以將SQL轉換成MR作業、Tez作業和Spark作業,該模組在所有EMR節點上均有安裝。 |
Hive功能增強
在各版本的EMR中,Hadoop、Hive版本和EMR叢集的配套情況,請參見發行版本。針對開源增強Hive功能,詳見下表。
EMR-5.x系列
EMR版本 | 組件版本 | 功能增強 |
EMR-5.20.0 | Hive 3.1.3 | 最佳化分區表新增欄位效能。 |
EMR-5.17.4 | Hive 3.1.3 | 支援部署Master-Extend節點群組。 |
EMR-5.12.1 | Hive 3.1.3 | Hive warehouse支援預設使用OSS-HDFS儲存。 |
EMR-5.9.0 | Hive 3.1.3 | 支援開啟Kerberos身份認證。 |
EMR-5.8.0 | Hive 3.1.2 | 支援一鍵對接LDAP。 |
EMR-5.6.0 | Hive 3.1.2 | 修複了TEZ開啟Speculation後重複Commit的缺陷。 |
EMR-5.5.0 | Hive 3.1.2 |
|
EMR-5.4.0 | Hive 3.1.2 | Hive on JindoFS(Block)支援批量中繼資料最佳化功能,預設未開啟。 |
EMR-5.3.0 | Hive 3.1.2 | Hive on JindoFS(Block模式)支援批量中繼資料最佳化功能。 |
EMR-5.2.1 | Hive 3.1.2 |
|
EMR-3.x系列
EMR版本 | 組件版本 | 功能增強 |
MR-3.51.4 | Hive 2.3.9 | 支援部署Master-Extend節點群組。 |
EMR-3.46.1 | Hive 2.3.9 | Hive warehouse支援預設使用OSS-HDFS儲存。 |
EMR-3.40.0 | Hive 2.3.8 |
|
EMR-3.39.1 | Hive 2.3.8 | 適配JindoSDK。 |
EMR-3.36.1 | Hive 2.3.8 |
|
EMR-3.35.0 | Hive 2.3.7 | 修複Fetch Task相關的社區問題。 |
EMR-3.34.0 | Hive 2.3.7 |
|
EMR-3.33.0 | Hive 2.3.7 |
|
EMR-3.32.0 | Hive 2.3.5 |
|
EMR-3.30.0 | Hive 2.3.5 |
|
EMR-3.29.0 | Hive 2.3.5 |
|
EMR-3.28.0 | Hive 2.3.5 | 支援Delta 0.6.0版本。 |
EMR-3.27.2 | Hive 2.3.5 |
|
EMR-3.26.3 | Hive 2.3.5 | hcatalog表支援direct committer。 |
EMR-3.25.0 | Hive 2.3.5 | 修複自動LOCAL模式下MR任務執行失敗的問題 |
EMR-3.24.0 | Hive 2.3.5 |
|
EMR-3.23.0 | Hive 2.3.5 |
|
EMR-3.23.0之前版本 | Hive 2.x | 外部統一資料庫儲存至Hive Meta,所有使用外部Hive Meta的叢集共用同一份Meta資訊。 |
EMR-4.x系列
EMR版本 | 組件版本 | 功能增強 |
EMR-4.10.0 | Hive 3.1.2 |
|
EMR-4.8.0 | Hive 3.1.2 |
|
EMR-4.6.0 | Hive 3.1.2 |
|
EMR-4.5.0 | Hive 3.1.2 |
|
EMR-4.4.1 | Hive 3.1.2 | 最佳化預設的參數配置。 |
EMR-4.4.0 | Hive 3.1.2 |
|
EMR-4.3.0 | Hive 3.1.1 | 支援自訂部署。 |
Hive文法
EMR產品最大程度的保持了開源社區的文法以及體驗,在Hive文法上保持與開源社區Hive文法100%的相容性。
關於Apache Hive的更多介紹,請參見Apache Hive官網。
相關文檔
如何使用Hive用戶端串連Hive,請參見Hive串連方式。
Hive服務身份認證,請參見使用Kerberos認證和使用LDAP認證。
Hive訪問資料湖資料,請參見Hive訪問Delta Lake和Hudi資料。
Hive作業常見的調優方法,請參見Hive作業調優。
Hive作業常見問題排查,請參見Hive作業異常排查及處理。