全部產品
Search
文件中心

E-MapReduce:EMR-4.x系列版本說明

更新時間:Mar 22, 2025
重要

EMR-4.x系列已經停止發布新版本。

EMR-4.10.x

發布日期

EMR-4.10.0 2022年3月23日

更新內容

服務

變更點

SmartData

組件下線。

BIGBOOT

JindoSDK

  • 升級架構為JindoData。

  • EMR首次整合JindoSDK 4.0,支援OSS和OSS-HDFS服務等。

Spark

  • 升級至2.4.8版本。

  • 修複了Adaptive Execution部分情境無法生效的問題。

  • 修複了統計彙總函式行為和Hive不一致的問題。

  • 修複了讀取Hive ORC表char類型資料正確性問題。

  • 最佳化了Thriftserver的預設配置。

  • 最佳化E-MapReduce控制台上,Spark服務配置頁面的spark-defaults頁簽的配置項名稱。

  • 最佳化了Hive on Spark。

  • 修複了AQE在Stats缺失情況下數組越界的問題。

  • 修複了AQE和Cache在特定情境下報錯的問題。

  • 移除了無效配置Log4j MetricsAppender。

  • 修複了SparkContext啟動過程中null 指標異常的問題。

  • 支援ZSTD(Zstandard)壓縮格式。

Hive

  • 修複了UDF導致HiveServer2記憶體泄露的問題。

  • 修複了使用DLF(DataLakeFormation)中繼資料執行show create table命令時,結果顯示不正確的問題。

  • 最佳化Hive預設參數,以提升作業效能。

  • 修改了E-MapReduce控制台上,Hive服務配置頁面的hive-env頁簽的配置項名稱為大寫,便於使用者使用。

  • 最佳化檔案系統與MetaStore不一致時寫Hive表的報錯資訊。

  • Hive on JindoFS(Block)支援批量中繼資料最佳化功能,預設未開啟。

Ranger

  • 修複了Ranger啟用Spark日誌中的Warning報錯。

  • 修複了對接LDAP後,自動同步處理的使用者失敗的問題。

HDFS

  • 支援ZSTD(Zstandard)壓縮格式。

  • NameNode預留空間預設參數自適應增加,保證磁碟空間不足時, NameNode及時進入SafeMode。

YARN

  • 節點Containers REST API增加了appId,CPU和Memory資源使用資訊。

  • 修複了Auto Scaling釋放節點上AM日誌無法查看的問題。

  • 修複了State Store歷史資料造成叢集停用問題。

  • 支援Auto ScalingDecommission後清理釋放的節點。

  • 完善了Auto ScalingGraceful Decommission的操作邏輯,待NM(NodeMananger)進程結束後再標記下線完成。

Knox

  • 適配Kudu組件。

  • 適配HBase組件。

  • 修複了Spark Task第一次訪問時失敗的問題。

Tez

最佳化了Tez預設參數,以提升作業效能。

Sqoop

修複了Sqoop匯入HCatalog表時,Decimal類型精度丟失的問題。

Delta Lake

  • 中繼資料管理

    • 使用Spark內建Catalog替代Hive CLI API同步中繼資料及分區資訊。

    • 自動上報表的統計資訊(dataProfiling)到MetaStore。

  • SQL

    • 支援Time Travel文法。

    • 支援DropPartition SQL文法。

    • 支援指定位置(FIRST和AFTER)的ADD COLUMN操作。

  • 表管理能力增強

    • 支援並預設開啟可以根據表大小動態調整filesize。

    • 支援並預設開啟自動Vacuum,支援並發Vacuum。

    • 最佳化了自動Compaction的邏輯,預設關閉。

    • 新增Zorder文法,並加速了Zorder的處理過程。

Hudi

  • 升級至0.10.0版本。

  • 修複了DeltaLake和Hudi的sql.extension的相容性問題。

Iceberg

新增組件。

版本為0.13.0。

Hue

  • 修複了Hue查詢記錄時,中文亂碼的問題。

  • 修複了Hue與Oozie整合使用時介面顯示的問題。

  • 修複YARN Job Browser在部分情況下無法正常展示和終止作業的問題。

  • 預設配置中放開YARN Job Browser。

  • 預設配置中支援Presto協議。

DLF-Auth

新增組件。

版本為1.0.4。

HBase

  • 修複了高安全叢集重啟HBase耗時過長的問題。

  • 修複了Spark 3.1.1版本與HBase整合使用時失敗的問題。

  • 最佳化了Graceful Stop流程。

Zookeeper

升級至社區3.6.3版本。

Presto

  • 升級Presto至社區358版本。

  • 支援UDF動態載入功能,詳情請參見動態載入UDF

  • 支援資料湖分析。

Impala

  • 修複了直接刪除OSS分區目錄出現list目錄迴圈的問題。

  • 修複了查詢DLF中繼資料表時,提示no such method error的問題。

Zeppelin

升級Zeppelin至社區0.10.0版本。

Oozie

修複了HA情況下Oozie的Jetty Server依賴JAR包衝突,導致Jetty Server無法啟動的問題。

EMR-4.9.x

發布日期

EMR-4.9.0 2021年4月21日

更新內容

服務

變更點

SmartData

升級至3.5.0版本。

版本詳情,請參見SmartData 3.5.x版本簡介

Spark

  • 修複Adaptive Execution部分情境無法生效的問題。

  • 修複統計彙總函式行為和Hive不一致的問題。

  • 修複讀取Hive ORC表char類型資料正確性的問題。

HDFS

支援國密SM4密碼編譯演算法。

Hue

升級Hue至4.9.0版本。

Alluxio

升級Alluxio至2.5.0版本。

Livy

升級Livy至0.7.1版本。

EMR-4.8.x

發布日期

EMR-4.8.0 2021年3月15日

更新內容

服務

變更點

SmartData

升級至3.4.0版本。

版本詳情,請參見SmartData 3.4.x版本簡介

Spark

  • 最佳化了部分預設配置。

  • 效能最佳化:支援Window TopK下推。

  • 增強Hive讀寫CSV或JSON表的相容性。

  • ANALYZE語句支援省略全表列名。

  • 支援一鍵開啟或關閉LDAP功能。

  • 改進Spark Beeline工具的易用性。

Hive

  • 最佳化了部分預設配置。

  • 效能最佳化:增強CBO。

  • 支援一鍵開啟或關閉LDAP功能。

YARN

修複了Hadoop未授權訪問Web UI時的高危風險問題。即通過SSH Tunnel方式訪問YARN Web UI時,需要在URL裡顯式指定user.name=name的問題。

Tez

最佳化了預設配置。

Ranger

  • 修複Spark中Filter函數的下推問題。

  • 修複Ranger Disable Presto後,Presto無法啟動的問題。

  • 支援一鍵開啟或關閉LDAP功能。

Hue

支援一鍵開啟或關閉LDAP功能。

Impala

  • 升級Impala至3.4.0版本。

  • 升級Shiro至1.7.0版本。

  • 支援DLF中繼資料。

  • 支援查詢Delta格式的資料。

  • 支援一鍵開啟或關閉LDAP功能。

  • 修複資料存放區在OSS時,使用INSERT OVERWRITE命令的問題。

Hudi

  • 支援SQL on Hudi功能。

  • 修複了查詢部分資料時準確性的問題。

  • 在Spark查詢Hudi的Copy On Write表時,支援分區裁剪。

  • 支援分桶索引機制,提高寫入效能。

Delta Lake

  • 修複基於已存在Delta表無法同步中繼資料至Hive MetaStore的問題。

  • 修複Merge命令無法解析*的問題。

  • 修複基於Parquet格式的資料轉換成Delta表,且建立表中繼資料時報錯的問題。

  • 修複當沒有待compact的檔案時,執行Optimize命令異常的問題。

  • 支援Merge文法使用子查詢作為Source命令。

  • 使用Presto查詢Delta表時,引入緩衝機制,以提升查詢效率。

  • 支援Impala查詢Delta表。

ESS

  • 修複在Shuffle read階段,出現closed channel異常、IndexOutOfBounds異常或堆外記憶體使用量過多的問題。

  • 修複開啟Metrics之後,出現NPE異常的問題。

HAS

修複在HAS install流程產生了錯誤後admin.keytab無法重新init問題

Presto

支援一鍵開啟或關閉LDAP功能。

HBase

  • 升級至2.2.6版本。

  • 不再支援Ranger的許可權控制。

Sqoop

支援匯入Parquet格式的檔案至OSS。

Superset

  • 修複admin使用者無法登入Web UI的問題。

  • 資料集相容Druid叢集模式。

  • 不再支援SparkSQL資料集。

Knox

  • 支援通過Knox訪問Presto。

  • 修複無法訪問Druid Web UI的問題。

  • 取消HTTP僅限制使用高安全Knox訪問Ranger UI的限制。

EMR-4.6.x

發布日期

EMR-4.6.0 2021年1月15日

更新內容

服務

變更點

SmartData

升級至3.2.0版本。

詳情請參見SmartData 3.2.x版本簡介

Spark

  • 升級至2.4.7版本。

  • 升級jQuery至3.5.1版本。

  • 相容Hive方式自動更新表和分區大小。

  • 支援Spark中繼資料和作業運行資訊輸出至DataWorks。

Hive

  • HCatalog支援Data Lake Formation。

  • 支援Hive中繼資料和作業運行資訊輸出至DataWorks。

Metastore

  • 新增Hive Statistics功能。

  • HCatalog支援Data Lake Formation。

  • 最佳化STSToken的擷取方式。

HDFS

  • 升級jQuery至3.5.1版本。

  • 升級至3.2.1版本。

YARN

  • 升級至3.2.1版本。

  • 升級jQuery至3.5.1版本。

  • 調整Fair Scheduler配置。

  • 最佳化了Timeline Server。

Zeppelin

升級至0.9.0版本。

OpenLDAP

  • 增加審計功能。

  • 預設開啟SSL連接埠(10636)。

  • 支援一鍵開啟Presto。

Hue

支援Presto。

EMRHook

  • 新增軟體服務。

  • hive-hook:支援Hive中繼資料和作業運行資訊輸出至DataWorks。

  • spark-hook:支援Spark中繼資料和作業運行資訊輸出至DataWorks。

EMR-4.5.x

EMR-4.5.1

發布日期

2020年12月13日

更新內容

  • 該版本修複了Hive和Presto查詢分區表的問題。

  • 該版本目前只支援部分地區,包括華東1(杭州)、華東2(上海)和華北2(北京)。

EMR-4.5.0

發布日期

2020年12月7日

新增內容

服務

變更點

ESS(EMR Remote Shuffle Service)

支援1.0.0版本。

詳情請參見ESS

Hudi

支援0.6.0版本。

Delta Lake

支援0.6.1版本。

更新內容

服務

變更點

Ranger

  • 升級至2.1.0版本。

  • 支援Ownership許可權。

Presto

  • 升級至338版本。

  • 支援資料湖構建(DLF)中繼資料。

Zeppelin

升級至0.8.2版本。

SmartData

升級至3.1.0版本。

詳情請參見SmartData 3.1.x版本簡介

Bigboot

升級至3.1.0版本。

Hive

  • 支援資料湖構建(DLF)中繼資料。

  • 支援Ranger Ownership許可權。

Spark

支援資料湖構建(DLF)中繼資料。

DLF Metastore

  • 修複高安全叢集中Presto服務無法啟動的問題。

  • 增加支援Hive 3和Cache。

  • 修複Hive和Presto查詢資料的問題。

Impala

支援在EMR控制台自訂配置catalogd.flgsimpalad.flgsstatestored.flgs

Tez

Tez UI的autoDeploy相關漏洞修複。

OpenLDAP

增加10389連接埠等待的判斷。

Hue

MySQL Backend安全性漏洞修複。

Kerberos

  • 升級至Apache Kerby 2.0.1。

  • 修複外部Kerberos叢集的kadmin principal無法自訂的問題。

Sqoop

  • 支援Parquet、AVRO和ORC等多種檔案格式。

  • 支援資料湖構建(DLF)中繼資料。

EMR-4.4.x

發布日期

EMR-4.4.1 2020年9月15日

更新內容

服務

變更點

YARN

  • 刪除軟體棧yarn.application.classpath配置中的hadoop/tools/lib目錄。

  • 最佳化MR作業預設的參數配置。

Hive

最佳化預設的參數配置。

Tez

Ranger

  • 支援Impala許可權控制。

  • 升級jackson-databind版本。

Impala

  • 支援整合Ranger。

  • 升級Shiro至1.6.0版本。

SmartData

升級至2.7.301版本。

Bigboot

Knox

  • 支援Tez UI獨立開啟,支援YARN UI中的Tez。

  • 升級Shiro至1.6.0版本。

EMRDOCTOR

修複時間設定檔為空白時,導致不採集作業資訊的問題。

Ganglia

增加HDFS Service RPC Port的連接埠探測。

Oozie

  • 修複Web UI無法開啟的問題。

  • 升級jackson-databind版本。

Zookeeper

支援綁定內網IP啟動服務連接埠。

Superset

修複啟動指令碼。

Livy

升級jackson-databind和fastjson版本。

Zepplin

升級jackson-databind和Shiro版本。

HAS

升級jackson-databind和fastjson版本。

Flume

升級fastjson版本。

EMR-4.3.x

發布日期

EMR-4.3.0 2020年5月20日

更新內容

服務

變更點

Ranger

  • 支援HDFS、Hive、Spark plugin自訂部署,在對應服務節點執行plugin enable操作。

  • 支援在控制台配置ranger-admin和ranger-usersync。

Presto

升級Kudu Client。

Spark

  • 升級至2.4.5版本。

  • 升級關聯的Delta Lake至0.6.0版本。

  • 修複開啟Ranger Hive後,Pyspark無法正常啟動並執行缺陷。

HDFS

  • 修複HDFS_NAMENODE_OPTS參數無法生效的缺陷。

  • 支援自訂部署。

YARN

支援自訂部署。

Hive

支援自訂部署。

Knox

適配Hadoop 3.x中HDFS的NameNode UI。

Zeppelin

修複產生zepping.keytab時失敗的缺陷。

Kafka

升級至2.4.1版本。

Kudu

升級至1.11.1版本。

Impala

修複haproxy問題。

Livy

修複xmllint問題。

HUE

  • 支援Gateway安裝HUE組件。

  • 支援單個節點開啟多個HUE執行個體。