すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:EMR V4.Xシリーズのリリースノート

最終更新日:Apr 29, 2025
重要

E-MapReduce (EMR) V4.Xシリーズの新しいバージョンはリリースされません。

EMR V4.10.X

リリース日

EMR V4.10.0:2022年3月23日

更新

サービス

説明

SmartData

これらのサービスは使用されなくなりました。

BIGBOOT

JindoSDK

  • JindoSDK のアーキテクチャが JindoData にアップグレードされました。

  • EMR は、JindoData 4.0.0 用の JindoSDK と初めて統合されました。 JindoData は、Alibaba Cloud Object Storage Service (OSS) および Alibaba Cloud OSS-HDFS サービスに接続します。

Spark

  • Spark が 2.4.8 に更新されました。

  • 特定のシナリオでアダプティブ実行が有効にならない問題が修正されました。

  • Spark と Hive で統計集計関数の使用方法が異なる問題が修正されました。

  • Spark が Hive ORC テーブルから CHAR 型の有効なデータを読み取れない問題が修正されました。

  • Thrift Server のデフォルト設定が最適化されました。

  • EMR コンソールで、Spark サービスの [構成] タブの [spark-defaults] サブタブにあるパラメーター名が最適化されました。

  • Hive on Spark が最適化されました。

  • Adaptive Query Execution (AQE) に必要な統計情報の一部が欠落している場合に返される、範囲外の配列インデックスエラーが修正されました。

  • 特定のシナリオにおける AQE とデータキャッシングに関連するエラーが修正されました。

  • 設定が無効なため、Log4j Metrics Appender が削除されました。

  • SparkContext の起動時に発生するヌルポインタ例外が修正されました。

  • データ圧縮アルゴリズム Zstandard がサポートされるようになりました。

Hive

  • ユーザー定義関数 (UDF) によって引き起こされる HiveServer2 メモリリークに関する問題が修正されました。

  • Data Lake Formation (DLF) メタデータに基づく Show Create Table コマンドの出力が不正確である問題が修正されました。

  • Hive ジョブのパフォーマンスを向上させるために、Hive のデフォルトパラメーターが最適化されました。

  • EMR コンソールで、Hive サービスの [構成] タブの [hive-env] サブタブにあるパラメーター名が、大文字に変更されました。 これにより、パラメーターが使いやすくなります。

  • Hive テーブルにデータを書き込むときに、ファイルシステムと Hive Metastore の非互換性によって発生する問題が修正されました。

  • ブロックストレージモードの JindoFS では、複数の Hive テーブルのメタデータを同時に最適化できます。 デフォルトでは、この機能は無効になっています。

Ranger

  • Ranger で Spark を起動することに関するログに含まれる警告エラーが修正されました。

  • Ranger が Lightweight Directory Access Protocol (LDAP) サーバーに接続された後、ユーザー情報が自動的に同期されない問題が修正されました。

HDFS

  • データ圧縮アルゴリズム Zstandard がサポートされるようになりました。

  • デフォルトでは、NameNode の予約スペースは適応的に増加します。 これにより、ディスク容量が不足した場合、NameNode はできるだけ早くセーフモードになります。

YARN

  • アプリ ID、CPU 使用率、メモリ使用量に関する情報が、ノードのコンテナーの RESTful API に追加されました。

  • 自動的に解放されたノードの Application Master (AM) ログを表示できない問題が修正されました。

  • 履歴状態ストアデータのためにクラスタにアクセスできない問題が修正されました。

  • 自動スケーリングのデコミッショニングロジックに基づいて自動的に解放されたノードのデータを削除できるようになりました。

  • 自動スケーリングの Graceful Decommission ロジックが最適化されました。 NodeManager が実行されているノードは、NodeManager プロセスが完了した後にのみ廃止とマークされます。

Knox

  • Knox が Kudu に対応しました。

  • Knox が HBase に対応しました。

  • Spark UI への最初のアクセスが失敗する問題が修正されました。

Tez

Tez ジョブのパフォーマンスを向上させるために、Tez のデフォルトパラメーターが最適化されました。

Sqoop

Sqoop を使用して HCatalog テーブルにデータをインポートするときに、DECIMAL データ型の精度が失われる問題が修正されました。

Delta Lake

  • メタデータ管理

    • Hive CLI を使用して呼び出される API 操作ではなく、Spark の組み込みカタログを使用して、メタデータとパーティション情報を同期します。

    • テーブルデータの統計情報がメタストアに自動的に報告されます。

  • SQL

    • タイムトラベル機能の構文がサポートされるようになりました。

    • DROP PARTITION SQL 構文がサポートされるようになりました。

    • ADD COLUMN 文を使用して、指定した場所 (FIRST と AFTER) に列を追加できるようになりました。

  • 強化されたテーブル管理機能

    • テーブルサイズに基づいてファイルサイズを動的に調整できるようになりました。 デフォルトでは、この機能は有効になっています。

    • 自動バキューム機能がサポートされ、デフォルトで有効になっています。 同時バキューム操作がサポートされるようになりました。

    • 自動圧縮のロジックが最適化されました。 デフォルトでは、自動圧縮機能は無効になっています。

    • Z オーダー構文が追加されました。 Z オーダーベースのデータ処理が高速化されました。

Hudi

  • Hudi が 0.10.0 に更新されました。

  • Delta Lake と Hudi 間の sql.extension の互換性に関する問題が修正されました。

Iceberg

Iceberg サービスが追加されました。

バージョン 0.13.0

Hue

  • Hue を使用して履歴レコードをクエリするときに文字化けが表示される問題が修正されました。

  • Hue を Oozie と一緒に使用するときに発生する UI 表示の例外が修正されました。

  • YARN ジョブブラウザがジョブを表示または終了できない場合がある問題が修正されました。

  • YARN ジョブブラウザにデフォルトでアクセスできるようになりました。

  • Presto プロトコルがデフォルトでサポートされるようになりました。

DLF-Auth

DLF-Auth サービスが追加されました。

バージョン 1.0.4

HBase

  • セキュリティの高いクラスタで HBase を再起動するために必要な時間が短縮されました。

  • Spark 3.1.1 を HBase と統合できない問題が修正されました。

  • Graceful Stop プロセスが最適化されました。

ZooKeeper

ZooKeeper が 3.6.3 に更新されました。

Presto

  • Presto が 358 に更新されました。

  • UDF を動的にロードできるようになりました。 詳細については、「高度な使用方法」をご参照ください。

  • データレイク分析がサポートされるようになりました。

Impala

  • 直接削除された OSS パーティションディレクトリで LIST 操作が繰り返し実行される問題が修正されました。

  • DLF メタデータテーブルのデータをクエリするときに no such method error メッセージが表示される問題が修正されました。

Zeppelin

Zeppelin が 0.10.0 に更新されました。

Oozie

高可用性 (HA) シナリオで JAR パッケージの競合が原因で Oozie の Jetty Server が起動に失敗する問題が修正されました。

EMR V4.9.X

リリース日

EMR V4.9.0:2021年4月21日

更新

サービス

説明

SmartData

SmartData が 3.5.0 に更新されました。

詳細については、「SmartData 3.5.X」をご参照ください。

Spark

  • 特定のシナリオでアダプティブ実行が有効にならない問題が修正されました。

  • Spark と Hive で統計集計関数の使用方法が異なる問題が修正されました。

  • Spark が Hive ORC テーブルから CHAR 型の有効なデータを読み取れない問題が修正されました。

HDFS

SM4 暗号化アルゴリズムがサポートされるようになりました。

Hue

Hue が 4.9.0 に更新されました。

Alluxio

Alluxio が 2.5.0 に更新されました。

Livy

Livy が 0.7.1 に更新されました。

EMR V4.8.X

リリース日

EMR V4.8.0:2021年3月15日

更新

サービス

説明

SmartData

SmartData が 3.4.0 に更新されました。

詳細については、「SmartData 3.4.X」をご参照ください。

Spark

  • いくつかのデフォルト設定が最適化されました。

  • パフォーマンスが最適化されました。 ウィンドウベースの top-k クエリをプッシュダウンできるようになりました。

  • CSV または JSON 形式の Hive テーブルとのデータの読み書き機能が強化されました。

  • ANALYZE 文でテーブルのすべての列名を省略できるようになりました。

  • LDAP 認証をワンクリックで有効または無効にできるようになりました。

  • Spark Beeline が使いやすくなりました。

Hive

  • いくつかのデフォルト設定が最適化されました。

  • パフォーマンスが最適化されました。 コストベースの最適化 (CBO) 機能が強化されました。

  • LDAP 認証をワンクリックで有効または無効にできるようになりました。

YARN

Hadoop クラスタから YARN Web UI への不正アクセスのリスクが修正されました。 SSH トンネルを使用して YARN Web UI にアクセスする場合、URL に user.name を明示的に指定する必要がなくなりました。

Tez

いくつかのデフォルト設定が最適化されました。

Ranger

  • Spark のフィルタープッシュダウンによって発生する問題が修正されました。

  • Ranger で Presto を無効にした後、Presto を有効にできない問題が修正されました。

  • LDAP 認証をワンクリックで有効または無効にできるようになりました。

Hue

LDAP 認証をワンクリックで有効または無効にできるようになりました。

Impala

  • Impala が 3.4.0 に更新されました。

  • Shiro が 1.7.0 に更新されました。

  • DLF に保存されているメタデータがサポートされるようになりました。

  • Delta 形式のデータをクエリできるようになりました。

  • LDAP 認証をワンクリックで有効または無効にできるようになりました。

  • INSERT OVERWRITE 文を使用して OSS に保存されているデータを上書きするときに発生する例外が修正されました。

Hudi

  • SQL 文を実行して Hudi テーブルのデータをクエリできるようになりました。

  • 一部のデータのクエリ結果が不正確になる原因となる問題が修正されました。

  • Spark を使用して Hudi の Copy on Write テーブルのデータをクエリする場合、パーティションプルーニングがサポートされるようになりました。

  • 書き込みパフォーマンスを向上させるために、バケットベースのインデックスメカニズムがサポートされるようになりました。

Delta Lake

  • 既存の Delta テーブルに基づいてメタデータを Hive メタストアに同期できない問題が修正されました。

  • MERGE 文がデータ内のアスタリスク (*) を解析できない問題が修正されました。

  • Parquet 形式のデータを Delta テーブルに変換してテーブルメタデータを作成するときにエラーが報告される問題が修正されました。

  • 圧縮する必要のあるファイルがない場合に OPTIMIZE コマンドが失敗する問題が修正されました。

  • MERGE 文でサブクエリをソースとして使用できるようになりました。

  • Presto を使用して Delta テーブルのデータをクエリする場合、データをキャッシュできるようになりました。 これにより、クエリの効率が向上します。

  • Impala を使用して Delta テーブルのデータをクエリできるようになりました。

EMR Remote Shuffle Service (ESS)

  • シャッフル読み取りステージでの例外 (ClosedChannelException、IndexOutOfBoundsException、過剰なオフヒープメモリ使用量など) が修正されました。

  • メトリック監視を有効にした後に NullPointerException (NPE) が報告される問題が修正されました。

HAS

HAS インストールエラーが報告された後、admin.keytab ファイルが再び初期化されない問題が修正されました。

Presto

LDAP 認証をワンクリックで有効または無効にできるようになりました。

HBase

  • HBase が 2.2.6 に更新されました。

  • Ranger に基づくアクセス制御はサポートされなくなりました。

Sqoop

Parquet 形式のファイルを OSS にインポートできるようになりました。

Superset

  • 管理ユーザーが Web UI にログオンできない問題が修正されました。

  • データセットが Druid クラスタと互換性を持つようになりました。

  • Spark SQL データセットはサポートされなくなりました。

Knox

  • Knox を使用した Presto へのアクセスがサポートされるようになりました。

  • Druid Web UI にアクセスできない問題が修正されました。

  • 高セキュリティモードで Knox を使用して HTTP のみで Ranger Web UI にアクセスできるという制限が削除されました。

EMR V4.6.X

リリース日

EMR V4.6.0:2021年1月15日

更新

サービス

説明

SmartData

SmartData が 3.2.0 に更新されました。

詳細については、「SmartData 3.2.X」をご参照ください。

Spark

  • Spark が 2.4.7 に更新されました。

  • jQuery が 3.5.1 に更新されました。

  • Spark は Hive と互換性があり、テーブルとパーティションのサイズを自動的に更新します。

  • Spark のメタデータとジョブ実行情報を DataWorks に送信できるようになりました。

Hive

  • HCatalog テーブルの DLF からのメタデータがサポートされるようになりました。

  • Hive のメタデータとジョブ実行情報を DataWorks に送信できるようになりました。

Metastore

  • Hive の統計機能が追加されました。

  • HCatalog テーブルの DLF からのメタデータがサポートされるようになりました。

  • セキュリティトークンサービス (STS) トークンを取得するメソッドが最適化されました。

HDFS

  • jQuery が 3.5.1 に更新されました。

  • HDFS が 3.2.1 に更新されました。

YARN

  • YARN が 3.2.1 に更新されました。

  • jQuery が 3.5.1 に更新されました。

  • Fair Scheduler の設定が調整されました。

  • Timeline Server が最適化されました。

Zeppelin

Zeppelin が 0.9.0 に更新されました。

OpenLDAP

  • 監査機能が追加されました。

  • デフォルトで、Secure Sockets Layer (SSL) ポート 10636 が有効になります。

  • OpenLDAP をワンクリックで有効にできるようになりました。

Hue

Presto がサポートされるようになりました。

EMR-HOOK

  • EMRHook サービスが追加されました。

  • hive-hook を使用して、Hive のメタデータとジョブ実行情報を DataWorks に送信します。

  • spark-hook を使用して、Spark のメタデータとジョブ実行情報を DataWorks に送信します。

EMR V4.5.X

EMR V4.5.1

リリース日

2020年12月13日

更新

  • Hive または Presto を使用してパーティションテーブルをクエリするときに発生する問題が修正されました。

  • EMR V4.5.1 は、中国 (杭州)、中国 (上海)、中国 (北京) リージョンでのみ使用できます。

EMR V4.5.0

リリース日

2020年12月7日

新機能

サービス

説明

ESS

ESS 1.0.0 がサポートされるようになりました。

詳細については、「ESS」をご参照ください。

Hudi

Hudi 0.6.0 がサポートされるようになりました。

Delta Lake

Delta Lake 0.6.1 がサポートされるようになりました。

更新

サービス

説明

Ranger

  • Ranger が 2.1.0 に更新されました。

  • 所有権関連の権限がサポートされるようになりました。

Presto

  • Presto が 338 に更新されました。

  • Alibaba Cloud DLF に保存されているメタデータがサポートされるようになりました。

Zeppelin

Zeppelin が 0.8.2 に更新されました。

SmartData

SmartData が 3.1.0 に更新されました。

詳細については、「SmartData 3.1.X」をご参照ください。

Bigboot

Bigboot が 3.1.0 に更新されました。

Hive

  • Alibaba Cloud DLF に保存されているメタデータがサポートされるようになりました。

  • Ranger の所有権関連の権限がサポートされるようになりました。

Spark

Alibaba Cloud DLF に保存されているメタデータがサポートされるようになりました。

DLF Metastore

  • セキュリティの高いクラスタで Presto を起動できない問題が修正されました。

  • Hive 3 とメタデータキャッシングがサポートされるようになりました。

  • Hive または Presto を使用してデータをクエリするときに発生する問題が修正されました。

Impala

EMR コンソールで、catalogd.flgsimpalad.flgsstatestored.flgs サブタブのパラメーターのカスタム設定がサポートされるようになりました。

Tez

Tez の Web UI での autoDeploy に関連する脆弱性が修正されました。

OpenLDAP

ポート 10389 が待機状態にあるかどうかを判断するルールが追加されました。

Hue

MySQL バックエンドのセキュリティ上の脆弱性が修正されました。

Kerberos

  • Apache Kerby が 2.0.1 に更新されました。

  • 外部 Kerberos クラスタの kadmin プリンシパルをカスタマイズできない問題が修正されました。

Sqoop

  • Parquet、Avro、ORC などのファイル形式がサポートされるようになりました。

  • Alibaba Cloud DLF に保存されているメタデータがサポートされるようになりました。

EMR V4.4.X

リリース日

EMR V4.4.1:2020年9月15日

更新

サービス

説明

YARN

  • hadoop/tools/lib ディレクトリが yarn.application.classpath パラメーターの値から削除されました。

  • MapReduce ジョブのデフォルトパラメーター設定が最適化されました。

Hive

デフォルトパラメーター設定が最適化されました。

Tez

Ranger

  • Impala ベースのアクセス制御がサポートされるようになりました。

  • jackson-databind のバージョンが更新されました。

Impala

  • Ranger との統合がサポートされるようになりました。

  • Shiro が 1.6.0 に更新されました。

SmartData

SmartData と Bigboot が 2.7.301 に更新されました。

Bigboot

Knox

  • Tez の Web UI を個別に表示できるようになりました。 Knox は、YARN の Web UI 上の Tez と互換性があります。

  • Shiro が 1.6.0 に更新されました。

EMR Doctor

時間ベースの設定ファイルが空の場合にジョブ情報が収集されない問題が修正されました。

Ganglia

Hadoop 分散ファイルシステム (HDFS) のサービス RPC ポートの検出機能が有効になりました。

Oozie

  • Web UI にアクセスできない問題が修正されました。

  • jackson-databind のバージョンが更新されました。

ZooKeeper

内部 IP アドレスを ECS インスタンスにバインドして、サービスポートを起動できるようになりました。

Superset

起動スクリプトが修復されました。

Livy

jackson-databind と Fastjson のバージョンが更新されました。

Zepplin

jackson-databind と Shiro のバージョンが更新されました。

HAS

jackson-databind と Fastjson のバージョンが更新されました。

Flume

Fastjson のバージョンが更新されました。

EMR V4.3.X

リリース日

EMR V4.3.0:2020年5月20日

更新

サービス

説明

Ranger

  • HDFS、Hive、Spark プラグインのカスタムデプロイがサポートされるようになりました。 必要なサービスノードでプラグインを有効にできます。

  • RangerUserSync コンポーネントと RangerAdmin コンポーネントを EMR コンソールで設定できるようになりました。

Presto

Kudu クライアントが更新されました。

Spark

  • Spark が 2.4.5 に更新されました。

  • 関連付けられている Delta Lake が 0.6.0 に更新されました。

  • Ranger Hive を有効にした後、PySpark が正しく実行されない問題が修正されました。

HDFS

  • HDFS_NAMENODE_OPTS パラメーターが有効にならない問題が修正されました。

  • カスタムデプロイがサポートされるようになりました。

YARN

カスタムデプロイがサポートされるようになりました。

Hive

カスタムデプロイがサポートされるようになりました。

Knox

Hadoop 3.X の HDFS NameNode の Web UI の情報を表示できるようになりました。

Zeppelin

zepping.keytab ファイルが生成されない問題が修正されました。

Kafka

Kafka が 2.4.1 に更新されました。

Kudu

Kudu が 1.11.1 に更新されました。

Impala

HAProxy に関連する問題が修正されました。

Livy

xmllint に関連する問題が修正されました。

Hue

  • Hue をゲートウェイクラスタにデプロイできるようになりました。

  • 単一ノードで複数の Hue インスタンスを有効にできるようになりました。