EMRバージョン | Sparkバージョン | 拡張機能 |
EMR V3.51.0 | Spark 3.4.2 | Spark 3 が 3.4.2 に更新されました。 |
EMR V3.50.0 | Spark 3.3.1 | Commons Text ライブラリの脆弱性が修正されました。 |
EMR V3.49.0 | Spark 3.3.1 | jdo に関連する設定が [hive-site.xml] 設定ファイルから削除されました。
|
EMR V3.46.1 | Spark 3.3.1 | |
EMR V3.44.0 | Spark 3.3.1 | Spark が 3.3.1 に更新されました。 |
EMR V3.43.0 | Spark 3.3.0 | Spark が 3.3 に更新されました。 Kerberos 認証がサポートされています。
|
EMR V3.40.0 | Spark 3.2.1 | Spark が 3.2.1 に更新されました。 |
EMR V3.39.1 | Spark 2.4.8 | |
EMR V3.38.1 | Spark 2.4.8 | |
EMR V3.38.0 | Spark 2.4.8 | Spark が 2.4.8 に更新されました。 Spark 2.4.8 と Spark 3.1.2 の両方がサポートされています。
説明 Spark 3 では、Delta と Remote Shuffle Service はサポートされていません。 Spark 3.x では、Spark SQL の Distinct 計算パフォーマンスが最適化されています。この最適化機能は、集計演算子に複数の count(distinct case ... when ...) メソッドが含まれている場合にトリガーされます。 Adaptive Query Execution (AQE) に必要な統計情報の一部が欠落している場合に返される、配列インデックスの範囲外エラーが修正されました。 特定のシナリオにおける AQE とデータキャッシングに関連するエラーが修正されました。
|
EMR V3.37.0 | Spark 2.4.7 | Spark と Delta Lake の非互換性の問題が修正されました。 |
EMR V3.36.1 | Spark 2.4.7 | |
EMR V3.35.0 | Spark 2.4.7 | - 適応実行が有効にならない問題が修正されました。
- Spark と Hive で統計集計関数の使用方法が異なる問題が修正されました。
- Spark が CHAR 型の有効なデータを読み取れない問題が修正されました。
|
EMR V3.34.0 | Spark 2.4.7 | いくつかのデフォルト設定が最適化されました。 パフォーマンスが最適化されました。ウィンドウベースの top-k クエリをプッシュダウンできます。 CSV または JSON 形式の Hive テーブルとのデータの読み書き機能が強化されました。 ANALYZE ステートメントでテーブルのすべての列名を省略できます。 クリックで LDAP 認証を有効または無効にできます。 Spark Beeline が使いやすくなりました。
|
EMR V3.33.0 | Spark 2.4.7 | - Spark が 2.4.7 に更新されました。
- jQuery が 3.5.1 に更新されました。
- Spark は Hive と互換性があり、テーブルとパーティションのサイズを自動的に更新します。
- Spark のメタデータとジョブ実行情報を DataWorks に送信できます。
|
EMR V3.32.0 | Spark 2.4.5 | JindoTable のデータ収集機能を有効または無効にできます。 |
EMR V3.30.0 | Spark 2.4.5 | - Alibaba Cloud Data Lake Formation (DLF) からのメタデータがサポートされています。
- Has の依存関係が 2.0.1 に更新されました。
- Streaming SQL のバッククォート (`) によって発生する問題が修正されました。
- Delta の JAR パッケージが削除されました。Delta は個別にデプロイされます。
- ログは HDFS ディレクトリに保存されます。
|
EMR V3.29.0 | Spark 2.4.5 | Spark が 2.4.5.2.0 に更新されました。 サードパーティのメタストアがサポートされています。 datalake metastore-client パラメーターが追加されました。
|
EMR V3.28.0 | Spark 2.4.5 | - Spark が 2.4.5 に更新されました。
- Spark は DataFactory の Streaming SQL スクリプトと互換性があります。
- Delta 0.6.0 がサポートされています。
|
EMR V3.27.0 | Spark 2.4.3 | - キューブで日付型のパーティションフィールドがサポートされています。
- spark-submit スクリプトのスタックの深さが増加しました。
|
EMR V3.25.0 | Spark 2.4.3 | spark.sql.extensions などの Delta 関連のパラメーターを EMR コンソールで設定できます。- InputFormat の手動設定を回避するために、Hive を使用して Delta テーブルからデータを読み取ることができます。
- ALTER TABLE SET TBLPROPERTIES および UNSET TBLPROPERTIES ステートメントがサポートされています。
|
EMR V3.24.0 | Spark 2.4.3 | - Delta 関連のパラメーターがサポートされています。
- Spark プラグインを Ranger で設定できます。
- JindoCube が 0.3.0 に更新されました。
|
EMR V3.23.0 | Spark 2.4.3 | - 特定のケースで IsolatedClassLoader がクラスをロードできない問題を修正するために、Spark SQL Thrift Server のコードを更新しました。
- 安定性を向上させるために、Spark トランザクションに関連するコードをリファクタリングしました。
- 組み込みの Hive をバージョン 2.3 にアップグレードした後、最適化された行指向カラムナー (ORC) ファイルを読み書きできない問題を修正しました。
- MERGE INTO 構文をサポートします。
- SCAN および STREAM 構文をサポートします。
- Structured Streaming Kafka シンクの Exactly-Once Semantics (EOS) をサポートします。
- Delta をバージョン 0.4.0 にアップグレードしました。
|
EMR V3.22.0 | Spark 2.4.3 | - リレーショナルキャッシュ
事前計算によってデータクエリを高速化するために、リレーショナルキャッシュの使用をサポートします。データを事前計算するためにリレーショナルキャッシュを作成できます。データクエリの際に、Spark Optimizer は適切なリレーショナルキャッシュを自動的に検出し、SQL 実行プランを最適化し、リレーショナルキャッシュに基づいてデータ計算を続行します。これにより、データクエリが高速化されます。たとえば、リレーショナルキャッシュを使用して、多次元オンライン分析処理 (MOLAP) を実装したり、データレポートを生成したり、データダッシュボードを作成したり、クラスター間でデータを同期したりできます。 - DDL を使用して CACHE、UNCACHE、ALTER、SHOW などの操作を実行することをサポートします。リレーショナルキャッシュは、Spark のすべてのデータソースとデータ形式をサポートします。
- REFRESH コマンドを使用して、キャッシュを自動的に更新するか、手動で更新することをサポートします。指定されたパーティションに基づく増分キャッシュをサポートします。
- リレーショナルキャッシュに基づいて SQL 実行プランを最適化することをサポートします。
- Streaming SQL
- Stream Query Writer のパラメーター設定を正規化しました。
- Kafka データテーブルのスキーマ互換性チェックを最適化しました。
- スキーマのない Kafka データテーブルの Schema Registry にスキーマを自動的に登録することをサポートします。
- Kafka スキーマに互換性がない場合に記録されるログ情報を最適化しました。
- クエリ結果が Kafka データテーブルに書き込まれるときに列名を明示的に指定する必要があるという制限を削除しました。
- ストリーミング SQL クエリが Kafka および LogHub データソースのみをサポートするという制限を削除しました。
- Delta
Delta コンポーネントを追加しました。Spark を使用して Delta データソースを作成し、ストリーミングデータの書き込み、トランザクションの読み取りと書き込み、データ検証、データのバックトラッキングを実行できます。詳細については、Delta の詳細をご参照ください。 - DataFrame API を呼び出して、Delta からデータを読み取ったり、Delta にデータを書き込んだりできます。
- Structured Streaming API を呼び出して、Delta をデータソースまたはシンクとして使用してデータを読み書きできます。
- Delta API を呼び出して、データの更新、削除、マージ、vacuum、最適化を実行できます。
- SQL ステートメントを使用して、Delta テーブルを作成したり、Delta にデータをインポートしたり、Delta テーブルからデータを読み取ったりできます。
- その他
- 主キーと外部キーをサポートします。これは制約機能です。
- サーブレットの競合などの JAR の競合を解決しました。
|