Versi EMR | Versi Spark | Fitur lanjutan |
EMR V3.51.0 | Spark 3.4.2 | Spark 3 diperbarui ke 3.4.2. |
EMR V3.50.0 | Spark 3.3.1 | Kerentanan dalam pustaka Commons Text diperbaiki. |
EMR V3.49.0 | Spark 3.3.1 | Konfigurasi terkait jdo dihapus dari file konfigurasi hive-site.xml. |
EMR V3.46.1 | Spark 3.3.1 | Secara default, OSS-HDFS digunakan untuk menyimpan data Spark History Server. OSS atau OSS-HDFS digunakan untuk menyimpan data Spark3 Native Engine.
|
EMR V3.44.0 | Spark 3.3.1 | Spark diperbarui ke 3.3.1. |
EMR V3.43.0 | Spark 3.3.0 | |
EMR V3.40.0 | Spark 3.2.1 | Spark diperbarui ke 3.2.1. |
EMR V3.39.1 | Spark 2.4.8 | |
EMR V3.38.1 | Spark 2.4.8 | |
EMR V3.38.0 | Spark 2.4.8 | Spark diperbarui ke 2.4.8. Baik Spark 2.4.8 maupun Spark 3.1.2 didukung.
null Delta dan Remote Shuffle Service tidak didukung di Spark 3. Dalam Spark 3.x, kinerja komputasi Distinct dioptimalkan untuk Spark SQL. Fitur optimasi dipicu jika operator agregat berisi beberapa metode count(distinct case ... when ...). Kesalahan array-index out of bounds yang dikembalikan ketika beberapa statistik yang diperlukan untuk Adaptive Query Execution (AQE) hilang telah diperbaiki. Kesalahan terkait AQE dan caching data dalam skenario tertentu telah diperbaiki.
|
EMR V3.37.0 | Spark 2.4.7 | Masalah ketidaksesuaian antara Spark dan Delta Lake telah diperbaiki. |
EMR V3.36.1 | Spark 2.4.7 | Dalam konsol EMR, nama parameter pada tab spark-defaults dari tab Configure untuk layanan Spark telah dioptimalkan. Kinerja pengumpulan log dioptimalkan. Algoritma kompresi data Zstandard didukung.
|
EMR V3.35.0 | Spark 2.4.7 | - Masalah bahwa eksekusi adaptif tidak berlaku dalam beberapa skenario telah diperbaiki.
- Masalah bahwa fungsi agregat statistik digunakan dengan cara berbeda di Spark dan Hive telah diperbaiki.
- Masalah bahwa Spark tidak dapat membaca data valid tipe CHAR dari tabel ORC Hive telah diperbaiki.
|
EMR V3.34.0 | Spark 2.4.7 | Beberapa konfigurasi default dioptimalkan. Kinerja dioptimalkan. Permintaan top-k berbasis jendela dapat didorong ke bawah. Kemampuan membaca data dari dan menulis data ke tabel Hive dalam format CSV atau JSON ditingkatkan. Semua nama kolom tabel dapat dihilangkan dalam pernyataan ANALYZE. Otentikasi LDAP dapat diaktifkan atau dinonaktifkan dengan satu klik. Spark Beeline lebih mudah digunakan.
|
EMR V3.33.0 | Spark 2.4.7 | - Spark diperbarui ke 2.4.7.
- jQuery diperbarui ke 3.5.1.
- Spark kompatibel dengan Hive untuk memperbarui ukuran tabel dan partisi secara otomatis.
- Metadata Spark dan informasi status pekerjaan dapat dikirim ke DataWorks.
|
EMR V3.32.0 | Spark 2.4.5 | Fitur pengumpulan data JindoTable dapat diaktifkan atau dinonaktifkan. |
EMR V3.30.0 | Spark 2.4.5 | - Metadata dari Alibaba Cloud Data Lake Formation (DLF) didukung.
- Has dependencies diperbarui ke 2.0.1.
- Masalah yang disebabkan oleh backticks (`) dalam Streaming SQL telah diperbaiki.
- Paket JAR Delta dihapus. Delta diterapkan secara terpisah.
- Log disimpan dalam direktori HDFS.
|
EMR V3.29.0 | Spark 2.4.5 | Spark diperbarui ke 2.4.5.2.0. Metastore pihak ketiga didukung. Parameter datalake metastore-client ditambahkan.
|
EMR V3.28.0 | Spark 2.4.5 |
- Spark diperbarui ke 2.4.5.
- Spark kompatibel dengan skrip Streaming SQL DataFactory.
- Delta 0.6.0 didukung.
|
EMR V3.27.0 | Spark 2.4.3 | - Bidang partisi bertipe tanggal didukung dalam cube.
- Kedalaman stack dalam skrip spark-submit ditingkatkan.
|
EMR V3.25.0 | Spark 2.4.3 | - Parameter terkait Delta, seperti
spark.sql.extensions, dapat dikonfigurasi di konsol EMR. - Data dari tabel Delta dapat dibaca menggunakan Hive untuk menghindari konfigurasi manual InputFormat.
- Pernyataan ALTER TABLE SET TBLPROPERTIES dan UNSET TBLPROPERTIES didukung.
|
EMR V3.24.0 | Spark 2.4.3 | - Parameter terkait Delta didukung.
- Plugin Spark dapat dikonfigurasi di Ranger.
- JindoCube diperbarui ke versi 0.3.0.
|
EMR V3.23.0 | Spark 2.4.3 | - Kode untuk Spark SQL Thrift Server diperbarui untuk memperbaiki masalah di mana IsolatedClassLoader tidak dapat memuat kelas dalam beberapa kasus.
- Kode terkait transaksi Spark direfaktor untuk meningkatkan stabilitas.
- Masalah di mana file ORC (Optimized Row Columnar) tidak dapat dibaca atau ditulis setelah Hive bawaan ditingkatkan ke versi 2.3 telah diperbaiki.
- Menambahkan dukungan untuk sintaks MERGE INTO.
- Menambahkan dukungan untuk sintaks SCAN dan STREAM.
- Menambahkan dukungan untuk semantik exactly-once (EOS) untuk Structured Streaming Kafka sink.
- Delta ditingkatkan ke versi 0.4.0.
|
EMR V3.22.0 | Spark 2.4.3 | - Relational cache
Menambahkan dukungan penggunaan relational cache untuk mempercepat query data melalui pre-komputasi. Anda dapat membuat relational cache untuk pre-komputasi data. Selama query data, Spark Optimizer secara otomatis mendeteksi relational cache yang sesuai, mengoptimalkan rencana eksekusi SQL, dan melanjutkan komputasi data berdasarkan relational cache. Ini mempercepat query data. Sebagai contoh, Anda dapat menggunakan relational cache untuk menerapkan multidimensional online analytical processing (MOLAP), menghasilkan laporan data, membuat dashboard data, dan menyinkronkan data di seluruh kluster. - Menambahkan dukungan operasi DDL seperti CACHE, UNCACHE, ALTER, dan SHOW. Relational cache mendukung semua sumber data dan format data Spark.
- Menambahkan dukungan pembaruan cache secara otomatis atau menggunakan perintah REFRESH. Mendukung caching inkremental berdasarkan partisi tertentu.
- Menambahkan dukungan optimasi rencana eksekusi SQL berdasarkan relational cache.
- Streaming SQL
- Normalisasi pengaturan parameter Stream Query Writer.
- Mengoptimalkan pemeriksaan kompatibilitas skema tabel data Kafka.
- Menambahkan dukungan pendaftaran otomatis skema dengan Schema Registry untuk tabel data Kafka yang tidak memiliki skema.
- Mengoptimalkan informasi log yang dicatat ketika skema Kafka tidak kompatibel.
- Memperbaiki masalah di mana nama kolom harus ditentukan secara eksplisit ketika hasil query ditulis ke tabel data Kafka.
- Menghapus batasan bahwa query SQL streaming hanya mendukung sumber data Kafka dan LogHub.
- Delta
Menambahkan komponen Delta. Anda dapat menggunakan Spark untuk membuat sumber data Delta untuk melakukan penulisan data streaming, pembacaan dan penulisan transaksional, verifikasi data, dan pelacakan balik data. Untuk informasi lebih lanjut, lihat Detail Delta. - Anda dapat memanggil DataFrame API untuk membaca data dari atau menulis data ke Delta.
- Anda dapat memanggil Structured Streaming API untuk membaca atau menulis data menggunakan Delta sebagai sumber data atau sink.
- Anda dapat memanggil Delta API untuk memperbarui, menghapus, menggabungkan, membersihkan, dan mengoptimalkan data.
- Anda dapat menggunakan pernyataan SQL untuk membuat tabel Delta, mengimpor data ke Delta, dan membaca data dari tabel Delta.
- Lainnya
- Menambahkan dukungan untuk primary key dan foreign key. Ini adalah fitur kendala.
- Memperbaiki konflik JAR seperti konflik servlet.
|