Peningkatan Spark di Seluruh Versi EMR - E-MapReduce

Alibaba Cloud E-MapReduce (EMR) beroperasi pada instance Elastic Compute Service (ECS) dan menyediakan fitur lanjutan di atas open source Apache Hadoop dan Apache Spark. Topik ini menjelaskan fitur lanjutan dari Spark di EMR.

Informasi latar belakang

Komponen open source digunakan dalam EMR. Versi baru EMR dirilis bersamaan dengan pembaruan komponen open source. EMR menyediakan lingkungan penyebaran yang dioptimalkan di Alibaba Cloud untuk komponen open source tersebut.

Fitur lanjutan

Tabel berikut menguraikan fitur lanjutan dari Spark di EMR.

Seri EMR V5.X

Versi EMR	Versi Spark	Fitur lanjutan
EMR V5.17.0	Spark 3.4.2	Spark 3 diperbarui ke 3.4.2.
EMR V5.16.0	Spark 3.3.1	Kerentanan dalam pustaka Commons Text diperbaiki.
EMR V5.15.1	Spark 3.3.1	Konfigurasi terkait `jdo` dihapus dari file konfigurasi hive-site.xml.
EMR V5.12.1	Spark 3.3.1	Secara default, OSS-HDFS digunakan untuk menyimpan data Spark History Server. OSS atau OSS-HDFS digunakan untuk menyimpan data Spark3 Native Engine.
EMR V5.10.0	Spark 3.3.1	Spark diperbarui ke 3.3.1.
EMR V5.9.0	Spark 3.3.0	Spark diperbarui ke 3.3. Otentikasi Kerberos didukung.
EMR V5.8.0	Spark 3.2.1	Otentikasi LDAP dapat diaktifkan dengan satu klik.
EMR V5.6.0	Spark 3.2.1	Spark diperbarui ke 3.2.1.
EMR V5.5.0	Spark 3.2.0	Ekspresi IF dapat digunakan dalam fungsi COUNT DISTINCT, dan sintaks CASE WHEN untuk fungsi COUNT DISTINCT dioptimalkan. Untuk menggunakan fitur ini, atur spark.sql.optimizer.rewriteConditionalDistinctAggregates menjadi true. Pengalihan dari Shuffle Hash Join ke Sort Merge Join didukung. Untuk menggunakan fitur ini, atur spark.sql.join.preferSortMergeJoin menjadi false dan atur spark.sql.join.enableShuffledHashJoinFallback menjadi true. Penggabungan otomatis file kecil dalam partisi non-dinamis didukung. Untuk menggunakan fitur ini, atur spark.sql.adaptive.merge.output.small.files.enabled menjadi true. Konkurensi dalam skenario di mana klausa GROUPING SETS atau fungsi DISTINCT digunakan dapat disesuaikan secara otomatis. Untuk menggunakan fitur ini, atur spark.sql.execution.optimizeExpand menjadi true. Hive on Spark dioptimalkan. Sintaks fitur time travel didukung. Spark diadaptasikan untuk JindoSDK.
EMR V5.4.0	Spark 3.1.2	Spark diperbarui ke 3.1.2. Dalam Spark 3.x, kinerja komputasi Distinct dioptimalkan untuk Spark SQL. Fitur optimasi dipicu jika operator agregat berisi beberapa metode `count(distinct case ... when ...)`. Kesalahan array-index out of bounds yang dikembalikan ketika beberapa statistik yang diperlukan untuk Adaptive Query Execution (AQE) hilang telah diperbaiki. Kesalahan terkait AQE dan caching data dalam skenario tertentu telah diperbaiki.
EMR V5.3.0	Spark 3.1.1	Masalah ketidaksesuaian antara Spark dan Delta Lake telah diperbaiki.
EMR V5.2.1	Spark 3.1.1	null Dalam EMR V5.2.1, Spark (3.1.1) dan Kudu (1.11.1) tidak kompatibel satu sama lain. Delta Lake dan Hudi didukung. Remote Shuffle Service didukung. Livy didukung. Dalam konsol EMR, nama parameter pada tab spark-defaults dari tab Configure untuk layanan Spark telah dioptimalkan. Optimasi berbasis biaya (CBO), pemangkasan partisi dinamis, dan fitur Z-order dioptimalkan. Kinerja fitur-fitur ini 50% lebih tinggi dibandingkan dengan Spark 3. Log Service, DataHub, dan Message Queue for Apache RocketMQ dapat digunakan sebagai sumber data.

Seri EMR V4.X

Versi EMR	Versi Spark	Fitur lanjutan
EMR V4.10.0	Spark 2.4.8	Spark diperbarui ke 2.4.8. Masalah bahwa eksekusi adaptif tidak berlaku dalam beberapa skenario telah diperbaiki. Masalah bahwa fungsi agregat statistik digunakan dengan cara berbeda di Spark dan Hive telah diperbaiki. Masalah bahwa Spark tidak dapat membaca data valid tipe `CHAR` dari tabel ORC Hive telah diperbaiki. Konfigurasi default Thrift Server dioptimalkan. Dalam konsol EMR, nama parameter pada tab spark-defaults dari tab Configure untuk layanan Spark telah dioptimalkan. Hive on Spark dioptimalkan. Kesalahan array-index out of bounds yang dikembalikan ketika beberapa statistik yang diperlukan untuk Adaptive Query Execution (AQE) hilang telah diperbaiki. Kesalahan terkait AQE dan caching data dalam skenario tertentu telah diperbaiki. Log4j Metrics Appender dihapus karena konfigurasinya tidak valid. Kesalahan pointer null yang terjadi saat SparkContext dimulai telah diperbaiki. Algoritma kompresi data Zstandard didukung.
EMR V4.9.0	Spark 2.4.7	Masalah bahwa eksekusi adaptif tidak berlaku dalam beberapa skenario telah diperbaiki. Masalah bahwa fungsi agregat statistik digunakan dengan cara berbeda di Spark dan Hive telah diperbaiki. Masalah bahwa Spark tidak dapat membaca data valid tipe CHAR dari tabel ORC Hive telah diperbaiki.
EMR V4.8.0	Spark 2.4.7	Beberapa konfigurasi default dioptimalkan. Kinerja dioptimalkan. Permintaan top-k berbasis jendela dapat didorong ke bawah. Kemampuan membaca data dari dan menulis data ke tabel Hive dalam format CSV atau JSON ditingkatkan. Semua nama kolom tabel dapat dihilangkan dalam pernyataan ANALYZE. Otentikasi LDAP dapat diaktifkan atau dinonaktifkan dengan satu klik. Spark Beeline lebih mudah digunakan.
EMR V4.6.0	Spark 2.4.7	Spark diperbarui ke 2.4.7. jQuery diperbarui ke 3.5.1. Spark kompatibel dengan Hive untuk memperbarui ukuran tabel dan partisi secara otomatis. Metadata Spark dan informasi status pekerjaan dapat dikirim ke DataWorks.
EMR V4.5.0	Spark 2.4.5	Metadata yang disimpan di Alibaba Cloud DLF didukung.
EMR V4.3.0	Spark 2.4.5	Spark diperbarui ke 2.4.5. Delta Lake terkait diperbarui ke 0.6.0. Masalah bahwa PySpark tidak dapat berjalan dengan benar setelah Ranger Hive diaktifkan telah diperbaiki.

Seri EMR V3.X

Versi EMR	Versi Spark	Fitur lanjutan
EMR V3.51.0	Spark 3.4.2	Spark 3 diperbarui ke 3.4.2.
EMR V3.50.0	Spark 3.3.1	Kerentanan dalam pustaka Commons Text diperbaiki.
EMR V3.49.0	Spark 3.3.1	Konfigurasi terkait `jdo` dihapus dari file konfigurasi hive-site.xml.
EMR V3.46.1	Spark 3.3.1	Secara default, OSS-HDFS digunakan untuk menyimpan data Spark History Server. OSS atau OSS-HDFS digunakan untuk menyimpan data Spark3 Native Engine.
EMR V3.44.0	Spark 3.3.1	Spark diperbarui ke 3.3.1.
EMR V3.43.0	Spark 3.3.0	Spark diperbarui ke 3.3. Otentikasi Kerberos didukung.
EMR V3.40.0	Spark 3.2.1	Spark diperbarui ke 3.2.1.
EMR V3.39.1	Spark 2.4.8	Hive on Spark dioptimalkan. Spark diadaptasikan untuk JindoSDK.
EMR V3.38.1	Spark 2.4.8	Log4j Metrics Appender dihapus karena konfigurasinya tidak valid. Kesalahan pointer null yang terjadi saat SparkContext dimulai telah diperbaiki.
EMR V3.38.0	Spark 2.4.8	Spark diperbarui ke 2.4.8. Baik Spark 2.4.8 maupun Spark 3.1.2 didukung. null Delta dan Remote Shuffle Service tidak didukung di Spark 3. Dalam Spark 3.x, kinerja komputasi Distinct dioptimalkan untuk Spark SQL. Fitur optimasi dipicu jika operator agregat berisi beberapa metode `count(distinct case ... when ...)`. Kesalahan array-index out of bounds yang dikembalikan ketika beberapa statistik yang diperlukan untuk Adaptive Query Execution (AQE) hilang telah diperbaiki. Kesalahan terkait AQE dan caching data dalam skenario tertentu telah diperbaiki.
EMR V3.37.0	Spark 2.4.7	Masalah ketidaksesuaian antara Spark dan Delta Lake telah diperbaiki.
EMR V3.36.1	Spark 2.4.7	Dalam konsol EMR, nama parameter pada tab spark-defaults dari tab Configure untuk layanan Spark telah dioptimalkan. Kinerja pengumpulan log dioptimalkan. Algoritma kompresi data Zstandard didukung.
EMR V3.35.0	Spark 2.4.7	Masalah bahwa eksekusi adaptif tidak berlaku dalam beberapa skenario telah diperbaiki. Masalah bahwa fungsi agregat statistik digunakan dengan cara berbeda di Spark dan Hive telah diperbaiki. Masalah bahwa Spark tidak dapat membaca data valid tipe CHAR dari tabel ORC Hive telah diperbaiki.
EMR V3.34.0	Spark 2.4.7	Beberapa konfigurasi default dioptimalkan. Kinerja dioptimalkan. Permintaan top-k berbasis jendela dapat didorong ke bawah. Kemampuan membaca data dari dan menulis data ke tabel Hive dalam format CSV atau JSON ditingkatkan. Semua nama kolom tabel dapat dihilangkan dalam pernyataan ANALYZE. Otentikasi LDAP dapat diaktifkan atau dinonaktifkan dengan satu klik. Spark Beeline lebih mudah digunakan.
EMR V3.33.0	Spark 2.4.7	Spark diperbarui ke 2.4.7. jQuery diperbarui ke 3.5.1. Spark kompatibel dengan Hive untuk memperbarui ukuran tabel dan partisi secara otomatis. Metadata Spark dan informasi status pekerjaan dapat dikirim ke DataWorks.
EMR V3.32.0	Spark 2.4.5	Fitur pengumpulan data JindoTable dapat diaktifkan atau dinonaktifkan.
EMR V3.30.0	Spark 2.4.5	Metadata dari Alibaba Cloud Data Lake Formation (DLF) didukung. Has dependencies diperbarui ke 2.0.1. Masalah yang disebabkan oleh backticks (`) dalam Streaming SQL telah diperbaiki. Paket JAR Delta dihapus. Delta diterapkan secara terpisah. Log disimpan dalam direktori HDFS.
EMR V3.29.0	Spark 2.4.5	Spark diperbarui ke 2.4.5.2.0. Metastore pihak ketiga didukung. Parameter datalake metastore-client ditambahkan.
EMR V3.28.0	Spark 2.4.5	Spark diperbarui ke 2.4.5. Spark kompatibel dengan skrip Streaming SQL DataFactory. Delta 0.6.0 didukung.
EMR V3.27.0	Spark 2.4.3	Bidang partisi bertipe tanggal didukung dalam cube. Kedalaman stack dalam skrip spark-submit ditingkatkan.
EMR V3.25.0	Spark 2.4.3	Parameter terkait Delta, seperti `spark.sql.extensions`, dapat dikonfigurasi di konsol EMR. Data dari tabel Delta dapat dibaca menggunakan Hive untuk menghindari konfigurasi manual InputFormat. Pernyataan ALTER TABLE SET TBLPROPERTIES dan UNSET TBLPROPERTIES didukung.
EMR V3.24.0	Spark 2.4.3	Parameter terkait Delta didukung. Plugin Spark dapat dikonfigurasi di Ranger. JindoCube diperbarui ke versi 0.3.0.
EMR V3.23.0	Spark 2.4.3	Kode untuk Spark SQL Thrift Server diperbarui untuk memperbaiki masalah di mana IsolatedClassLoader tidak dapat memuat kelas dalam beberapa kasus. Kode terkait transaksi Spark direfaktor untuk meningkatkan stabilitas. Masalah di mana file ORC (Optimized Row Columnar) tidak dapat dibaca atau ditulis setelah Hive bawaan ditingkatkan ke versi 2.3 telah diperbaiki. Menambahkan dukungan untuk sintaks MERGE INTO. Menambahkan dukungan untuk sintaks SCAN dan STREAM. Menambahkan dukungan untuk semantik exactly-once (EOS) untuk Structured Streaming Kafka sink. Delta ditingkatkan ke versi 0.4.0.
EMR V3.22.0	Spark 2.4.3	Relational cache Menambahkan dukungan penggunaan relational cache untuk mempercepat query data melalui pre-komputasi. Anda dapat membuat relational cache untuk pre-komputasi data. Selama query data, Spark Optimizer secara otomatis mendeteksi relational cache yang sesuai, mengoptimalkan rencana eksekusi SQL, dan melanjutkan komputasi data berdasarkan relational cache. Ini mempercepat query data. Sebagai contoh, Anda dapat menggunakan relational cache untuk menerapkan multidimensional online analytical processing (MOLAP), menghasilkan laporan data, membuat dashboard data, dan menyinkronkan data di seluruh kluster. Menambahkan dukungan operasi DDL seperti CACHE, UNCACHE, ALTER, dan SHOW. Relational cache mendukung semua sumber data dan format data Spark. Menambahkan dukungan pembaruan cache secara otomatis atau menggunakan perintah REFRESH. Mendukung caching inkremental berdasarkan partisi tertentu. Menambahkan dukungan optimasi rencana eksekusi SQL berdasarkan relational cache. Streaming SQL Normalisasi pengaturan parameter Stream Query Writer. Mengoptimalkan pemeriksaan kompatibilitas skema tabel data Kafka. Menambahkan dukungan pendaftaran otomatis skema dengan Schema Registry untuk tabel data Kafka yang tidak memiliki skema. Mengoptimalkan informasi log yang dicatat ketika skema Kafka tidak kompatibel. Memperbaiki masalah di mana nama kolom harus ditentukan secara eksplisit ketika hasil query ditulis ke tabel data Kafka. Menghapus batasan bahwa query SQL streaming hanya mendukung sumber data Kafka dan LogHub. Delta Menambahkan komponen Delta. Anda dapat menggunakan Spark untuk membuat sumber data Delta untuk melakukan penulisan data streaming, pembacaan dan penulisan transaksional, verifikasi data, dan pelacakan balik data. Untuk informasi lebih lanjut, lihat Detail Delta. Anda dapat memanggil DataFrame API untuk membaca data dari atau menulis data ke Delta. Anda dapat memanggil Structured Streaming API untuk membaca atau menulis data menggunakan Delta sebagai sumber data atau sink. Anda dapat memanggil Delta API untuk memperbarui, menghapus, menggabungkan, membersihkan, dan mengoptimalkan data. Anda dapat menggunakan pernyataan SQL untuk membuat tabel Delta, mengimpor data ke Delta, dan membaca data dari tabel Delta. Lainnya Menambahkan dukungan untuk primary key dan foreign key. Ini adalah fitur kendala. Memperbaiki konflik JAR seperti konflik servlet.