すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:2024 年 8 月 20 日の EMR Serverless Spark のリリースノート

最終更新日:Jan 11, 2025

このトピックでは、2024 年 8 月 20 日の E-MapReduce (EMR) Serverless Spark のリリースノートについて説明します。

概要

2024 年 8 月 20 日、EMR Serverless Spark の最新バージョンがリリースされました。プラットフォームの改善、エコシステムの統合、パフォーマンスの向上、エンジン機能の強化などが含まれています。

プラットフォームの更新

機能

説明

タスク開発

  • 次のタイプのタスクがサポートされています。

    • SparkSQL

    • アプリケーション (バッチ): Java Archive (JAR)、PySpark、SQL、Spark Submit

    • アプリケーション (ストリーミング): JAR、PySpark

他のエコシステムとの統合

  • EMR Serverless Spark は DataWorks ワークスペースに関連付けることができます。

  • スケジューリングシステム:

    • Apache Airflow オペレーターがサポートされています。EMR Serverless Spark は、オペレーター Apache Airflow livy_operator と互換性があります。

    • DolphinScheduler オペレーターがサポートされています。

  • 外部 Hive Metastore を使用してメタデータを保存できます。

  • API 呼び出し:

    • Spark Thrift Server サービスが提供されており、Java Database Connectivity (JDBC) API 呼び出しをサポートしています。

    • Livy サービスが提供されており、RESTful API 呼び出しをサポートしています。

  • spark_submit コマンドが提供されています。

ノートブック

  • PySpark、Python、Markdown を使用してノートブックを開発できます。

  • データの視覚化がサポートされています。

ワークフロー

  • Spark SQL、Application JAR、PySpark タイプのタスクをスケジュールできます。

  • EMR Serverless Spark を CloudMonitor に接続して、ワークフローとノードの状態を監視し、アラートを生成できます。

  • ワークフローは、類型とグリッドに基づいて管理できます。

タスク履歴

タスクのメモリ使用量と CPU 使用率に関する統計情報を収集できます。

リソース管理

SQL コンピュート、ノートブックコンピュート、ゲートウェイ、Spark Thrift Server、キューを管理できます。

アクセス制御

ワークスペースに対する RAM ユーザーの権限を管理できます。

リソースの監視

  • ワークスペースとキューのディメンションからのコンピュートユニット (CU)、CPU、メモリに関連するメトリックのリアルタイム監視がサポートされています。

  • メトリックは、時間ディメンションから分析およびフィルタリングできます。

エンジンの更新

エンジンバージョン

説明

esr-2.2 (Spark 3.3.1, Scala 2.12)

  • Fusion アクセラレーション:

    • 合計 26 の一般的な Spark オペレーターがサポートされています。詳細については、「Fusion エンジン」トピックのオペレーターセクションをご参照ください。

    • 合計 240 の一般的な Spark 式がサポートされています。詳細については、「Fusion エンジン」トピックのセクションをご参照ください。

    • 合計 12 の基本データ型がサポートされています。詳細については、「Fusion エンジン」トピックのデータ型セクションをご参照ください。

    • Celeborn がサポートされています。

    • Parquet 形式と Paimon 形式のデータを読み取ることができます。

    • サポートされていないオペレーターと式は、Java ランタイム環境で実行できます。

  • Paimon では、追加専用テーブルに対して更新および削除操作を実行できます。

  • Hudi では、TIMELINE_SERVER_BASED でマークされたジョブを終了できない問題が解決されました。

  • ログ取得のパフォーマンスを向上させるために、Spark UI とログの最適化が行われました。

  • JindoSDK が NextArch 6.5.1 に更新され、コミッターの最適化がサポートされています。コミッターの最適化は、Fusion アクセラレーションが無効になっているシナリオにのみ適しています。

  • Matplotlib 画像と pandas 画像がサポートされています。

  • リモートプロシージャコール (RPC) のネットワーク接続再試行メカニズムを使用することで、ネットワークの安定性が向上しました。これにより、すべてのタスクを確実に開始できます。