Celeborn Shuffle 最適化による Spark パフォーマンスの向上 - E-MapReduce

Celeborn は中間データを処理するサービスです。 Celeborn は、ビッグデータコンピューティングエンジンの安定性、柔軟性、およびパフォーマンスを向上させることができます。このトピックでは、Celeborn サービスの使用方法について説明します。

背景情報

現在のシャッフルソリューションには、次の欠点があります。

シャッフル書き込みタスクに大量のデータが存在する場合、データオーバーフローが発生します。これにより、書き込みの増幅が発生します。
シャッフル読み取りタスクには、多数の小さなネットワークパケットが存在します。これにより、接続がリセットされます。
シャッフル読み取りタスクには、多数の小さな I/O 要求とランダム読み取りが存在します。これにより、ディスクと CPU の負荷が高くなります。
何千ものマッパー（M）とレデューサー（N）が使用されている場合、多数の接続が生成され、ジョブの実行が困難になります。接続数は、次の式を使用して計算されます。M × N。
Spark シャッフルサービスは NodeManager で実行されます。シャッフリングに関係するデータ量が非常に大きい場合、NodeManager が再起動されます。これは、YARN ベースのタスクスケジューリングの安定性に影響します。

Celeborn サービスは、シャッフルソリューションを最適化できます。 Celeborn サービスには、次の利点があります。

プル型シャッフルではなくプッシュ型シャッフルを使用することにより、マッパーによって引き起こされるメモリ負荷を軽減します。
I/O 集約をサポートし、シャッフル読み取りタスクの接続数を M × N から N に減らし、ランダム読み取りをシーケンシャル読み取りに変換します。
2 レプリカメカニズムを使用して、フェッチ失敗の確率を減らします。
コンピューティングとストレージの分離をサポートします。シャッフルサービスは、分離されたハードウェア環境にデプロイできます。
Kubernetes 上の Spark を使用する場合、ローカルディスクへの依存を排除します。

次の図は、Celeborn のアーキテクチャを示しています。

前提条件

E-MapReduce（EMR）Data Lake クラスタまたはカスタムクラスタが作成され、クラスタに対して Celeborn サービスが選択されています。クラスタの作成方法の詳細については、クラスタの作成をご参照ください。

制限事項

このトピックは、次の表に示すクラスタにのみ適用されます。

クラスタ	バージョン
Data Lake クラスタ	EMR V3.45.0 以後のマイナーバージョン、および EMR V5.11.0 以後のマイナーバージョン
カスタムクラスタ	EMR V3.45.0 以後のマイナーバージョン、および EMR V5.11.0 以後のマイナーバージョン

手順

Spark パラメータ

パラメータ	説明
spark.shuffle.manager	Celeborn 0.4.x 以降の場合は、値を org.apache.spark.shuffle.celeborn.SparkShuffleManager に設定します。 Celeborn 0.3.x 以前の場合は、値を org.apache.spark.shuffle.celeborn.RssShuffleManager に設定します。
spark.serializer	値を org.apache.spark.serializer.KryoSerializer に設定します。
spark.celeborn.push.replicate.enabled	2 レプリカ機能を有効にするかどうかを指定します。有効な値： true：2 レプリカ機能を有効にします。これはデフォルト値です。 false：2 レプリカ機能を無効にします。
spark.shuffle.service.enabled	このパラメータの値を false に変更します。 Celeborn を使用するには、外部シャッフルサービスを無効にする必要があります。 Celeborn は、Spark の動的割り当て機能の使用には影響しません。説明 spark.shuffle.service.enabled パラメータを true に設定すると、Celeborn は使用されません。 Alibaba Cloud Spark とオープンソース Spark 3.5 は、Celeborn に対応しています。
spark.celeborn.shuffle.writer	Celeborn の書き込みモード。 hash：過剰に多数のパーティションを並列処理すると、大量のメモリが消費されます。これはデフォルト値です。 sort：過剰に多数のパーティションを並列処理すると、一定量のメモリが消費されます。パーティション処理は安定しています。
spark.celeborn.master.endpoints	このパラメータの値を <celeborn-master-ip>:<celeborn-master-port> 形式で指定します。パラメータ： `<celeborn-master-ip>` は、マスターノードのパブリック IP アドレスを指定します。 `<celeborn-master-port>` は、マスターノードのポートを指定します。値を 9097 に設定します。高可用性クラスタを作成する場合は、すべてのマスターノードの IP アドレスを設定することをお勧めします。
spark.sql.adaptive.enabled	Celeborn サービスの適応実行を有効にできます。ローカルシャッフルリーダーを無効にして、高いシャッフルパフォーマンスを確保できます。 spark.sql.adaptive.enabled パラメータを true に、spark.sql.adaptive.localShuffleReader.enabled パラメータを false に、spark.sql.adaptive.skewJoin.enabled パラメータを true に設定する必要があります。
spark.sql.adaptive.localShuffleReader.enabled
spark.sql.adaptive.skewJoin.enabled

ワンクリックで Spark の Celeborn サービスを有効にできます。

EMR V5.11.1 以降のマイナーバージョンのクラスタ、および EMR V3.45.1 以降のマイナーバージョンのクラスタ
Spark サービスページの [ステータス] タブの [サービス概要] セクションで、[enableceleborn] をオンにします。
EMR V5.11.0 および EMR V3.45.0 のクラスタ
Spark サービスページの [ステータス] タブの [コンポーネント] セクションで、SparkThriftServer コンポーネントを見つけ、[アクション] 列のアイコンにポインタを移動し、[enableCeleborn] を選択します。 [enableceleborn] をクリックすると、前の表で説明されている Spark パラメータが自動的に変更され、SparkThriftServer コンポーネントが再起動されます。 spark-defaults.conf および spark-thriftserver.conf 構成ファイルも自動的に変更されます。
- [enableceleborn] をクリックすると、クラスタ内のすべての Spark ジョブで Celeborn サービスが使用されます。
- [disableceleborn] をクリックすると、クラスタ内のすべての Spark ジョブで Celeborn サービスが使用されません。

Celeborn パラメータ

Celeborn サービスページの [構成] タブで、すべての Celeborn パラメータの構成を表示または変更できます。次の表にパラメータを示します。

重要

パラメータの値は、ノードグループによって異なります。

パラメータ	説明	デフォルト値
celeborn.worker.flusher.threads	ハードディスク（HDD）またはソリッドステートディスク（SSD）ディスクにデータが書き込まれるときの、スレッドの数。	HDD のデフォルト値は 1 です。 SSD のデフォルト値は 8 です。
CELEBORN_WORKER_OFFHEAP_MEMORY	ワーカーノードのオフヒープメモリのサイズ。	デフォルト値は、クラスタ設定に基づいて計算されます。
celeborn.application.heartbeat.timeout	アプリケーションのハートビートタイムアウト期間。単位：秒。ハートビートタイムアウト期間が経過すると、アプリケーション関連のリソースがクリアされます。	120s
celeborn.worker.flusher.buffer.size	フラッシュバッファのサイズ。フラッシュバッファのサイズが上限を超えると、フラッシュがトリガーされます。	256K
celeborn.metrics.enabled	モニタリングを有効にするかどうかを指定します。有効な値： true：モニタリングを有効にします。 false：モニタリングを無効にします。	true
CELEBORN_WORKER_MEMORY	コアノードのヒープメモリのサイズ。	1g
CELEBORN_MASTER_MEMORY	マスターノードのヒープメモリのサイズ。	2g

CelebornMaster コンポーネントの再起動

Celeborn サービスページの [ステータス] タブで、CelebornMaster コンポーネントを見つけ、[アクション] 列のアイコンにポインタを移動し、[restart_clean_meta] を選択します。
説明
クラスタが高可用性でないクラスタの場合、CelebornMaster コンポーネントの [アクション] 列の [再起動] をクリックできます。
表示されるダイアログボックスで、[ローリング実行] をオフにし、[実行理由] パラメータを構成して、[OK] をクリックします。
確認メッセージで、[OK] をクリックします。