JAR バッチジョブの開発 - E-MapReduce - Alibaba Cloud ドキュメントセンター

ビジネスロジックを含む JAR パッケージをビルドし、アップロードして Spark JAR ジョブを開発できます。このトピックでは、JAR ジョブを開発およびデプロイする方法の 2 つの例を示します。

前提条件

ワークスペースが作成されていること。詳細については、「ワークスペース管理」をご参照ください。
ビジネスアプリケーションが開発され、JAR ファイルにパッケージ化されていること。

手順

ステップ 1: JAR パッケージを開発する

E-MapReduce (EMR) Serverless Spark は、JAR パッケージ用の統合開発環境 (IDE) を提供していません。したがって、ローカルまたはスタンドアロンの開発プラットフォームで Spark アプリケーションコードを記述し、JAR ファイルにパッケージ化する必要があります。このトピックでは、2 つの例を示します。

Maven プロジェクトの pom.xml ファイルに、Spark 関連の依存関係を追加する必要があります。Serverless Spark ランタイム環境にはこれらの依存関係が組み込まれているため、scope を provided に設定できます。これにより、コンパイルおよびテストフェーズ中に依存関係が利用可能であることを保証しつつ、重複したパッケージングやバージョンの競合を防ぐことができます。

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.12</artifactId>
    <version>3.5.2</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.12</artifactId>
    <version>3.5.2</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-hive_2.12</artifactId>
    <version>3.5.2</version>
    <scope>provided</scope>
</dependency>

DLF テーブルのクエリ

public class HiveTableAccess {
    public static void main(String[] args) {
        SparkSession spark = SparkSession.builder()
                .appName("DlfTableAccessExample")
                .enableHiveSupport()
                .getOrCreate();
        spark.sql("SELECT * FROM test_table").show();
        spark.stop();
    }
}

円周率 (π) の近似値を計算する

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SparkSession;

import java.util.ArrayList;
import java.util.List;

/**
 * 円周率の近似値を計算します
 * 使用法: JavaSparkPi [partitions]
 */
public final class JavaSparkPi {

  public static void main(String[] args) throws Exception {
    SparkSession spark = SparkSession
      .builder()
      .appName("JavaSparkPi")
      .getOrCreate();

    JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());

    int slices = (args.length == 1) ? Integer.parseInt(args[0]) : 2;
    int n = 100000 * slices;
    List<Integer> l = new ArrayList<>(n);
    for (int i = 0; i < n; i++) {
      l.add(i);
    }

    JavaRDD<Integer> dataSet = jsc.parallelize(l, slices);

    int count = dataSet.map(integer -> {
      double x = Math.random() * 2 - 1;
      double y = Math.random() * 2 - 1;
      return (x * x + y * y <= 1) ? 1 : 0;
    }).reduce((integer, integer2) -> integer + integer2);

    System.out.println("Pi is roughly " + 4.0 * count / n);

    spark.stop();
  }
}

SparkExample-1.0-SNAPSHOT.jar をクリックして、テスト JAR パッケージをダウンロードします。

ステップ 2: JAR パッケージをアップロードする

ファイルアップロードページに移動します。
1. EMR コンソールにログインします。
2. 左側のナビゲーションウィンドウで、[EMR Serverless] > [Spark] を選択します。
3. [Spark] ページで、対象のワークスペースの名前をクリックします。
4. EMR Serverless Spark ページで、左側のナビゲーションウィンドウにある [ファイル] をクリックします。
[ファイル] ページで、[ファイルのアップロード] をクリックします。
[ファイルのアップロード] ダイアログボックスで、アップロードエリアをクリックしてローカルの JAR パッケージを選択するか、JAR パッケージをエリアにドラッグします。
この例では、SparkExample-1.0-SNAPSHOT.jar パッケージがアップロードされます。