Lindorm Spark ノード, Lindorm Spark ノード - DataWorks - Alibaba Cloud ドキュメントセンター

DataWorks の Lindorm Spark ノードを使用して、Lindorm Spark ジョブを開発し、定期的にスケジュール設定できます。この Topic では、Lindorm Spark ノードを使用してジョブを開発するための主なワークフローについて説明します。

背景情報

Lindorm は、クラウドネイティブな分散コンピューティングサービスです。オープンソースのコンピューティングモデルをサポートし、Spark API と互換性があり、Lindorm ストレージエンジンの特徴と深く統合されています。基盤となるデータストレージの特徴とインデックス機能を利用することで、Lindorm は分散コンピューティングジョブを効率的に処理します。大規模なデータ処理、インタラクティブ分析、機械学習、グラフコンピューティングなどのユースケースに最適です。

前提条件

(任意) Resource Access Management (RAM) ユーザーを使用している場合は、その RAM ユーザーがワークスペースに追加され、Developer または Workspace Administrator のロールが付与されていることを確認してください。Workspace Administrator ロールには広範な権限があるため、付与には注意が必要です。メンバーの追加方法の詳細については、「メンバーの追加」をご参照ください。
説明
プライマリアカウントを使用している場合は、このステップをスキップできます。
Lindorm インスタンスを作成し、ご利用の DataWorks ワークスペースにバインド済みであること。詳細については、「Lindorm コンピュートエンジンのバインド」をご参照ください。

Lindorm Spark ノードを作成する

手順については、「Lindorm Spark ノードの作成」をご参照ください。

Lindorm Spark ノードの開発

ノードを設定して、Java/Scala ジョブの場合は JAR ファイルを、Python ジョブの場合は .py ファイルを参照できます。

Java と Scala の設定

このセクションでは、SparkPi サンプルプログラムを使用して、DataWorks で Lindorm Spark ノードを設定および使用する方法を説明します。

JAR リソースのアップロード

サンプル JAR ファイルを Lindorm 分散ファイルシステム (LindormDFS) にアップロードし、そのストレージパスをコピーします。このパスは、後でノード設定でファイルを参照するために使用します。

サンプル JAR ファイルを準備します。
spark-examples_2.12-3.3.0.jar パッケージをローカルマシンにダウンロードします。
JAR ファイルを LindormDFS にアップロードします。
1. Lindorm コンソールにログオンし、対応するリージョンの [インスタンスリスト] ページで、作成した Lindorm インスタンスを見つけます。
2. インスタンスの [名前] をクリックして、[インスタンスの詳細] ページに移動します。
3. 左側のナビゲーションウィンドウで、[コンピュートエンジン] をクリックして、[コンピュートエンジン] ページに移動します。
4. [ジョブ管理] タブで [リソースのアップロード] をクリックし、[リソースのアップロード] ページに移動します。
5. 破線のボックスをクリックし、ダウンロードした JAR ファイルを見つけ、[開く] をクリックします。
6. [アップロード] をクリックして、JAR ファイルをアップロードします。
サンプル JAR リソースのストレージパスをコピーします。
［ジョブ管理］タブで、［リソースのアップロード］ボタンの下にアップロードした JAR ファイルを見つけます。リソースファイルの左側にあるアイコンをクリックして、LindormDFS 内のストレージパスをコピーします。

ノードの設定

以下のパラメーターの説明に基づいて、Lindorm Spark ノードを設定します。

言語	パラメーター	説明
Java/Scala	メイン JAR リソース	「JAR リソースのアップロード」ステップでコピーしたサンプル JAR リソースのストレージパスを入力します。
	メインクラス	コンパイルされた JAR ファイル内のジョブのメインクラスです。この例では、メインクラスは `org.apache.spark.examples.SparkPi` です。
	引数	コードに渡す引数を入力します。`${var}` 形式の動的パラメーターを使用できます。
	設定	Spark プログラムの実行時パラメーターを指定します。Spark プロパティの詳細については、「Spark の設定」をご参照ください。説明 Lindorm コンピュートエンジンをバインドする際に、グローバル Spark パラメーターを設定できます。

Python の設定

このセクションでは、円周率の値を計算するサンプルプログラムを使用して、DataWorks で Lindorm Spark ノードを設定および使用する方法を説明します。

Python リソースのアップロード

サンプルの Python リソースファイルを LindormDFS にアップロードし、そのストレージパスをコピーします。このパスは、後でノード設定でファイルを参照するために使用します。

Python リソースファイルを作成します。

次の Python スクリプトを pi.py という名前のローカルファイルとして保存します。

import sys
from random import random
from operator import add

from pyspark.sql import SparkSession

if __name__ == "__main__":
    """
        Usage: pi [partitions]  # 使用方法: pi [パーティション]
    """
    spark = SparkSession\
        .builder\
        .appName("PythonPi")\
        .getOrCreate()

    partitions = int(sys.argv[1]) if len(sys.argv) > 1 else 2
    n = 100000 * partitions

    def f(_: int) -> float:
        x = random() * 2 - 1
        y = random() * 2 - 1
        return 1 if x ** 2 + y ** 2 <= 1 else 0

    count = spark.sparkContext.parallelize(range(1, n + 1), partitions).map(f).reduce(add)
    print("Pi is roughly %f" % (4.0 * count / n)) # Pi のおおよその値は %f です

    spark.stop()

Python リソースファイルを LindormDFS にアップロードします。
1. Lindorm コンソールにログインします。Lindorm コンソールに対応するリージョンの [インスタンス一覧] ページで、作成した Lindorm インスタンスを見つけます。
2. インスタンスの[名前]をクリックして、[インスタンスの詳細]ページに移動します。
3. 左側のナビゲーションウィンドウで、[コンピュートエンジン] をクリックして [コンピュートエンジン] ページに移動します。
4. [ジョブ管理] タブで、[リソースのアップロード] をクリックし、[リソースのアップロード] ページに移動します。
5. 点線のボックスをクリックし、作成した Python リソースファイルを見つけ、[開く] をクリックします。
6. Python リソースファイルをアップロードするには、[アップロード] をクリックします。
サンプル Python リソースファイルのストレージパスをコピーします。
「ジョブ管理」タブで、「リソースのアップロード」ボタンの下にアップロードした Python リソースファイルを見つけます。ファイルの左側にあるアイコンをクリックして、LindormDFS 内のストレージパスをコピーします。

ノードの設定

以下のパラメーターの説明に基づいて、Lindorm Spark ノードを設定します。

言語	パラメーター	説明
Python	メインプログラムパッケージ	「Python リソースのアップロード」ステップでコピーしたサンプル Python リソースファイルのストレージパスを入力します。
	引数	コードに渡す引数を入力します。`${var}` 形式の動的パラメーターを使用できます。
	設定	Spark プログラムの実行時パラメーターを指定します。Spark プロパティの詳細については、「Spark の設定」をご参照ください。

Lindorm Spark ノードの実行とデバッグ

実行時のプロパティを設定します。

ノードの右側のペインで、Run Configuration、計算リソース、Lindorm リソースグループ、および リソースグループ パラメーターを設定します。各パラメーターの説明は次の表のとおりです。

パラメーター	説明
計算リソース	バインドした Lindorm 計算リソースを選択します。
Lindorm リソースグループ	計算リソースをバインドする際に設定した Lindorm リソースグループを選択します。
リソースグループ	計算リソースをバインドする際に接続性テストに合格したリソースグループを選択します。
スクリプトパラメーター	ノード構成中に ${Parameter Name} というフォーマットで変数を定義した場合、[パラメーター名] および [パラメーター値] を [スクリプトパラメーター] セクションで設定する必要があります。これらの変数は、実行時に割り当てられた値に置き換えられます。詳細については、「スケジューリングパラメーターの構成」をご参照ください。

ノードを実行します。
ノードジョブを実行するには、[保存] をクリックしてから [実行] をクリックします。

次のステップ

スケジューリングプロパティを構成する: ノードをスケジュールに従って実行する必要がある場合は、右側の[スケジュール]ペインで[繰り返し]ポリシーを設定し、他のスケジューリングプロパティを設定します。
ノードの公開：ジョブを本番環境で実行する必要がある場合は、アイコンをクリックして公開プロセスを開始し、ジョブを本番環境にデプロイします。ノードは、本番環境に公開された後にのみ、スケジュールに従って実行されます。
データマップ (Lindorm テーブルデータ)：データマップを使用して、Lindorm テーブルからメタデータを収集します。