すべてのプロダクト
Search
ドキュメントセンター

DataWorks:Lindorm Spark ノード

最終更新日:Feb 05, 2026

DataWorks の Lindorm Spark ノードを使用して、Lindorm Spark ジョブを開発し、定期的にスケジュール設定できます。この Topic では、Lindorm Spark ノードを使用してジョブを開発するための主なワークフローについて説明します。

背景情報

Lindorm は、クラウドネイティブな分散コンピューティングサービスです。オープンソースのコンピューティングモデルをサポートし、Spark API と互換性があり、Lindorm ストレージエンジンの特徴と深く統合されています。基盤となるデータストレージの特徴とインデックス機能を利用することで、Lindorm は分散コンピューティングジョブを効率的に処理します。大規模なデータ処理、インタラクティブ分析、機械学習、グラフコンピューティングなどのユースケースに最適です。

前提条件

  • (任意) Resource Access Management (RAM) ユーザーを使用している場合は、その RAM ユーザーがワークスペースに追加され、Developer または Workspace Administrator のロールが付与されていることを確認してください。Workspace Administrator ロールには広範な権限があるため、付与には注意が必要です。メンバーの追加方法の詳細については、「メンバーの追加」をご参照ください。

    説明

    プライマリアカウントを使用している場合は、このステップをスキップできます。

  • Lindorm インスタンスを作成し、ご利用の DataWorks ワークスペースにバインド済みであること。詳細については、「Lindorm コンピュートエンジンのバインド」をご参照ください。

Lindorm Spark ノードを作成する

手順については、「Lindorm Spark ノードの作成」をご参照ください。

Lindorm Spark ノードの開発

ノードを設定して、Java/Scala ジョブの場合は JAR ファイルを、Python ジョブの場合は .py ファイルを参照できます。

Java と Scala の設定

このセクションでは、SparkPi サンプルプログラムを使用して、DataWorks で Lindorm Spark ノードを設定および使用する方法を説明します。

JAR リソースのアップロード

サンプル JAR ファイルを Lindorm 分散ファイルシステム (LindormDFS) にアップロードし、そのストレージパスをコピーします。このパスは、後でノード設定でファイルを参照するために使用します。

  1. サンプル JAR ファイルを準備します。

    spark-examples_2.12-3.3.0.jar パッケージをローカルマシンにダウンロードします。

  2. JAR ファイルを LindormDFS にアップロードします。

    1. Lindorm コンソールにログオンし、対応するリージョンの [インスタンスリスト] ページで、作成した Lindorm インスタンスを見つけます。

    2. インスタンスの [名前] をクリックして、[インスタンスの詳細] ページに移動します。

    3. 左側のナビゲーションウィンドウで、[コンピュートエンジン] をクリックして、[コンピュートエンジン] ページに移動します。

    4. [ジョブ管理] タブで [リソースのアップロード] をクリックし、[リソースのアップロード] ページに移動します。

    5. 破線のボックスをクリックし、ダウンロードした JAR ファイルを見つけ、[開く] をクリックします。

    6. [アップロード] をクリックして、JAR ファイルをアップロードします。

  3. サンプル JAR リソースのストレージパスをコピーします。

    ジョブ管理]タブで、[リソースのアップロード]ボタンの下にアップロードした JAR ファイルを見つけます。リソースファイルの左側にある image アイコンをクリックして、LindormDFS 内のストレージパスをコピーします。

ノードの設定

以下のパラメーターの説明に基づいて、Lindorm Spark ノードを設定します。

言語

パラメーター

説明

Java/Scala

メイン JAR リソース

JAR リソースのアップロード」ステップでコピーしたサンプル JAR リソースのストレージパスを入力します。

メインクラス

コンパイルされた JAR ファイル内のジョブのメインクラスです。この例では、メインクラスは org.apache.spark.examples.SparkPi です。

引数

コードに渡す引数を入力します。${var} 形式の動的パラメーターを使用できます。

設定

Spark プログラムの実行時パラメーターを指定します。Spark プロパティの詳細については、「Spark の設定」をご参照ください。

説明

Lindorm コンピュートエンジンをバインドする際に、グローバル Spark パラメーターを設定できます。

Python の設定

このセクションでは、円周率の値を計算するサンプルプログラムを使用して、DataWorks で Lindorm Spark ノードを設定および使用する方法を説明します。

Python リソースのアップロード

サンプルの Python リソースファイルを LindormDFS にアップロードし、そのストレージパスをコピーします。このパスは、後でノード設定でファイルを参照するために使用します。

  1. Python リソースファイルを作成します。

    次の Python スクリプトを pi.py という名前のローカルファイルとして保存します。

    import sys
    from random import random
    from operator import add
    
    from pyspark.sql import SparkSession
    
    if __name__ == "__main__":
        """
            Usage: pi [partitions]  # 使用方法: pi [パーティション]
        """
        spark = SparkSession\
            .builder\
            .appName("PythonPi")\
            .getOrCreate()
    
        partitions = int(sys.argv[1]) if len(sys.argv) > 1 else 2
        n = 100000 * partitions
    
        def f(_: int) -> float:
            x = random() * 2 - 1
            y = random() * 2 - 1
            return 1 if x ** 2 + y ** 2 <= 1 else 0
    
        count = spark.sparkContext.parallelize(range(1, n + 1), partitions).map(f).reduce(add)
        print("Pi is roughly %f" % (4.0 * count / n)) # Pi のおおよその値は %f です
    
        spark.stop()
    
  2. Python リソースファイルを LindormDFS にアップロードします。

    1. Lindorm コンソールにログインします。Lindorm コンソール に対応するリージョンの [インスタンス一覧] ページで、作成した Lindorm インスタンスを見つけます。

    2. インスタンスの[名前]をクリックして、[インスタンスの詳細]ページに移動します。

    3. 左側のナビゲーションウィンドウで、[コンピュートエンジン] をクリックして [コンピュートエンジン] ページに移動します。

    4. [ジョブ管理] タブで、[リソースのアップロード] をクリックし、[リソースのアップロード] ページに移動します。

    5. 点線のボックスをクリックし、作成した Python リソースファイルを見つけ、[開く] をクリックします。

    6. Python リソースファイルをアップロードするには、[アップロード] をクリックします。

  3. サンプル Python リソースファイルのストレージパスをコピーします。

    ジョブ管理」タブで、「リソースのアップロード」ボタンの下にアップロードした Python リソースファイルを見つけます。ファイルの左側にある image アイコンをクリックして、LindormDFS 内のストレージパスをコピーします。

ノードの設定

以下のパラメーターの説明に基づいて、Lindorm Spark ノードを設定します。

言語

パラメーター

説明

Python

メインプログラムパッケージ

Python リソースのアップロード」ステップでコピーしたサンプル Python リソースファイルのストレージパスを入力します。

引数

コードに渡す引数を入力します。${var} 形式の動的パラメーターを使用できます。

設定

Spark プログラムの実行時パラメーターを指定します。Spark プロパティの詳細については、「Spark の設定」をご参照ください。

Lindorm Spark ノードの実行とデバッグ

  1. 実行時のプロパティを設定します。

    ノードの右側のペインで、Run Configuration計算リソースLindorm リソースグループ、および リソースグループ パラメーターを設定します。各パラメーターの説明は次の表のとおりです。

    パラメーター

    説明

    計算リソース

    バインドした Lindorm 計算リソースを選択します。

    Lindorm リソースグループ

    計算リソースをバインドする際に設定した Lindorm リソースグループを選択します。

    リソースグループ

    計算リソースをバインドする際に接続性テストに合格したリソースグループを選択します。

    スクリプトパラメーター

    ノード構成中に ${Parameter Name} というフォーマットで変数を定義した場合、[パラメーター名] および [パラメーター値][スクリプトパラメーター] セクションで設定する必要があります。これらの変数は、実行時に割り当てられた値に置き換えられます。詳細については、「スケジューリングパラメーターの構成」をご参照ください。

  2. ノードを実行します。

    ノードジョブを実行するには、[保存] をクリックしてから [実行] をクリックします。

次のステップ

  • スケジューリングプロパティを構成する: ノードをスケジュールに従って実行する必要がある場合は、右側の[スケジュール]ペインで[繰り返し]ポリシーを設定し、他のスケジューリングプロパティを設定します。

  • ノードの公開:ジョブを本番環境で実行する必要がある場合は、image アイコンをクリックして公開プロセスを開始し、ジョブを本番環境にデプロイします。ノードは、本番環境に公開された後にのみ、スケジュールに従って実行されます。

  • データマップ (Lindorm テーブルデータ):データマップを使用して、Lindorm テーブルからメタデータを収集します。