DataWorks の Lindorm Spark ノードを使用して、Lindorm Spark ジョブを開発し、定期的にスケジュール設定できます。この Topic では、Lindorm Spark ノードを使用してジョブを開発するための主なワークフローについて説明します。
背景情報
Lindorm は、クラウドネイティブな分散コンピューティングサービスです。オープンソースのコンピューティングモデルをサポートし、Spark API と互換性があり、Lindorm ストレージエンジンの特徴と深く統合されています。基盤となるデータストレージの特徴とインデックス機能を利用することで、Lindorm は分散コンピューティングジョブを効率的に処理します。大規模なデータ処理、インタラクティブ分析、機械学習、グラフコンピューティングなどのユースケースに最適です。
前提条件
(任意) Resource Access Management (RAM) ユーザーを使用している場合は、その RAM ユーザーがワークスペースに追加され、Developer または Workspace Administrator のロールが付与されていることを確認してください。Workspace Administrator ロールには広範な権限があるため、付与には注意が必要です。メンバーの追加方法の詳細については、「メンバーの追加」をご参照ください。
説明プライマリアカウントを使用している場合は、このステップをスキップできます。
Lindorm インスタンスを作成し、ご利用の DataWorks ワークスペースにバインド済みであること。詳細については、「Lindorm コンピュートエンジンのバインド」をご参照ください。
Lindorm Spark ノードを作成する
手順については、「Lindorm Spark ノードの作成」をご参照ください。
Lindorm Spark ノードの開発
ノードを設定して、Java/Scala ジョブの場合は JAR ファイルを、Python ジョブの場合は .py ファイルを参照できます。
Lindorm Spark ノードの実行とデバッグ
実行時のプロパティを設定します。
ノードの右側のペインで、Run Configuration、計算リソース、Lindorm リソースグループ、および リソースグループ パラメーターを設定します。各パラメーターの説明は次の表のとおりです。
パラメーター
説明
計算リソース
バインドした Lindorm 計算リソースを選択します。
Lindorm リソースグループ
計算リソースをバインドする際に設定した Lindorm リソースグループを選択します。
リソースグループ
計算リソースをバインドする際に接続性テストに合格したリソースグループを選択します。
スクリプトパラメーター
ノード構成中に ${Parameter Name} というフォーマットで変数を定義した場合、[パラメーター名] および [パラメーター値] を [スクリプトパラメーター] セクションで設定する必要があります。これらの変数は、実行時に割り当てられた値に置き換えられます。詳細については、「スケジューリングパラメーターの構成」をご参照ください。
ノードを実行します。
ノードジョブを実行するには、[保存] をクリックしてから [実行] をクリックします。
次のステップ
スケジューリングプロパティを構成する: ノードをスケジュールに従って実行する必要がある場合は、右側の[スケジュール]ペインで[繰り返し]ポリシーを設定し、他のスケジューリングプロパティを設定します。
ノードの公開:ジョブを本番環境で実行する必要がある場合は、
アイコンをクリックして公開プロセスを開始し、ジョブを本番環境にデプロイします。ノードは、本番環境に公開された後にのみ、スケジュールに従って実行されます。データマップ (Lindorm テーブルデータ):データマップを使用して、Lindorm テーブルからメタデータを収集します。
アイコンをクリックして、LindormDFS 内のストレージパスをコピーします。