DataWorks では、Lindorm Spark ノードを使用して、Lindorm Spark タスクを開発し、定期的にスケジュールできます。このトピックでは、Lindorm Spark ノードを使用してタスクを開発する方法について説明します。
背景情報
Lindorm は、クラウドネイティブアーキテクチャに基づく分散コンピューティングサービスです。 Community Edition 計算モデルと Apache Spark をサポートし、Lindorm ストレージエンジンの機能と緊密に統合されています。 Lindorm は、基盤となるデータストレージ機能とインデックス機能を使用して、分散ジョブを効率的に完了できます。 Lindorm は、大量データ処理、インタラクティブ分析、機械学習、グラフコンピューティングなど、さまざまなシナリオのコンピューティング要件を満たします。
前提条件
(RAM ユーザーを使用する場合に必要) タスクの開発に使用する RAM ユーザーが、必要なワークスペースに追加され、[開発] ロールまたは [ワークスペース管理者] ロールが割り当てられています。 ワークスペース管理者ロールには広範な権限があるため、必要な場合にのみ RAM ユーザーにこのロールを割り当てることをお勧めします。 ワークスペースにメンバーを追加し、メンバーに権限を付与する方法の詳細については、「ワークスペースメンバーを追加し、ロールを割り当てる」をご参照ください。
説明Alibaba Cloud アカウントを使用する場合は、この前提条件は無視してください。
Lindorm インスタンスが作成され、コンピューティングリソースとして必要なワークスペースに関連付けられています。 詳細については、「Lindorm コンピューティングリソースを追加する」をご参照ください。
Lindorm Spark ノードを作成する
Lindorm Spark ノードの作成方法については、「Lindorm Spark ノードを作成する」をご参照ください。
Lindorm Spark ノードを構成する
Lindorm Spark ノードの構成タブで、言語タイプ (Java、Scala、Python など) に基づいて JAR パッケージまたは .py ファイルを使用してノードを構成できます。
Lindorm Spark ノードをデバッグする
Lindorm Spark ノードのデバッグプロパティを構成します。
Lindorm Spark ノードの構成タブの右側のナビゲーションウィンドウにある [デバッグ構成] タブで、次の表で説明されているパラメーターを構成します。
パラメーター
説明
コンピューティングリソース
ワークスペースに関連付ける Lindorm コンピューティングリソースを選択します。
Lindorm リソースグループ
Lindorm コンピューティングリソースをワークスペースに関連付ける際に指定した Lindorm リソースグループを選択します。
リソースグループ
Lindorm コンピューティングリソースをワークスペースに関連付ける際に接続テストに合格したリソースグループを選択します。
スクリプトパラメーター
Lindorm Spark ノードを構成する際に ${パラメーター名} 形式で変数を定義した場合は、[スクリプトパラメーター] セクションで [パラメーター名] パラメーターと [パラメーター値] パラメーターを構成する必要があります。 Lindorm Spark ノードが実行されると、構成したパラメーターは動的に実際の値に置き換えられます。 詳細については、「スケジューリングパラメーターのサポートされている形式」をご参照ください。
Lindorm Spark ノードをデバッグして実行します。
ノードを [保存] し、[実行] します。
次のステップ
ノードのスケジューリング注:スケジューリングポリシー: ワークスペースディレクトリ内のノードをシステムで定期的にスケジュールするには、ノードの構成タブの右側のナビゲーションウィンドウで をクリックし、 セクションでノードのスケジューリングプロパティを構成します。
ノードのデプロイ: 実行のためにノードを本番環境にデプロイするには、ノードの構成タブの上部にあるツールバーの
アイコンをクリックして、デプロイプロセスを開始します。 ワークスペースディレクトリ内のノードは、本番環境にデプロイされている場合にのみ定期的にスケジュールできます。
アイコンをクリックして、LindormDFS 内の JAR パッケージのストレージパスをコピーします。