DataWorks の Lindorm Spark SQL ノードを使用すると、Lindorm Spark SQL タスクを開発し、定期的にスケジュールできます。 このトピックでは、Lindorm Spark SQL ノードを使用してタスクを開発する主なプロセスについて説明します。
背景情報
Lindorm は、クラウドネイティブアーキテクチャ上に構築された分散コンピューティングサービスです。 コミュニティ版のコンピューティングモデルをサポートし、Spark インターフェイスと互換性があり、Lindorm ストレージエンジンと深く統合されています。 基盤となるデータストレージの特徴とインデックス機能を利用することで、分散ジョブを効率的に完了します。 大量データ処理、インタラクティブ分析、機械学習、グラフコンピューティングなどのシナリオに最適です。
前提条件
-
(オプション、RAM ユーザーに必須) タスク開発を実行する RAM ユーザーをターゲットワークスペースに追加し、Development または スペース管理者 ロール (広範な権限のため、割り当てには注意が必要です) を付与する必要があります。 メンバーの追加に関する詳細については、「ワークスペースへのメンバーの追加」をご参照ください。
説明Alibaba Cloud アカウント (root ユーザー) を使用する場合は、このステップを無視してください。
-
Lindorm インスタンスが作成され、DataWorks ワークスペースに関連付けられています。 詳細については、「Lindorm 計算リソースの関連付け」をご参照ください。
Lindorm Spark SQL ノードの作成
ノードの作成手順については、「Lindorm Spark SQL ノードの作成」をご参照ください。
Lindorm Spark SQL ノードの開発
SQL エディターでタスクコードを記述する際、${variable_name} フォーマットで変数を定義し、ノード編集ページの右側にある Run Configuration または Scheduling Settings ペインでそれらに値を割り当てることができます。以下に例を示します。
CREATE TABLE IF NOT EXISTS lindorm_table_job (
id INT,
name STRING,
data STRING
)
USING parquet
PARTITIONED BY (partition_date DATE);
INSERT OVERWRITE TABLE lindorm_table_job PARTITION (partition_date='${var}')
VALUES (1, 'Alice', 'Sample data 1'), (2, 'Bob', 'Sample data 2');
この例では、変数パラメーター ${var} を 2025-04-25 に設定できます。 このパラメーターを設定すると、lindorm_table_job テーブルの特定のパーティションにデータが挿入され、スケジューリングシナリオでの動的パラメーターの受け渡しが可能になります。 スケジューリングパラメーターの詳細については、「スケジューリングパラメーターのソースと式」をご参照ください。
Lindorm Spark SQL の操作に関する詳細については、「SQL リファレンス」をご参照ください。
Lindorm Spark SQL ノードのデバッグ
-
デバッグプロパティを設定します。
ノードの右側にあるRun Configurationペインで、Compute Resource、Lindorm Resource Group、およびResource Groupを設定します。パラメーターは次のとおりです。
パラメーター
説明
Compute Resource
関連付けた Lindorm 計算リソースを選択します。
Lindorm Resource Group
Lindorm 計算リソースを関連付けたときに指定した Lindorm リソースグループを選択します。
Resource Group
Lindorm Spark 計算リソースを関連付けたときに接続性テストに合格したリソースグループを選択します。
スクリプトパラメーター
ノードのコンテンツを設定する際、変数は
${parameter_name}というフォーマットで定義します。Script Parameters で、Parameter name と Parameter Value を設定します。タスクが実行されると、変数は実際の値に動的に置き換えられます。詳細については、「スケジューリングパラメーターのソースと式」をご参照ください。Spark parameter
Spark プログラムのランタイムパラメーターです。 Spark プロパティのその他の設定については、「ジョブのパラメーター設定」をご参照ください。
-
ノードをデバッグして実行します。
ノードタスクを実行するには、Save をクリックし、次に Run をクリックします。
次のステップ
-
ノードスケジューリングの設定: プロジェクトディレクトリ内のノードを定期的にスケジュールして実行する必要がある場合は、ノードの右側にあるScheduling Settings ペイン内のScheduling Policyで、関連するスケジューリングプロパティを設定します。
-
ノードのデプロイ:タスクを本番環境にデプロイして実行する必要がある場合は、ページの
アイコンをクリックしてデプロイプロセスを開始し、タスクを本番環境にデプロイします。 プロジェクトディレクトリ内のノードは、本番環境にデプロイされた後にのみ定期的にスケジュールされます。 -
データマップ (Lindorm テーブルデータ):データマップに移動して、Lindorm のメタデータ情報を収集できます。