Lindorm Spark SQL ノード、Lindorm Spark SQL - DataWorks - Alibaba Cloud ドキュメントセンター

DataWorks の Lindorm Spark SQL ノードを使用すると、Lindorm Spark SQL タスクを開発し、定期的にスケジュールできます。このトピックでは、Lindorm Spark SQL ノードを使用してタスクを開発する主なプロセスについて説明します。

背景情報

Lindorm は、クラウドネイティブアーキテクチャ上に構築された分散コンピューティングサービスです。コミュニティ版のコンピューティングモデルをサポートし、Spark インターフェイスと互換性があり、Lindorm ストレージエンジンと深く統合されています。基盤となるデータストレージの特徴とインデックス機能を利用することで、分散ジョブを効率的に完了します。大量データ処理、インタラクティブ分析、機械学習、グラフコンピューティングなどのシナリオに最適です。

前提条件

(オプション、RAM ユーザーに必須) タスク開発を実行する RAM ユーザーをターゲットワークスペースに追加し、Development または スペース管理者 ロール (広範な権限のため、割り当てには注意が必要です) を付与する必要があります。メンバーの追加に関する詳細については、「ワークスペースへのメンバーの追加」をご参照ください。

説明
Alibaba Cloud アカウント (root ユーザー) を使用する場合は、このステップを無視してください。
Lindorm インスタンスが作成され、DataWorks ワークスペースに関連付けられています。詳細については、「Lindorm 計算リソースの関連付け」をご参照ください。

Lindorm Spark SQL ノードの作成

ノードの作成手順については、「Lindorm Spark SQL ノードの作成」をご参照ください。

Lindorm Spark SQL ノードの開発

SQL エディターでタスクコードを記述する際、${variable_name} フォーマットで変数を定義し、ノード編集ページの右側にある Run Configuration または Scheduling Settings ペインでそれらに値を割り当てることができます。以下に例を示します。

CREATE TABLE IF NOT EXISTS lindorm_table_job (
  id INT,
  name STRING,
  data STRING
)
USING parquet
PARTITIONED BY (partition_date DATE);

INSERT OVERWRITE TABLE lindorm_table_job PARTITION (partition_date='${var}')
VALUES (1, 'Alice', 'Sample data 1'), (2, 'Bob', 'Sample data 2');

説明

この例では、変数パラメーター ${var} を 2025-04-25 に設定できます。このパラメーターを設定すると、lindorm_table_job テーブルの特定のパーティションにデータが挿入され、スケジューリングシナリオでの動的パラメーターの受け渡しが可能になります。スケジューリングパラメーターの詳細については、「スケジューリングパラメーターのソースと式」をご参照ください。

Lindorm Spark SQL の操作に関する詳細については、「SQL リファレンス」をご参照ください。

Lindorm Spark SQL ノードのデバッグ

デバッグプロパティを設定します。

ノードの右側にあるRun Configurationペインで、Compute Resource、Lindorm Resource Group、およびResource Groupを設定します。パラメーターは次のとおりです。

パラメーター	説明
Compute Resource	関連付けた Lindorm 計算リソースを選択します。
Lindorm Resource Group	Lindorm 計算リソースを関連付けたときに指定した Lindorm リソースグループを選択します。
Resource Group	Lindorm Spark 計算リソースを関連付けたときに接続性テストに合格したリソースグループを選択します。
スクリプトパラメーター	ノードのコンテンツを設定する際、変数は `${parameter_name}` というフォーマットで定義します。Script Parameters で、Parameter name と Parameter Value を設定します。タスクが実行されると、変数は実際の値に動的に置き換えられます。詳細については、「スケジューリングパラメーターのソースと式」をご参照ください。
Spark parameter	Spark プログラムのランタイムパラメーターです。 Spark プロパティのその他の設定については、「ジョブのパラメーター設定」をご参照ください。

ノードをデバッグして実行します。

ノードタスクを実行するには、Save をクリックし、次に Run をクリックします。

次のステップ

ノードスケジューリングの設定: プロジェクトディレクトリ内のノードを定期的にスケジュールして実行する必要がある場合は、ノードの右側にあるScheduling Settings ペイン内のScheduling Policyで、関連するスケジューリングプロパティを設定します。
ノードのデプロイ：タスクを本番環境にデプロイして実行する必要がある場合は、ページのアイコンをクリックしてデプロイプロセスを開始し、タスクを本番環境にデプロイします。プロジェクトディレクトリ内のノードは、本番環境にデプロイされた後にのみ定期的にスケジュールされます。
データマップ (Lindorm テーブルデータ)：データマップに移動して、Lindorm のメタデータ情報を収集できます。