DataWorks を使用して Lindorm タスクを開発および管理するには、まず Lindorm インスタンスを DataWorks Lindorm 計算リソースとしてアタッチする必要があります。インスタンスがアタッチされると、DataWorks で計算リソースを使用して、データ同期、開発、およびその他の操作を行うことができます。
背景情報
Lindorm は、クラウドネイティブアーキテクチャ上に構築された分散コンピューティングサービスです。コミュニティ版のコンピューティングモデルをサポートし、Spark インターフェイスと互換性があり、Lindorm ストレージエンジンと深く統合されています。Lindorm は、基盤となるデータストレージの機能とインデックスを使用して、分散ジョブを効率的に実行します。大規模なデータ処理、インタラクティブ分析、機械学習、グラフコンピューティングなどのシナリオに最適です。
前提条件
- 重要
[Data Studio (新バージョン) を使用] するワークスペースのみがサポートされます。
Lindorm インスタンスが作成されており、次の条件を満たしている。
Lindorm インスタンスで コンピュートエンジンが有効になっている。
Lindorm インスタンスと DataWorks ワークスペースが同じリージョンにあること。
サーバーレスリソースグループが作成され、ターゲットの DataWorks ワークスペースにアタッチされている。
Lindorm 計算リソースのアタッチ
制限事項
リージョン: 中国 (杭州)、中国 (上海)、中国 (北京)、中国 (深圳)、中国 (成都)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)。
権限:
DataWorks で Lindorm タスクを実行するためにサポートされているのは、DataWorks サーバーレスリソースグループのみです。
O&M または Workspace Administrator ロールを持つワークスペースメンバー、または AliyunDataWorksFullAccess 権限を持つメンバーのみが計算リソースを作成できます。メンバーのロールの表示または権限の付与方法の詳細については、「ワークスペースメンバーの追加とロールおよび権限の管理」をご参照ください。
計算リソースページに移動
DataWorks ワークスペースページに移動します。上部のナビゲーションバーで、ターゲットリージョンに切り替え、ターゲットワークスペースを見つけます。ワークスペース名をクリックするか、[操作] 列の [詳細] をクリックして、ワークスペース詳細ページに移動します。
左側のナビゲーションウィンドウで、[計算リソース] をクリックします。表示されたページで、計算リソースタイプを選択します。
Lindorm 計算リソースのアタッチ
計算リソースページで、次のパラメーターを使用して Lindorm 計算リソースを構成およびアタッチします。
アタッチする計算リソースタイプを選択します。
[計算リソースのアタッチ] をクリックして、[計算リソースのアタッチ] ページに移動します。
[計算リソースのアタッチ] ページで、計算リソースタイプを [Lindorm] に設定します。[Lindorm 計算リソースのアタッチ] 構成ページが表示されます。
Lindorm 計算リソースを構成します。
[Lindorm 計算リソースのアタッチ] 構成ページで、次の表に示すパラメーターを構成します。
構成セクション
パラメーター
説明
[基本情報]
[構成モード]
[Alibaba Cloud インスタンスモード] のみがサポートされています。
[インスタンス]
ドロップダウンリストには、現在のリージョンにある Lindorm インスタンスが表示されます。DataWorks にアタッチする Lindorm インスタンスを選択します。
データベース名
DataWorks がこの Lindorm 計算リソースを使用するときにデフォルトで接続するデータベースを選択します。デフォルトのデータベースは
defaultです。ユーザー名/パスワード
DataWorks がこの Lindorm 計算リソースを使用する際の身分認証用のユーザー名とパスワードを入力します。ユーザー名とパスワードは Lindorm コンソール で確認できます。作成した Lindorm インスタンスを見つけ、[インスタンス名] をクリックし、左側のナビゲーションウィンドウの [データベース接続] ページでユーザー名とパスワードを確認します。
計算リソースインスタンス名
計算リソースインスタンスのカスタム名を入力します。タスクの実行時に、この名前に基づいてタスクの計算リソースを選択できます。
接続設定
接続ステータス
[接続設定] セクションで、DataWorks が Lindorm タスクを実行するために使用するサーバーレスリソースグループを選択します。[接続テスト] をクリックして、リソースグループが Lindorm インスタンスにアクセスできることを確認します。詳細については、「ネットワーク接続ソリューションの概要」をご参照ください。
[確認] をクリックして、Lindorm 計算リソースの構成を完了します。
(オプション) グローバル Spark パラメーターの構成
DataWorks では、ワークスペースレベルで各モジュールの SPARK パラメーターを指定できます。これらのパラメーターは、モジュールがタスクを実行する際にデフォルトで使用されます。グローバル SPARK パラメーターをカスタマイズし、データ開発、DataAnalysis、オペレーションセンターなどの特定のモジュール内で構成されたパラメーターよりも優先させることができます。詳細については、「グローバル Spark パラメーターの設定」をご参照ください。
背景情報
Apache Spark は、大規模なデータ分析のためのエンジンです。DataWorks では、スケジューリングノードが実行時に使用する SPARK パラメーターを次の方法で構成できます。
方法 1: グローバル SPARK パラメーターを構成して、DataWorks モジュールが EMR タスクを実行する際にワークスペースレベルで使用する SPARK パラメーターを指定できます。また、これらのグローバル SPARK パラメーターが特定のモジュール内で構成された SPARK パラメーターよりも優先されるかどうかを指定することもできます。詳細については、「グローバル SPARK パラメーターの構成」をご参照ください。
方法 2: データ開発モジュールでは、ノード編集ページで個々のノードに特定の SPARK プロパティを設定できます。現在、他のプロダクトモジュールはモジュール内での SPARK プロパティの設定をサポートしていません。
アクセス制御
次のロールのみがグローバル SPARK パラメーターを構成できます。
Alibaba Cloud アカウント。
AliyunDataWorksFullAccess権限を持つ Resource Access Management (RAM) ユーザーまたは RAM ロール。Workspace Administrator ロールを持つ RAM ユーザー。
グローバル SPARK パラメーターの表示
計算リソースページに移動し、アタッチした Lindorm 計算リソースを見つけます。
[SPARK パラメーター] をクリックして、SPARK パラメーター構成ペインでグローバルパラメーター設定を表示します。
グローバル SPARK パラメーターの構成
次のステップに従って、SPARK グローバルパラメーターを構成できます。Lindorm 計算リソースの SPARK パラメーターの構成に関する詳細については、「ジョブ構成手順」をご参照ください。
計算リソースページに移動し、アタッチした Lindorm 計算リソースを見つけます。
[SPARK パラメーター] をクリックして SPARK 構成ペインを開き、グローバルパラメーター設定を表示します。
グローバル SPARK パラメーターを設定します。
[SPARK パラメーター] ページの右上隅にある [SPARK パラメーターの編集] をクリックして、グローバル SPARK パラメーターを構成し、各モジュールの優先度を設定します。
説明これはワークスペースのグローバル構成です。続行する前に、正しいワークスペースにいることを確認してください。
パラメーター
ステップ
Spark プロパティ
各モジュールが Lindorm タスクを実行する際に使用する Spark プロパティを構成します。詳細については、「ジョブ構成」をご参照ください。
下の [追加] ボタンをクリックします。[Spark プロパティ名] とそれに対応する [Spark プロパティ値] を入力します。
説明データリネージと出力情報の収集を有効にするには、次の構成を実行します。
[Spark プロパティ名] を
spark.sql.queryExecutionListenersに設定します。[Spark プロパティ値] を
com.aliyun.dataworks.meta.lineage.LineageListenerに設定します。
Spark プロパティ設定の詳細については、「ジョブ構成」をご参照ください。
グローバル構成の優先度
このオプションを選択すると、グローバル構成がプロダクトモジュール内の構成よりも優先されます。タスクは、グローバルに構成された SPARK プロパティに基づいて一様に実行されます。
グローバル構成: の Lindorm 計算リソースの [SPARK パラメーター] ページで構成された Spark プロパティ。
現在、グローバル SPARK パラメーターは Data Development (DataStudio) および Operation Center モジュールに対してのみ設定できます。
プロダクトモジュール内の構成:
データ開発 (DataStudio): Lindorm Spark および Lindorm Spark SQL ノードの場合、ノード編集ページの [構成アイテム] タブで単一ノードタスクの SPARK プロパティを設定できます。
その他のプロダクトモジュール: これらのモジュール内での SPARK プロパティの設定はサポートされていません。
[確認] をクリックして、グローバル SPARK パラメーターを保存します。
次のステップ
Lindorm 計算リソースを構成した後、それを使用してデータ開発でノードを開発できます。詳細については、「Lindorm Spark ノード」および「Lindorm Spark SQL ノード」をご参照ください。
グローバル SPARK パラメーターを構成する際に、Lindorm データリネージと出力情報の収集を有効にできます。メタデータコレクターを作成して実行した後、データマップで Lindorm メタデータを表示および管理できます。詳細については、「データマップで Lindorm を表示および管理する」をご参照ください。