Spark は、複雑なインメモリ分析および大規模で低レイテンシのデータアプリケーション向けの、汎用性が高く、パフォーマンス専有型で使いやすいビッグデータ分析エンジンです。DataWorks では、Spark タスクを開発・定期スケジュールするための CDH Spark ノードを提供しています。本トピックでは、このノードの構成方法と使用方法について説明します。
前提条件
Alibaba Cloud CDH クラスターを作成済みであり、かつ DataWorks ワークスペースにバインド済みである必要があります。詳細については、「Data Studio:CDH コンピューティングリソースの関連付け」をご参照ください。
重要ご利用の CDH クラスターに Spark コンポーネントがインストールされており、DataWorks へのクラスター登録時にその情報が正しく構成されていることをご確認ください。
(オプション) RAM ユーザーを使用している場合、そのユーザーをワークスペースに追加し、[開発者] または [ワークスペース管理者] のロールを付与する必要があります。ワークスペース管理者ロールは広範な権限を持ち、注意して付与する必要があります。ワークスペースにメンバーを追加する方法の詳細については、「ワークスペースにメンバーを追加する」をご参照ください。
説明ルートアカウントを使用している場合は、この手順をスキップできます。
DataWorks に Hive データソースを構成済みであり、接続テストに成功している必要があります。詳細については、「データソース管理」をご参照ください。
Spark タスクおよび JAR パッケージの準備
DataWorks を使用して CDH Spark タスクをスケジュールする前に、CDH 環境で Spark タスクコードを開発し、そのコードを JAR パッケージにコンパイルする必要があります。CDH Spark タスクの開発方法の詳細については、「概要」をご参照ください。
CDH JAR リソースの作成
タスクの JAR パッケージを DataWorks にアップロードし、CDH クラスター上で定期的にスケジュールできるようにします。
詳細については、「リソース管理」をご参照ください。[アップロード] をクリックして、ローカルコンピューターから JAR パッケージをアップロードします。
[保存パス]、[データソース]、および [リソースグループ] を選択します。
[保存] をクリックします。
ノードの作成
手順については、「ノードの作成」をご参照ください。
ノードの開発
CDH Spark ノードの構成タブで、以下の手順を実行します。
CDH JAR リソースの参照
作成した CDH Spark ノードを開き、コードエディタに移動します。
左側の [リソース管理] パネルで、使用するリソースを見つけ、右クリックして [リソースの参照] を選択します。
リソースを参照すると、コードエディタに
##@resource_reference{""}形式の文が表示され、リソースが正常に参照されたことが確認できます。以下のコードはその例です。例の情報をご利用の情報に置き換えてください。
##@resource_reference{"spark_examples_2.11_2.4.0.jar"}
spark_examples_2.11_2.4.0.jarCDH Spark ノードコードの編集
CDH Spark ノードコードを編集し、spark-submit コマンドを追加します。以下のコードはその例です。
CDH Spark ノードエディタはコメントをサポートしていません。実行エラーを回避するため、コードが例のフォーマットに厳密に従い、コメントが含まれていないことをご確認ください。
##@resource_reference{"spark-examples_2.11-2.4.0.jar"}
spark-submit --class org.apache.spark.examples.SparkPi --master yarn spark-examples_2.11-2.4.0.jar 100org.apache.spark.examples.SparkPi:JAR パッケージ内のタスクのメインクラスです。spark-examples_2.11-2.4.0.jar:アップロードした CDH JAR リソースの名前です。
ノードのデバッグ
Run Configuration の [コンピューティングリソース] セクションで、[コンピューティングリソース] および [リソースグループ] パラメーターを構成します。
[コンピューティングリソース] には、DataWorks に登録済みの CDH クラスターの名前を選択します。
[リソースグループ] には、データソース接続が成功しているスケジューリング用リソースグループを選択します。詳細については、「ネットワーク接続ソリューション」をご参照ください。
説明タスクのリソース要件に基づいて、[Compute CUs] を調整することもできます。デフォルト値は
0.5です。コードエディタ上部のツールバーで、[実行] をクリックします。
次のステップ
ノードのスケジューリング構成:ノードを定期的に実行するには、ページ右側の [スケジューリング構成] パネルで [時間プロパティ] および関連するスケジューリングプロパティを構成します。
ノードの公開:ノードを本番環境に公開するには、
アイコンをクリックします。スケジュールされるのは、本番環境に公開されたノードのみです。タスク運用管理:ノードを公開後、オペレーションセンターでスケジュールされた実行状況をモニターできます。詳細については、「オペレーションセンター入門」をご参照ください。