すべてのプロダクト
Search
ドキュメントセンター

DataWorks:CDH Spark ノード

最終更新日:Feb 05, 2026

Spark は、複雑なインメモリ分析および大規模で低レイテンシのデータアプリケーション向けの、汎用性が高く、パフォーマンス専有型で使いやすいビッグデータ分析エンジンです。DataWorks では、Spark タスクを開発・定期スケジュールするための CDH Spark ノードを提供しています。本トピックでは、このノードの構成方法と使用方法について説明します。

前提条件

  • Alibaba Cloud CDH クラスターを作成済みであり、かつ DataWorks ワークスペースにバインド済みである必要があります。詳細については、「Data Studio:CDH コンピューティングリソースの関連付け」をご参照ください。

    重要

    ご利用の CDH クラスターに Spark コンポーネントがインストールされており、DataWorks へのクラスター登録時にその情報が正しく構成されていることをご確認ください。

  • (オプション) RAM ユーザーを使用している場合、そのユーザーをワークスペースに追加し、[開発者] または [ワークスペース管理者] のロールを付与する必要があります。ワークスペース管理者ロールは広範な権限を持ち、注意して付与する必要があります。ワークスペースにメンバーを追加する方法の詳細については、「ワークスペースにメンバーを追加する」をご参照ください。

    説明

    ルートアカウントを使用している場合は、この手順をスキップできます。

  • DataWorks に Hive データソースを構成済みであり、接続テストに成功している必要があります。詳細については、「データソース管理」をご参照ください。

Spark タスクおよび JAR パッケージの準備

DataWorks を使用して CDH Spark タスクをスケジュールする前に、CDH 環境で Spark タスクコードを開発し、そのコードを JAR パッケージにコンパイルする必要があります。CDH Spark タスクの開発方法の詳細については、「概要」をご参照ください。

CDH JAR リソースの作成

タスクの JAR パッケージを DataWorks にアップロードし、CDH クラスター上で定期的にスケジュールできるようにします。

  1. 詳細については、「リソース管理」をご参照ください。[アップロード] をクリックして、ローカルコンピューターから JAR パッケージをアップロードします。

  2. [保存パス][データソース]、および [リソースグループ] を選択します。

  3. [保存] をクリックします。

ノードの作成

手順については、「ノードの作成」をご参照ください。

ノードの開発

CDH Spark ノードの構成タブで、以下の手順を実行します。

CDH JAR リソースの参照

  1. 作成した CDH Spark ノードを開き、コードエディタに移動します。

  2. 左側の [リソース管理] パネルで、使用するリソースを見つけ、右クリックして [リソースの参照] を選択します。

  3. リソースを参照すると、コードエディタに ##@resource_reference{""} 形式の文が表示され、リソースが正常に参照されたことが確認できます。以下のコードはその例です。例の情報をご利用の情報に置き換えてください。

##@resource_reference{"spark_examples_2.11_2.4.0.jar"}
spark_examples_2.11_2.4.0.jar

CDH Spark ノードコードの編集

CDH Spark ノードコードを編集し、spark-submit コマンドを追加します。以下のコードはその例です。

重要

CDH Spark ノードエディタはコメントをサポートしていません。実行エラーを回避するため、コードが例のフォーマットに厳密に従い、コメントが含まれていないことをご確認ください。

##@resource_reference{"spark-examples_2.11-2.4.0.jar"}
spark-submit --class org.apache.spark.examples.SparkPi --master yarn  spark-examples_2.11-2.4.0.jar 100
説明
  • org.apache.spark.examples.SparkPi:JAR パッケージ内のタスクのメインクラスです。

  • spark-examples_2.11-2.4.0.jar:アップロードした CDH JAR リソースの名前です。

ノードのデバッグ

  1. Run Configuration[コンピューティングリソース] セクションで、[コンピューティングリソース] および [リソースグループ] パラメーターを構成します。

    1. [コンピューティングリソース] には、DataWorks に登録済みの CDH クラスターの名前を選択します。

    2. [リソースグループ] には、データソース接続が成功しているスケジューリング用リソースグループを選択します。詳細については、「ネットワーク接続ソリューション」をご参照ください。

    説明

    タスクのリソース要件に基づいて、[Compute CUs] を調整することもできます。デフォルト値は 0.5 です。

  2. コードエディタ上部のツールバーで、[実行] をクリックします。

次のステップ

  • ノードのスケジューリング構成:ノードを定期的に実行するには、ページ右側の [スケジューリング構成] パネルで [時間プロパティ] および関連するスケジューリングプロパティを構成します。

  • ノードの公開:ノードを本番環境に公開するには、image アイコンをクリックします。スケジュールされるのは、本番環境に公開されたノードのみです。

  • タスク運用管理:ノードを公開後、オペレーションセンターでスケジュールされた実行状況をモニターできます。詳細については、「オペレーションセンター入門」をご参照ください。