すべてのプロダクト
Search
ドキュメントセンター

DataWorks:セルフマネージド Hadoop クラスターでのタスク開発

最終更新日:Jun 22, 2026

このドキュメントでは、セルフマネージド Hadoop クラスターを DataWorks に接続してタスク開発を行う方法と、クラスター用のカスタム実行環境を作成する方法について説明します。

背景情報

セルフマネージド Hadoop クラスターを CDH クラスターとして登録する際にサービスアドレスを提供することで、DataWorks に接続できます。その後、DataWorks のデフォルトの CDH イメージを使用して、ご利用のクラスターのコンポーネントバージョンに一致する実行環境を作成できます。これにより、セルフマネージド Hadoop クラスターのジョブを DataWorks 内で直接スケジュールして実行できます。

前提条件

カスタムイメージを作成する前に、クラスター、DataWorks、および Object Storage Service (OSS) の環境を準備する必要があります。

  • セルフマネージド Hadoop クラスターを所有していること。

  • DataWorks を有効化し、DataWorks ワークスペースサーバーレスリソースグループを作成済みであること。

    パブリック OSS エンドポイントからインストールパッケージをダウンロードする必要がある場合、サーバーレスリソースグループはインターネットアクセスが必要です。これを有効にするには、サーバーレスリソースグループに NAT ゲートウェイを設定します。詳細については、「ネットワーク接続ソリューションの概要」をご参照ください。

  • OSS を有効化し、バケットを作成済みであること。このバケットを使用して、カスタムのSpark インストールパッケージHadoop インストールパッケージをアップロードおよび保存し、イメージ作成スクリプトからアクセスできるようにします。

手順 1:セルフマネージドクラスターを DataWorks に接続

新しいバージョンのData Development (Data Studio) を使用する するワークスペースと、使用しない 新しいバージョンのData Development (Data Studio) を使用する ワークスペースとではバインドプロセスが異なるため、ワークスペースの実際の環境に対応するドキュメントを参照して、自社管理の Hadoop クラスターを計算リソースとして DataWorks にバインドしてください。

手順 2:実行環境のカスタマイズ

DataWorks では、デフォルトの公式 CDH イメージに基づいてカスタムイメージをビルドできます。このカスタムイメージは、セルフマネージドクラスター用の DataWorks でのタスク実行環境として機能します。以下の手順に従って、インストールパッケージを準備し、新しいイメージをビルドします。

インストールパッケージの準備

カスタムイメージを作成する前に、必要なコンポーネントのインストールパッケージを取得します。これらのパッケージは、既存のセルフマネージド Hadoop クラスターから抽出するか、直接ダウンロードすることができます。パッケージを取得したら、OSS にアップロードします。

  1. コンポーネントのインストールパッケージを取得します。

    • セルフマネージド Hadoop クラスターで必要なコンポーネントのインストールディレクトリを見つけ、パッケージを抽出します。

    • 必要なバージョンのコンポーネントインストールパッケージをダウンロードします。

      この例では、オープンソースの Spark と Hadoop のインストールパッケージを使用します。以下の場所で入手できます:

      説明

      この例では、Spark 3.4.2Hadoop 3.2.1 のインストールパッケージを使用します。

  2. ダウンロードした Spark と Hadoop のインストールパッケージを OSS バケットにアップロードします。

新しいイメージのビルド

カスタムイメージを作成するには、OSS バケットから Spark と Hadoop のインストールパッケージをダウンロードしてベースの CDH イメージにインストールするスクリプトを作成します。インストールが完了したら、カスタムイメージをビルドして公開し、データ開発で使用します。

  1. カスタムイメージを作成します。

    1. DataWorks コンソールにログインします。上部のナビゲーションバーで、ワークスペースが存在するリージョンを選択します。左側のナビゲーションウィンドウで、[イメージ管理] をクリックし、Custom Image タブをクリックします。

    2. [イメージの作成] をクリックします。カスタムイメージのパラメーターを設定します。詳細については、「イメージ管理」をご参照ください。次の表に、主要なパラメーターを示します。

      パラメーター

      説明

      [イメージ名/ID]

      さまざまなベースイメージから選択できます。Hadoop クラスター用のカスタムイメージをビルドするには、DataWorks が提供する公式の CDH イメージを選択します。

      ドロップダウンリストから dataworks_cdh_custom_task_pod を選択します。

      [サポートされるタスクタイプ]

      CDH イメージは、CDH HiveCDH SparkCDH Spark SQLCDH MRCDH Presto、および CDH Impala タスクをサポートします。必要なタスクタイプを選択します。

      この例では、CDH イメージでサポートされているすべてのタスクタイプを選択します。

      [インストールパッケージ]

      • このセクションでは、OSS にアップロードした Hadoop および Spark パッケージをダウンロードしてインストールするスクリプトを提供する必要があります。

      • 必要に応じてスクリプトをカスタマイズしてパッケージを置き換えることができます。

      ドロップダウンリストから [スクリプト] を選択します。

      カスタムスクリプト

      mkdir -p /opt/taobao/tbdpapp/cdh/custom
      
      wget -O spark-3.4.2-bin-hadoop3.tgz "{ご利用の OSS ダウンロード URL}"
      tar zxf spark-3.4.2-bin-hadoop3.tgz
      mv spark-3.4.2-bin-hadoop3 /opt/taobao/tbdpapp/cdh/custom
      
      wget -O hadoop-3.2.1.tar.gz "{ご利用の OSS ダウンロード URL}"
      tar zxf hadoop-3.2.1.tar.gz
      mv hadoop-3.2.1 /opt/taobao/tbdpapp/cdh/custom
      
      echo "\nexport PATH=/opt/taobao/tbdpapp/cdh/custom/hadoop-3.2.1/bin:/opt/taobao/tbdpapp/cdh/custom/spark-3.4.2-bin-hadoop3/bin:$PATH" >> /home/admin/.bashrc
      説明
      • {ご利用の OSS ダウンロード URL} をパッケージの実際のダウンロード URL に置き換えてください。詳細については、「オブジェクト URL の使用」をご参照ください。

        • OSS オブジェクトがパブリックの場合:ダウンロード URL を提供します。

        • OSS オブジェクトがプライベートの場合:署名付き URL を提供し、有効期限が切れていないことを確認します。

      • このサンプルコードのバージョンは参考用です。OSS にアップロードしたパッケージに対応するバージョンを使用してください。

    3. パラメーターを設定した後、Determine をクリックしてイメージを作成します。

  2. カスタムイメージをビルドして公開します。

    カスタムイメージを作成した後、Data Studio で使用する前にビルドして公開する必要があります。以下の手順に従って、イメージをビルドして公開します:

    1. カスタムイメージが作成されたら、リストで見つけて、[操作] 列の Deploy をクリックして、テストと公開プロセスを開始します。

      イメージのステータスが [未テスト] に変わります。

    2. [イメージの公開] パネルで、Test Resource Group ドロップダウンリストからリソースグループを選択してイメージをテストします。テストが成功したら、Deploy をクリックします。

    説明

    パブリック OSS エンドポイントからインストールパッケージをダウンロードする必要がある場合、テストリソースグループはインターネットアクセスが必要です。これを有効にするには、サーバーレスリソースグループに NAT ゲートウェイを設定します。詳細については、「ネットワーク接続ソリューションの概要」をご参照ください。

手順 3:カスタム環境でのタスクの実行

イメージが公開されたら、データ開発に使用できます。カスタムイメージの使用方法は、ワークスペースが新しいバージョンの Data Studio を使用しているかどうかによって異なります。

DataWorks コンソールにログインします。リージョンを選択し、左側のナビゲーションウィンドウで [データ開発と O&M] > Data Studio を選択します。ドロップダウンリストからワークスペースを選択し、[Data Studio]/[データ開発] に入ります。

新しい Data Studio

  1. CDH ノードを作成します。

    [Data Studio] ページで、image+ アイコンをクリックし、Create Node > cdh > CDH Hive を選択します。ノードの名前を入力して Enter キーを押します。

  2. CDH Hive ノードのイメージを設定します。

    • 実行設定

      1. CDH Hive ノードをダブルクリックしてエディタータブを開きます。右側で Run Configuration をクリックします。

      2. DataWorks configuration タブをクリックし、作成したイメージを選択します。

        • Resource Group:サーバーレスリソースグループを選択します。

        • Image:公開され、現在のワークスペースに関連付けられているカスタムイメージを選択します。

      [コンピュート CU] のデフォルト値は 0.25 です。このノードはデフォルト値を使用するため、変更は不要です。

    • スケジューリング設定

      1. CDH Hive ノードをダブルクリックしてエディタータブを開き、右側で Scheduling をクリックします。

      2. Scheduling Policy タブをクリックし、パラメーターを設定します。

        • Resource Group for Scheduling:サーバーレスリソースグループを選択します。

        • Image:公開され、現在のワークスペースに関連付けられているカスタムイメージを選択します。

説明
  • CDH イメージは、CDH HiveCDH SparkCDH Spark SQLCDH MRCDH Presto、および CDH Impala のノードタイプをサポートします。

  • タスクノードがスムーズに実行されるように、Resource Group for Scheduling が、[イメージを公開] したときに選択した Test Resource Group と同じであることを確認してください。

  • ターゲットリソースグループが表示されない場合は、現在のワークスペースに関連付けられているかどうかを確認してください。[リソースグループリスト] ページに移動し、ターゲットリソースグループを見つけて、操作 列の [ワークスペースにバインド] をクリックします。

以前の Data Studio

  1. CDH ノードを作成します。

    1. image+ アイコンをクリックし、Create Node > cdh > CDH Hive を選択します。

      パラメーター

      説明

      Engine Instance

      セルフマネージドクラスターを DataWorks に接続する際に登録した CDH クラスターを選択します。

      Node Type

      CDH Hive です。

      Path

      • CDH Hive ノードが配置されているワークフローを選択します。

      • 例: Workflow

      Name

      ノードのカスタム名を入力します。

      パラメーターを設定した後、Determine をクリックします。

    2. CDH Hive ノードをダブルクリックしてエディタータブを開きます。

      CDH Hive コードの作成が完了したら、ノードのイメージを設定してテストを実行できます。

      • パラメーターを指定して実行します。

        ツールバーで、image[実行] アイコンをクリックします。設定ダイアログボックスで、カスタムイメージ (例:dw_cdh_image) を選択します。

        • Resource Group Name:サーバーレスリソースグループを選択します。

        • Image:公開され、現在のワークスペースに関連付けられているカスタムイメージを選択します。

        [実行 CU] パラメーターはデフォルト値の 0.25 を使用するため、変更する必要はありません。[カスタムパラメーター] エリアで、カスタムパラメーターの値を入力し、[実行] をクリックします。

      • スケジューリング設定。

        ツールバーで、image[プロパティ] アイコンをクリックします。設定ダイアログボックスで、カスタムイメージ (例:dw_cdh_image) を選択します。

        • Resource Group for Scheduling: サーバーレスリソースグループを選択します。

        • Image:公開され、現在のワークスペースに関連付けられているカスタムイメージを選択します。

        [スケジューリング CU] パラメーターのデフォルトは 0.25 で、[有効日] のデフォルトは [無期限] です。

説明
  • CDH イメージは、CDH HiveCDH SparkCDH Spark SQLCDH MRCDH Presto、および CDH Impala のノードタイプをサポートします。

  • タスクノードがスムーズに実行されるように、Resource Group for Scheduling が、[イメージを公開] したときに選択した Test Resource Group と同じであることを確認してください。

  • ターゲットリソースグループが表示されない場合は、現在のワークスペースに関連付けられているかどうかを確認してください。[リソースグループリスト] ページに移動し、ターゲットリソースグループを見つけて、操作 列の [ワークスペースにバインド] をクリックします。