すべてのプロダクト
Search
ドキュメントセンター

DataWorks:自己管理型 Hadoop クラスターに基づくタスクの開発

最終更新日:Nov 09, 2025

このトピックでは、自己管理型 Hadoop クラスターを DataWorks のワークスペースに関連付けてタスクを開発する方法について説明します。また、このトピックでは、自己管理型 Hadoop クラスターのカスタムランタイム環境を構成する方法についても説明します。

背景情報

Cloudera's Distribution including Apache Hadoop (CDH) クラスターを登録する際に、自己管理型 Hadoop クラスターのエンドポイントを構成できます。これにより、DataWorks で自己管理型 Hadoop クラスターにアクセスできます。その後、DataWorks のデフォルトの CDH イメージを使用して、必要なバージョンのコンポーネントを含むランタイム環境を構築できます。これにより、DataWorks で自己管理型 Hadoop クラスターのジョブをスケジュールできます。

前提条件

カスタムイメージを作成する前に、クラスター環境、DataWorks 環境、および Object Storage Service (OSS) バケットを準備します。

  • 自己管理型 Hadoop クラスターが作成されていること。

  • DataWorks が有効化され、DataWorks ワークスペースが作成され、サーバーレスリソースグループが作成されていること。

    OSS パブリックエンドポイントからインストールパッケージをダウンロードする場合は、サーバーレスリソースグループがインターネット経由でデータソースにアクセスできることを確認してください。インターネット経由でデータソースへのアクセスを有効にするには、サーバーレスリソースグループが関連付けられている仮想プライベートクラウド (VPC) にネットワークアドレス変換 (NAT) ゲートウェイを構成する必要があります。詳細については、「ネットワーク接続ソリューション」トピックの「ネットワーク接続ソリューションの概要」セクションをご参照ください。

  • OSS が有効化され、バケットが作成されていること。このバケットは、構成したいSpark インストールパッケージHadoop インストールパッケージをアップロードして保存するために使用されます。その後、インストールパッケージはカスタムイメージのスクリプトが読み取るために提供されます。

ステップ 1: 自己管理型 Hadoop クラスターを DataWorks ワークスペースに関連付ける

自己管理型 Hadoop クラスターを計算リソースとして DataWorks に関連付けることができます。関連付けの方法は、[Data Studio (新バージョン) を使用] するワークスペースと、そうではないワークスペースで異なります。お使いのワークスペース環境に対応するドキュメントの指示に従ってください。

ステップ 2: 自己管理型クラスターのカスタムランタイム環境を構成する

DataWorks では、DataWorks のデフォルトの CDH イメージに基づいてカスタムイメージを構築できます。このカスタムイメージは、自己管理型クラスターのジョブが DataWorks で実行される際のランタイム環境として使用されます。以下のセクションの操作を実行して、インストールパッケージを準備し、カスタムイメージを構築できます。

カスタムクラスター用の環境インストールパッケージを準備する

カスタムイメージを作成する前に、必要なコンポーネントのインストールパッケージを取得する必要があります。インストールパッケージは、既存の自己管理型 Hadoop クラスターから抽出できます。また、必要なコンポーネントのインストールパッケージを直接ダウンロードすることもできます。インストールパッケージを取得したら、パッケージを OSS バケットにアップロードします。

  1. 必要なコンポーネントのインストールパッケージを取得します。

    • 自己管理型 Hadoop クラスターで必要なコンポーネントのインストールディレクトリを見つけ、インストールパッケージを抽出します。

    • 必要なバージョンのコンポーネントのインストールパッケージをダウンロードします。

      この例では、オープンソースの Spark インストールパッケージとオープンソースの Hadoop インストールパッケージを使用します。Spark および Hadoop インストールパッケージのダウンロード URL:

      説明

      この例では、Spark 3.4.2 および Hadoop 3.2.1 のインストールパッケージを使用します。

  2. Spark および Hadoop インストールパッケージを OSS バケットにアップロードします。

インストールパッケージに基づいて新しいイメージを構築する

カスタムイメージを作成するには、OSS バケットに保存されている Spark および Hadoop インストールパッケージをダウンロードし、CDH イメージにパッケージをインストールするスクリプトを記述する必要があります。インストールが完了したら、データ開発用にカスタムイメージを構築して公開します。

  1. カスタムイメージを作成します。

    1. DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[イメージ管理] をクリックします。[イメージ管理] ページが表示されます。

    2. [イメージ管理] ページの [カスタムイメージ] タブで、[イメージの作成] をクリックします。[イメージの作成] パネルが表示されます。次の表に、カスタムイメージの作成に使用される主要なパラメーターを示します。パラメーターの詳細については、「イメージの管理」をご参照ください。

      パラメーター

      説明

      イメージ名/ID

      さまざまなイメージを選択できます。Hadoop クラスターに基づいてカスタムイメージを作成する場合は、DataWorks が提供する公式の CDH イメージを選択します。

      ドロップダウンリストから dataworks_cdh_custom_task_pod を選択します。

      サポートされるタスクタイプ

      CDH イメージは、次のタイプのタスクをサポートしています: CDH HiveCDH SparkCDH Spark SQLCDH MRCDH Presto、および CDH Impala。必要に応じてタスクタイプを選択できます。

      この例では、CDH イメージでサポートされているすべてのタスクタイプが選択されています。

      インストールパッケージ

      • スクリプトを記述して、OSS バケットに保存されている Spark および Hadoop インストールパッケージをダウンロードしてインストールする必要があります。

      • 必要に応じて、サンプルコード内のインストールパッケージを置き換えることができます。

      ドロップダウンリストから [スクリプト] を選択します。

      スクリプトコードを構成します。

      mkdir -p /opt/taobao/tbdpapp/cdh/custom
      
      wget -O spark-3.4.2-bin-hadoop3.tgz "{Download URL in OSS}"
      tar zxf spark-3.4.2-bin-hadoop3.tgz
      mv spark-3.4.2-bin-hadoop3 /opt/taobao/tbdpapp/cdh/custom
      
      wget -O hadoop-3.2.1.tar.gz "{Download URL in OSS}"
      tar zxf hadoop-3.2.1.tar.gz
      mv hadoop-3.2.1 /opt/taobao/tbdpapp/cdh/custom
      
      echo "\nexport PATH=/opt/taobao/tbdpapp/cdh/custom/hadoop-3.2.1/bin:/opt/taobao/tbdpapp/cdh/custom/spark-3.4.2-bin-hadoop3/bin:$PATH" >> /home/admin/.bashrc
      説明
      • {OSS ダウンロード URL}実際のダウンロード URL に置き換えてください。ファイルのダウンロード URL の詳細については、「オブジェクト URL の使用」をご参照ください。

        • OSS オブジェクトがパブリックに読み取り可能な場合は、ダウンロード URL を構成します。

        • OSS オブジェクトがプライベートの場合は、ダウンロード URL を構成し、オブジェクトが有効であることを確認します。

      • サンプルコードのバージョンは参照用です。OSS にアップロードされたコンポーネントのバージョンが使用されます。

    3. 構成が完了したら、[OK] をクリックします。

  2. カスタムイメージを構築して公開します。

    カスタムイメージを構成した後、Data Studio でイメージを使用できるように、イメージを構築して公開する必要があります。次の手順を実行して、カスタムイメージを構築および公開できます。

    1. カスタムイメージが作成されたら、[操作] 列の [公開] をクリックしてカスタムイメージをテストします。

      image

    2. [イメージの公開] パネルで、[テストリソースグループ] ドロップダウンリストからリソースグループを選択してイメージをテストします。テストが成功したら、[公開] をクリックしてイメージを公開します。

      image

    説明

    OSS パブリックエンドポイントからインストールパッケージをダウンロードする場合は、テストリソースグループがインターネット経由でデータソースにアクセスできることを確認してください。インターネット経由でデータソースへのアクセスを有効にするには、リソースグループが関連付けられている VPC に NAT ゲートウェイを構成する必要があります。詳細については、「ネットワーク接続ソリューション」トピックの「ネットワーク接続ソリューションの概要」セクションをご参照ください。

ステップ 3: カスタム環境を使用してタスクを実行する

イメージが公開されたら、データ開発に使用できます。カスタムイメージの使用方法は、ワークスペースが Data Studio の新しいバージョンを使用しているかどうかによって異なります。

DataWorks コンソールにログインします。必要なリージョンに切り替え、左側のナビゲーションウィンドウで [データ開発 & O&M] > [データ開発] を選択します。ドロップダウンリストから必要なワークスペースを選択し、[Data Studio へ] または [データ開発へ] をクリックします。

Data Studio でタスクを実行する

  1. CDH ノードを作成します。

    [Data Studio] ページで、image アイコンをクリックし、[ノードの作成] > [CDH] > [CDH Hive] を選択します。表示されるポップオーバーでノード名を入力し、Enter キーを押して CDH Hive ノードを作成します。

    image

  2. CDH Hive ノードのイメージを構成します。

    • デバッグ構成

      1. CDH Hive ノードの名前をダブルクリックします。ノードの構成タブが表示されます。構成タブの右側のナビゲーションウィンドウで、[デバッグ構成] をクリックします。[デバッグ構成] タブが表示されます。

      2. [DataWorks 構成] をクリックして [DataWorks 構成] セクションに移動します。このセクションで、[イメージ] パラメーターに作成したイメージを選択します。

        • リソースグループ: サーバーレスリソースグループを選択します。

        • イメージ: 公開され、現在のワークスペースに関連付けられているカスタムイメージを選択します。

      image

    • スケジューリング構成

      1. CDH Hive ノードの名前をダブルクリックします。ノードの構成タブが表示されます。構成タブの右側のナビゲーションウィンドウで、[プロパティ] をクリックします。[プロパティ] タブが表示されます。

      2. [スケジューリングポリシー] をクリックして [スケジューリングポリシー] セクションに移動します。このセクションで、パラメーターを構成します。

        • スケジューリング用リソースグループ: サーバーレスリソースグループを選択します。

        • イメージ: 公開され、現在のワークスペースに関連付けられているカスタムイメージを選択します。

        image

説明
  • CDH イメージは、次のノードタイプをサポートしています: CDH HiveCDH SparkCDH Spark SQLCDH MRCDH Presto、および CDH Impala

  • タスクノードがスムーズに実行されるようにするには、[スケジューリングリソースグループ][イメージの公開] 時に選択した [テストリソースグループ] と一致する必要があります。

  • 目的のリソースグループが表示されない場合、現在のワークスペースに関連付けられていない可能性があります。リソースグループを関連付けるには、[リソースグループ] ページ に移動し、リソースグループを見つけて、[操作] 列の [ワークスペースの関連付け] をクリックします。

DataStudio でタスクを実行する

  1. CDH ノードを作成します。

    1. image アイコンをクリックし、[ノードの作成] > [CDH] > [CDH Hive] を選択します。

      パラメーター

      構成の詳細

      エンジンインスタンス

      自己管理型 Hadoop クラスターをワークスペースに関連付けたときに登録された CDH クラスターを選択します。

      ノードタイプ

      CDH Hive

      パス

      • CDH Hive ノードが存在するワークフローを選択できます。

      • この例では、ワークフロー を選択します。

      名前

      ノード名はカスタマイズできます。

      構成が完了したら、[確認] をクリックします。

    2. CDH Hive ノードの名前をダブルクリックします。ノードの構成タブが表示されます。

      CDH Hive ノードのコードを開発した後、ノードをテストし、そのイメージを構成できます。

      • パラメーターを指定してノードを実行します。

        image ボタンをクリックし、[ノードテスト実行構成パラメーター] ダイアログボックスで dw_cdh_mirroring を構成します。

        • リソースグループ名: サーバーレスリソースグループを選択します。

        • イメージ: 公開され、現在のワークスペースに関連付けられているカスタムイメージを選択します。

        image

      • スケジューリングプロパティを構成します。

        上部のツールバーの image アイコンをクリックします。表示されるパラメーター構成ダイアログボックスで、作成したイメージ (例: dw_cdh_mirroring) を選択します。

        • リソースグループ: サーバーレスリソースグループを選択します。

        • イメージ: 公開され、現在のワークスペースに関連付けられているカスタムイメージを選択します。

        image

説明
  • CDH イメージは、次のノードタイプをサポートしています: CDH HiveCDH SparkCDH Spark SQLCDH MRCDH Presto、および CDH Impala

  • タスクノードがスムーズに実行されるようにするには、[スケジューリングリソースグループ][イメージの公開] 時に選択した [テストリソースグループ] と一致する必要があります。

  • 目的のリソースグループが表示されない場合、現在のワークスペースに関連付けられていない可能性があります。リソースグループを関連付けるには、[リソースグループ] ページ に移動し、リソースグループを見つけて、[操作] 列の [ワークスペースの関連付け] をクリックします。