このトピックでは、自己管理型 Hadoop クラスターを DataWorks のワークスペースに関連付けてタスクを開発する方法について説明します。また、このトピックでは、自己管理型 Hadoop クラスターのカスタムランタイム環境を構成する方法についても説明します。
背景情報
Cloudera's Distribution including Apache Hadoop (CDH) クラスターを登録する際に、自己管理型 Hadoop クラスターのエンドポイントを構成できます。これにより、DataWorks で自己管理型 Hadoop クラスターにアクセスできます。その後、DataWorks のデフォルトの CDH イメージを使用して、必要なバージョンのコンポーネントを含むランタイム環境を構築できます。これにより、DataWorks で自己管理型 Hadoop クラスターのジョブをスケジュールできます。
前提条件
カスタムイメージを作成する前に、クラスター環境、DataWorks 環境、および Object Storage Service (OSS) バケットを準備します。
自己管理型 Hadoop クラスターが作成されていること。
DataWorks が有効化され、DataWorks ワークスペースが作成され、サーバーレスリソースグループが作成されていること。
OSS パブリックエンドポイントからインストールパッケージをダウンロードする場合は、サーバーレスリソースグループがインターネット経由でデータソースにアクセスできることを確認してください。インターネット経由でデータソースへのアクセスを有効にするには、サーバーレスリソースグループが関連付けられている仮想プライベートクラウド (VPC) にネットワークアドレス変換 (NAT) ゲートウェイを構成する必要があります。詳細については、「ネットワーク接続ソリューション」トピックの「ネットワーク接続ソリューションの概要」セクションをご参照ください。
OSS が有効化され、バケットが作成されていること。このバケットは、構成したいSpark インストールパッケージと Hadoop インストールパッケージをアップロードして保存するために使用されます。その後、インストールパッケージはカスタムイメージのスクリプトが読み取るために提供されます。
ステップ 1: 自己管理型 Hadoop クラスターを DataWorks ワークスペースに関連付ける
自己管理型 Hadoop クラスターを計算リソースとして DataWorks に関連付けることができます。関連付けの方法は、[Data Studio (新バージョン) を使用] するワークスペースと、そうではないワークスペースで異なります。お使いのワークスペース環境に対応するドキュメントの指示に従ってください。
Data Studio のパブリックプレビューに参加したワークスペースに計算リソースを関連付ける方法については、「ワークスペースへの計算リソースの関連付け (Data Studio のパブリックプレビューへの参加がオンの場合)」をご参照ください。
Data Studio のパブリックプレビューに参加していないワークスペースに計算リソースを関連付ける方法については、「DataStudio (旧バージョン): CDH 計算リソースの関連付け」をご参照ください。
ステップ 2: 自己管理型クラスターのカスタムランタイム環境を構成する
DataWorks では、DataWorks のデフォルトの CDH イメージに基づいてカスタムイメージを構築できます。このカスタムイメージは、自己管理型クラスターのジョブが DataWorks で実行される際のランタイム環境として使用されます。以下のセクションの操作を実行して、インストールパッケージを準備し、カスタムイメージを構築できます。
カスタムクラスター用の環境インストールパッケージを準備する
カスタムイメージを作成する前に、必要なコンポーネントのインストールパッケージを取得する必要があります。インストールパッケージは、既存の自己管理型 Hadoop クラスターから抽出できます。また、必要なコンポーネントのインストールパッケージを直接ダウンロードすることもできます。インストールパッケージを取得したら、パッケージを OSS バケットにアップロードします。
必要なコンポーネントのインストールパッケージを取得します。
自己管理型 Hadoop クラスターで必要なコンポーネントのインストールディレクトリを見つけ、インストールパッケージを抽出します。
必要なバージョンのコンポーネントのインストールパッケージをダウンロードします。
この例では、オープンソースの Spark インストールパッケージとオープンソースの Hadoop インストールパッケージを使用します。Spark および Hadoop インストールパッケージのダウンロード URL:
Spark オープンソースパッケージのダウンロード: Apache Spark Archives。
ダウンロードソース: Hadoop オープンソースパッケージのダウンロード
説明この例では、
Spark 3.4.2およびHadoop 3.2.1のインストールパッケージを使用します。
Spark および Hadoop インストールパッケージを OSS バケットにアップロードします。
インストールパッケージに基づいて新しいイメージを構築する
カスタムイメージを作成するには、OSS バケットに保存されている Spark および Hadoop インストールパッケージをダウンロードし、CDH イメージにパッケージをインストールするスクリプトを記述する必要があります。インストールが完了したら、データ開発用にカスタムイメージを構築して公開します。
カスタムイメージを作成します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[イメージ管理] をクリックします。[イメージ管理] ページが表示されます。
[イメージ管理] ページの [カスタムイメージ] タブで、[イメージの作成] をクリックします。[イメージの作成] パネルが表示されます。次の表に、カスタムイメージの作成に使用される主要なパラメーターを示します。パラメーターの詳細については、「イメージの管理」をご参照ください。
パラメーター
説明
例
イメージ名/ID
さまざまなイメージを選択できます。Hadoop クラスターに基づいてカスタムイメージを作成する場合は、DataWorks が提供する公式の CDH イメージを選択します。
ドロップダウンリストから
dataworks_cdh_custom_task_podを選択します。サポートされるタスクタイプ
CDH イメージは、次のタイプのタスクをサポートしています:
CDH Hive、CDH Spark、CDH Spark SQL、CDH MR、CDH Presto、およびCDH Impala。必要に応じてタスクタイプを選択できます。この例では、CDH イメージでサポートされているすべてのタスクタイプが選択されています。
インストールパッケージ
スクリプトを記述して、OSS バケットに保存されている Spark および Hadoop インストールパッケージをダウンロードしてインストールする必要があります。
必要に応じて、サンプルコード内のインストールパッケージを置き換えることができます。
ドロップダウンリストから [スクリプト] を選択します。
構成が完了したら、[OK] をクリックします。
カスタムイメージを構築して公開します。
カスタムイメージを構成した後、Data Studio でイメージを使用できるように、イメージを構築して公開する必要があります。次の手順を実行して、カスタムイメージを構築および公開できます。
カスタムイメージが作成されたら、[操作] 列の [公開] をクリックしてカスタムイメージをテストします。

[イメージの公開] パネルで、[テストリソースグループ] ドロップダウンリストからリソースグループを選択してイメージをテストします。テストが成功したら、[公開] をクリックしてイメージを公開します。

説明OSS パブリックエンドポイントからインストールパッケージをダウンロードする場合は、テストリソースグループがインターネット経由でデータソースにアクセスできることを確認してください。インターネット経由でデータソースへのアクセスを有効にするには、リソースグループが関連付けられている VPC に NAT ゲートウェイを構成する必要があります。詳細については、「ネットワーク接続ソリューション」トピックの「ネットワーク接続ソリューションの概要」セクションをご参照ください。
ステップ 3: カスタム環境を使用してタスクを実行する
イメージが公開されたら、データ開発に使用できます。カスタムイメージの使用方法は、ワークスペースが Data Studio の新しいバージョンを使用しているかどうかによって異なります。
DataWorks コンソールにログインします。必要なリージョンに切り替え、左側のナビゲーションウィンドウで を選択します。ドロップダウンリストから必要なワークスペースを選択し、[Data Studio へ] または [データ開発へ] をクリックします。
アイコンをクリックし、


アイコンをクリックし、
ボタンをクリックし、[ノードテスト実行構成パラメーター] ダイアログボックスで 
アイコンをクリックします。表示されるパラメーター構成ダイアログボックスで、作成したイメージ (例: 