このドキュメントでは、セルフマネージド Hadoop クラスターを DataWorks に接続してタスク開発を行う方法と、クラスター用のカスタム実行環境を作成する方法について説明します。
背景情報
セルフマネージド Hadoop クラスターを CDH クラスターとして登録する際にサービスアドレスを提供することで、DataWorks に接続できます。その後、DataWorks のデフォルトの CDH イメージを使用して、ご利用のクラスターのコンポーネントバージョンに一致する実行環境を作成できます。これにより、セルフマネージド Hadoop クラスターのジョブを DataWorks 内で直接スケジュールして実行できます。
前提条件
カスタムイメージを作成する前に、クラスター、DataWorks、および Object Storage Service (OSS) の環境を準備する必要があります。
-
セルフマネージド Hadoop クラスターを所有していること。
-
DataWorks を有効化し、DataWorks ワークスペースとサーバーレスリソースグループを作成済みであること。
パブリック OSS エンドポイントからインストールパッケージをダウンロードする必要がある場合、サーバーレスリソースグループはインターネットアクセスが必要です。これを有効にするには、サーバーレスリソースグループに NAT ゲートウェイを設定します。詳細については、「ネットワーク接続ソリューションの概要」をご参照ください。
-
OSS を有効化し、バケットを作成済みであること。このバケットを使用して、カスタムのSpark インストールパッケージと Hadoop インストールパッケージをアップロードおよび保存し、イメージ作成スクリプトからアクセスできるようにします。
手順 1:セルフマネージドクラスターを DataWorks に接続
新しいバージョンのData Development (Data Studio) を使用する するワークスペースと、使用しない 新しいバージョンのData Development (Data Studio) を使用する ワークスペースとではバインドプロセスが異なるため、ワークスペースの実際の環境に対応するドキュメントを参照して、自社管理の Hadoop クラスターを計算リソースとして DataWorks にバインドしてください。
-
新しい Data Studio を使用するワークスペースの場合:コンピュートエンジンの接続。
-
以前のバージョンの Data Studio を使用するワークスペースの場合:以前の Data Studio:CDH コンピュートエンジンの接続。
手順 2:実行環境のカスタマイズ
DataWorks では、デフォルトの公式 CDH イメージに基づいてカスタムイメージをビルドできます。このカスタムイメージは、セルフマネージドクラスター用の DataWorks でのタスク実行環境として機能します。以下の手順に従って、インストールパッケージを準備し、新しいイメージをビルドします。
インストールパッケージの準備
カスタムイメージを作成する前に、必要なコンポーネントのインストールパッケージを取得します。これらのパッケージは、既存のセルフマネージド Hadoop クラスターから抽出するか、直接ダウンロードすることができます。パッケージを取得したら、OSS にアップロードします。
-
コンポーネントのインストールパッケージを取得します。
-
セルフマネージド Hadoop クラスターで必要なコンポーネントのインストールディレクトリを見つけ、パッケージを抽出します。
-
必要なバージョンのコンポーネントインストールパッケージをダウンロードします。
この例では、オープンソースの Spark と Hadoop のインストールパッケージを使用します。以下の場所で入手できます:
-
Spark オープンソースパッケージ:Apache Spark アーカイブ。
-
Hadoop オープンソースパッケージ:Apache Hadoop アーカイブ。
説明この例では、
Spark 3.4.2とHadoop 3.2.1のインストールパッケージを使用します。 -
-
-
ダウンロードした Spark と Hadoop のインストールパッケージを OSS バケットにアップロードします。
新しいイメージのビルド
カスタムイメージを作成するには、OSS バケットから Spark と Hadoop のインストールパッケージをダウンロードしてベースの CDH イメージにインストールするスクリプトを作成します。インストールが完了したら、カスタムイメージをビルドして公開し、データ開発で使用します。
-
カスタムイメージを作成します。
-
DataWorks コンソールにログインします。上部のナビゲーションバーで、ワークスペースが存在するリージョンを選択します。左側のナビゲーションウィンドウで、[イメージ管理] をクリックし、Custom Image タブをクリックします。
-
[イメージの作成] をクリックします。カスタムイメージのパラメーターを設定します。詳細については、「イメージ管理」をご参照ください。次の表に、主要なパラメーターを示します。
パラメーター
説明
例
[イメージ名/ID]
さまざまなベースイメージから選択できます。Hadoop クラスター用のカスタムイメージをビルドするには、DataWorks が提供する公式の CDH イメージを選択します。
ドロップダウンリストから
dataworks_cdh_custom_task_podを選択します。[サポートされるタスクタイプ]
CDH イメージは、
CDH Hive、CDH Spark、CDH Spark SQL、CDH MR、CDH Presto、およびCDH Impalaタスクをサポートします。必要なタスクタイプを選択します。この例では、CDH イメージでサポートされているすべてのタスクタイプを選択します。
[インストールパッケージ]
-
このセクションでは、OSS にアップロードした Hadoop および Spark パッケージをダウンロードしてインストールするスクリプトを提供する必要があります。
-
必要に応じてスクリプトをカスタマイズしてパッケージを置き換えることができます。
ドロップダウンリストから [スクリプト] を選択します。
-
-
パラメーターを設定した後、Determine をクリックしてイメージを作成します。
-
-
カスタムイメージをビルドして公開します。
カスタムイメージを作成した後、Data Studio で使用する前にビルドして公開する必要があります。以下の手順に従って、イメージをビルドして公開します:
-
カスタムイメージが作成されたら、リストで見つけて、[操作] 列の Deploy をクリックして、テストと公開プロセスを開始します。
イメージのステータスが [未テスト] に変わります。
-
[イメージの公開] パネルで、Test Resource Group ドロップダウンリストからリソースグループを選択してイメージをテストします。テストが成功したら、Deploy をクリックします。
説明パブリック OSS エンドポイントからインストールパッケージをダウンロードする必要がある場合、テストリソースグループはインターネットアクセスが必要です。これを有効にするには、サーバーレスリソースグループに NAT ゲートウェイを設定します。詳細については、「ネットワーク接続ソリューションの概要」をご参照ください。
-
手順 3:カスタム環境でのタスクの実行
イメージが公開されたら、データ開発に使用できます。カスタムイメージの使用方法は、ワークスペースが新しいバージョンの Data Studio を使用しているかどうかによって異なります。
DataWorks コンソールにログインします。リージョンを選択し、左側のナビゲーションウィンドウで を選択します。ドロップダウンリストからワークスペースを選択し、[Data Studio]/[データ開発] に入ります。
+ アイコンをクリックし、
+ アイコンをクリックし、
[実行] アイコンをクリックします。設定ダイアログボックスで、カスタムイメージ (例:
[プロパティ] アイコンをクリックします。設定ダイアログボックスで、カスタムイメージ (例: