Cloudera's Distribution Including Apache Hadoop (CDH) および Cloudera Data Platform (CDP) は、DataWorks に接続できます。これにより、CDH または CDP クラスタを DataWorks に登録できます。このようにして、DataWorks が提供するデータ開発およびガバナンス機能を使用して、CDH または CDP データを管理できます。これらの機能には、タスク開発、タスクスケジューリング、Data Map でのメタデータ管理、およびデータ品質が含まれます。 CDH または CDP クラスタを DataWorks に登録する前に、クラスタに関する必要な構成情報を取得し、クラスタと特定のリソースグループ間のネットワーク接続を構成する必要があります。このトピックでは、CDH クラスタの構成情報を取得し、CDH クラスタと特定のリソースグループ間のネットワーク接続を構成する方法について説明します。
背景情報
CDH は、Cloudera のオープンソースプラットフォームディストリビューションです。 CDH は、クラスタ管理、クラスタ監視、クラスタ診断などのすぐに使える機能を提供します。 CDH はまた、エンドツーエンドのビッグデータワークフローを実行するのに役立つさまざまなコンポーネントをサポートしています。
CDP は、プラットフォーム全体で顧客データを収集および統合する共通データプラットフォームです。 CDP を使用して、リアルタイムデータを収集し、リアルタイムデータを個々のユーザーデータとして構築できます。
CDH および CDP クラスタを DataWorks に登録できます。その後、タスク開発、タスクスケジューリング、Data Map でのメタデータ管理、データ品質監視などの DataWorks 機能を使用して、ビジネス要件に基づいてクラスタ内のデータを開発および管理できます。
前提条件
CDH クラスタは、Elastic Compute Service (ECS) インスタンスにデプロイされています。
CDH クラスタは、Alibaba Cloud ECS 以外の環境にもデプロイできます。環境が Alibaba Cloud 仮想プライベートクラウド (VPC) に接続されていることを確認する必要があります。 Express Connect および VPN Gateway を使用して、ネットワーク接続を確保できます。
スケジューリング用の新しいバージョンのサーバーレスリソースグループまたは古いバージョンの専用リソースグループが購入されています。サーバーレスリソースグループを購入することをお勧めします。
デフォルトでは、DataWorks リソースグループは、購入後に他のクラウドサービスのネットワークに接続されていません。 CDH クラスタを使用する前に、CDH クラスタを特定のリソースグループに接続する必要があります。
説明DataWorks は、汎用目的で使用されるサーバーレスリソースグループをリリースしており、このタイプのリソースグループを購入することをお勧めします。サーバーレスリソースグループは、データ同期やタスクスケジューリングなど、さまざまなタスクタイプが使用されるシナリオに適しています。サーバーレスリソースグループの購入方法については、「サーバーレスリソースグループの作成と使用」をご参照ください。現在のリージョンで DataWorks のいずれのエディションもアクティブ化していないユーザーは、サーバーレスリソースグループのみを購入できます。
スケジューリング用の古いバージョンの専用リソースグループを購入した場合は、そのリソースグループを使用して CDH または CDP タスクを実行することもできます。詳細については、「スケジューリング専用リソースグループの作成と使用」をご参照ください。
CDH クラスタの構成情報を取得する
次の手順を実行して、CDH クラスタの構成情報を取得します。 CDH クラスタを DataWorks に登録するときに、構成情報が必要になります。
CDH クラスタのバージョン情報を取得します。
Cloudera Manager 管理コンソールにログオンします。表示されるページで、次の図に示すように、クラスタ名の右側にバージョン情報が表示されます。

CDH クラスタのホストアドレスとコンポーネントアドレスを取得します。 CDH クラスタを DataWorks に登録するときに、アドレスが必要になります。
Cloudera Manager 管理コンソールからアドレスを取得する
ホスト ドロップダウンリストから ロール を選択します。キーワードとアイコンに基づいて構成するコンポーネントを見つけます。次に、左側に表示されているホスト名を表示して記録し、ホスト名とアドレス形式に基づいてコンポーネントアドレスを完成させます。

コンポーネント:
HS2: HiveServer2
HMS: Hive Metastore
ID: Impala Daemon
RM: YARN ResourceManager
CDH クラスタの構成ファイルを取得します。 CDH クラスタを DataWorks に登録するときに、構成ファイルをアップロードする必要があります。
Cloudera Manager 管理コンソールにログオンします。
[ステータス] タブで、クラスタ名の右側にあるドロップダウン矢印をクリックし、[クライアント構成 URL の表示] を選択します。

クライアント構成 URL ダイアログボックスで、特定の構成パッケージをダウンロードします。この例では、YARN 構成パッケージがダウンロードされます。

CDH クラスタのネットワーク情報を取得します。ネットワーク情報は、CDH クラスタと DataWorks リソースグループ間のネットワーク接続を構成するために使用されます。
ECS コンソール にログオンします。
左側のナビゲーションペインで、インスタンスとイメージ > インスタンス を選択します。上部のナビゲーションバーで、CDH クラスタをホストする ECS インスタンスが存在するリージョンを選択します。インスタンス ページで、ECS インスタンスを見つけて、その ID をクリックします。表示されるページの [インスタンスの詳細] タブで、[セキュリティグループ]、[VPC]、[vswitch] など、インスタンスに関するネットワーク情報を表示して記録します。
ネットワーク接続を構成する
サーバーレスリソースグループ
このセクションでは、サーバーレスリソースグループを例として使用して、リソースグループと CDH クラスタ間のネットワーク接続を確立する方法について説明します。
デフォルトでは、DataWorks サーバーレスリソースグループは、作成後に他のクラウドサービスのネットワークに接続されていません。 CDH を使用する前に、CDH クラスタのネットワーク情報を取得し、DataWorks サーバーレスリソースグループを CDH クラスタがデプロイされている VPC に関連付ける必要があります。これにより、CDH クラスタと DataWorks サーバーレスリソースグループ間のネットワーク接続が確保されます。
サーバーレスリソースグループのネットワーク構成ページに移動します。
DataWorks コンソール にログオンします。
左側のナビゲーションペインで、[リソースグループ] をクリックします。 [専用リソースグループ] タブが表示されます。
目的のサーバーレスリソースグループを見つけて、操作 列の [ネットワーク設定] をクリックします。
リソースグループを、CDH クラスタがデプロイされている VPC に関連付けます。
表示される [VPC バインディング] タブの [データスケジューリングとデータ統合] セクションで、[VPC の関連付けを追加] をクリックします。VPC の関連付けを追加 ダイアログボックスで、「CDH クラスタの構成情報を取得する」セクションの 手順 4 で記録した VPC、ゾーン、および vSwitch を選択します。
ホストを構成します。
Alibaba Cloud DNS コンソールにログオンします。 [プライベート DNS (privatezone)] ページの「CDH クラスタの構成情報を取得する」セクションの 手順 2 で記録されたホストアドレスで、権限のある DNS 解決を実行します。
プライベート DNS をアクティブ化します。詳細については、「プライベート DNS をアクティブ化する」をご参照ください。
説明プライベート DNS をすでにアクティブ化している場合は、この手順をスキップできます。
組み込みの権限ゾーンを追加します。詳細については、「組み込みの権限ゾーンを追加する」をご参照ください。
説明この例では、[Cloudera Manager 管理コンソール] から取得した
cdh-header-1-cn-shanghaiホストアドレスで、権威 DNS 解決が実行されます。ホストアドレスの構成に基づいて値を変更できます。解決された IP アドレスは、CDH クラスターがデプロイされている ECS インスタンスの
private IP addressです。
組み込みの権限ゾーンに有効なスコープを設定します。詳細については、「組み込みの権限ゾーンの有効なスコープを構成する」をご参照ください。
説明組み込みの権限ゾーンが有効になる VPC を指定する場合、CDH クラスタとリソースグループが関連付けられている VPC を選択する必要があります。
スケジューリング専用リソースグループ
このセクションでは、スケジューリング専用リソースグループを例として使用して、リソースグループと CDH クラスタ間のネットワーク接続を確立する方法について説明します。
デフォルトでは、DataWorks スケジューリング専用リソースグループは、作成後に他のクラウドサービスのネットワークに接続されていません。 CDH を使用する前に、CDH クラスタのネットワーク情報を取得する必要があります。次に、DataWorks スケジューリング専用リソースグループを、CDH クラスタがデプロイされている VPC に関連付けます。これにより、CDH クラスタと DataWorks スケジューリング専用リソースグループ間のネットワーク接続が確保されます。
スケジューリング専用リソースグループのネットワーク構成ページに移動します。
DataWorks コンソール にログオンします。
左側のナビゲーションペインで、[リソースグループ] をクリックします。 [専用リソースグループ] タブが表示されます。
目的のスケジューリング専用リソースグループを見つけて、操作 列の [ネットワーク設定] をクリックします。
リソースグループを、CDH クラスタがデプロイされている VPC に関連付けます。
表示されるページの [VPC バインディング] タブで、[VPC の関連付けを追加] をクリックします。VPC の関連付けを追加 ダイアログボックスで、「CDH クラスタの構成情報を取得する」セクションの 手順 4 で記録した VPC、ゾーン、vSwitch、およびセキュリティグループを選択します。
ホストを構成します。
[ホスト名と IP のマッピング] タブをクリックします。このタブで、[一括変更] をクリックします。ホスト名と IP のマッピングを一括変更 ダイアログボックスで、「CDH クラスタの構成情報を取得する」セクションの 手順 2 で記録したホストアドレスを入力します。

次の手順
準備が完了したら、データ開発のために CDH クラスタを DataWorks に登録できます。詳細については、「CDH または CDP クラスタを DataWorks に登録する」をご参照ください。