DataWorks は、Cloudera’s Distribution Including Apache Hadoop (CDH) および Cloudera Data Platform (CDP) クラスターに接続します。DataWorks に CDH または CDP クラスターを登録して、タスク開発、スケジューリング、データマップでのメタデータ管理、Data Quality チェックなどのデータ開発およびガバナンス操作を実行できます。クラスターを登録する前に、必要な設定情報を取得し、クラスターとリソースグループ間のネットワーク接続を確立する必要があります。このトピックでは、CDH クラスターを例に、クラスター情報の取得方法とネットワーク接続の設定方法について説明します。
背景情報
-
CDH は Cloudera のオープンソースプラットフォームディストリビューションです。クラスター管理、監視、診断などのすぐに使える機能が含まれており、エンドツーエンドのビッグデータワークフローを実行するためのさまざまなコンポーネントをサポートしています。
-
CDP は、複数のプラットフォームから顧客データを収集・統合するパブリックデータプラットフォームです。リアルタイムデータを収集して、個々のユーザーデータプロファイルを作成します。
DataWorks に CDH および CDP クラスターを登録して、タスク開発、スケジューリング、データマップでのメタデータ管理、Data Quality チェックを実行できます。
前提条件
-
CDH クラスターがデプロイされていること。
DataWorks は Alibaba Cloud Elastic Compute Service (ECS) 以外の環境にデプロイされた CDH をサポートしていますが、デプロイ環境と Alibaba Cloud VPC 間のネットワーク接続を確保する必要があります。通常、Express Connect や VPN などのサービスを使用してこの接続を確立できます。
-
DataWorks の新しいサーバーレスリソースグループ (推奨) またはスケジューリング用のレガシー専用リソースグループが必要です。
デフォルトでは、DataWorks のリソースグループは他のクラウド製品からネットワーク的に分離されています。CDH に接続するには、まず CDH クラスターとリソースグループ間のネットワーク接続を確立する必要があります。
説明-
サーバーレスリソースグループ (推奨) は、データ同期やタスクスケジューリングなど、さまざまなタスクタイプをサポートする汎用リソースグループです。購入の詳細については、「サーバーレスリソースグループの使用」をご参照ください。新規ユーザー (現在のリージョンで DataWorks のどのエディションもアクティベートしていないユーザー) は、新しいバージョンのリソースグループのみを購入できます。
-
スケジューリング用のレガシー専用リソースグループを使用して、CDH または CDP タスクを実行することもできます。詳細については、「スケジューリング用専用リソースグループの使用」をご参照ください。
-
CDH クラスター設定情報の取得
以下の手順に従って、DataWorks にクラスターを登録するために必要な CDH 設定情報を取得します。
-
CDH バージョン情報を取得します。
Cloudera Manager にログインします。ホームページの左側にあるクラスターパネルで、Cluster 1 (CDH 6.1.1, Parcel) のような CDH バージョン情報を見つけます。また、HBase、HDFS、Hive、Hue、Impala、Oozie、Solr、Spark、YARN、ZooKeeper などのサービスの実行ステータスを確認します。
-
登録時にクラスター接続を設定するために必要なホストおよびコンポーネントのアドレス情報を取得します。
Cloudera Manager での情報の検索
Cloudera Manager にログインします。上部メニューで、[Hosts] > [Roles] をクリックします。[Roles] ページでは、割り当てられたロールごとにホストがグループ化されています。たとえば、
cdh-header-1-cn-shanghaiホストには HMS、HS2、RM などのロールが割り当てられ、cdh-worker-[1-2]-cn-shanghaiホストには ID ロールが割り当てられています。説明:
-
HS2:HiveServer2
-
HMS:Hive メタストア
-
ID:Impala デーモン
-
RM:YARN リソースマネージャー
-
-
CDH クラスター登録時にアップロードする設定ファイルを取得します。
-
Cloudera Manager にログインします。
-
Status ページで、クラスターのドロップダウンメニューをクリックし、[View Client Configuration URLs] を選択します。
-
必要なサービスの設定パッケージをダウンロードします。たとえば、YARN 設定をダウンロードするには、ダイアログボックスで YARN を見つけます。ダイアログボックスには、YARN (MR2 Included)、HBase、Solr、HDFS、Hive などのサービスのクライアント設定のダウンロードリンクが表示されます。[YARN (MR2 Included)] など、対象サービスのダウンロードアイコンをクリックして、クライアント設定ファイルを取得します。
-
-
DataWorks リソースグループへの接続を設定するための CDH クラスターのネットワーク情報を取得します。
-
CDH クラスターがデプロイされている ECS コンソールにログインします。
-
インスタンスリストで、CDH クラスターがデプロイされている ECS インスタンスを見つけ、インスタンス名をクリックして Instance Details ページを開きます。セキュリティグループ、独自のネットワーク、[vSwitch] の情報を表示して記録します。
-
ネットワーク接続の設定
サーバーレスリソースグループ
このセクションでは、サーバーレスリソースグループを例に、リソースグループと CDH クラスター間のネットワーク接続を設定する方法について説明します。
デフォルトでは、DataWorks のサーバーレスリソースグループは他のクラウド製品からネットワーク的に分離されています。CDH クラスターに接続するには、リソースグループをクラスターが配置されている VPC にバインドする必要があります。これにより、CDH クラスターとリソースグループ間のネットワーク接続が確立されます。
-
サーバーレスリソースグループのネットワーク設定ページに移動します。
-
DataWorks コンソールにログインします。
-
左側メニューで、Resource Group をクリックします。リソースグループ ページが開き、デフォルトで Exclusive Resource Group タブが表示されます。
-
対象のリソースグループを見つけ、ネットワーク設定 列の [ネットワーク設定] をクリックします。
-
-
VPC をバインドします。
Vpcバインディング タブの [データスケジューリング & Data Integration] セクションで、バインディングの追加 をクリックします。設定ページで、「CDH クラスター設定情報の取得」の手順 4 で記録した CDH クラスターの VPC、ゾーン、vSwitch を選択します。
-
ホストを設定します。
Alibaba Cloud DNS コンソールに移動します。[Private DNS (PrivateZone)] を使用して、「CDH クラスター設定情報の取得」の手順 2 で記録したホストアドレスを権威解決します。
-
Private DNS を有効化します。詳細については、「Private DNS の有効化」をご参照ください。
説明すでに Private DNS を有効化している場合は、この手順をスキップできます。
-
ビルトイン権威ドメイン名を追加します。詳細については、「ビルトイン権威ドメイン名の追加」をご参照ください。
説明-
このトピックでは、名前解決の例として、「Cloudera Manager での情報の検索」で取得したホスト名
cdh-header-1-cn-shanghaiを使用します。実際のホスト名設定に基づいてパラメーターを調整してください。 -
解決される IP アドレスは、CDH クラスターがデプロイされている ECS インスタンスの
プライベート IP アドレスです。
-
-
ゾーンのスコープを設定します。詳細については、「ゾーンのスコープ設定」をご参照ください。
説明ゾーンの VPC スコープを設定する際は、リソースグループがバインドされている VPC を選択します。
-
スケジューリング用専用リソースグループ
このセクションでは、スケジューリング用専用リソースグループと CDH クラスター間のネットワーク接続を設定する方法について説明します。
デフォルトでは、DataWorks のスケジューリング用専用リソースグループは他のクラウド製品からネットワーク的に分離されています。CDH クラスターに接続するには、リソースグループをクラスターが配置されている VPC にバインドする必要があります。これにより、CDH クラスターとスケジューリング用専用リソースグループ間のネットワーク接続が確立されます。
-
スケジューリング用専用リソースグループのネットワーク設定ページに移動します。
-
DataWorks コンソールにログインします。
-
左側メニューで、Resource Group をクリックします。リソースグループ ページが開き、デフォルトで Exclusive Resource Group タブが表示されます。
-
対象のスケジューリング用専用リソースグループを見つけ、ネットワーク設定 列の [ネットワーク設定] をクリックします。
-
-
VPC をバインドします。
Vpcバインディング タブで、バインディングの追加 をクリックします。設定ページで、「CDH クラスター設定情報の取得」の手順 4 で記録した CDH クラスターの VPC、ゾーン、vSwitch、セキュリティグループを選択します。
-
ホストを設定します。
ホスト設定 タブをクリックします。Batch Edit をクリックし、ダイアログボックスに 「CDH クラスター設定情報の取得」の手順 2 で記録したホストアドレス情報を入力します。
次のステップ
このトピックの手順を完了したら、DataWorks に CDH クラスターを登録して開発を開始できます。詳細については、「DataStudio (レガシー): CDH コンピュートエンジンのバインド」をご参照ください。