すべてのプロダクト
Search
ドキュメントセンター

DataWorks:準備:クラスター情報の取得とネットワークの設定

最終更新日:Jun 22, 2026

DataWorks は、Cloudera’s Distribution Including Apache Hadoop (CDH) および Cloudera Data Platform (CDP) クラスターに接続します。DataWorks に CDH または CDP クラスターを登録して、タスク開発、スケジューリング、データマップでのメタデータ管理、Data Quality チェックなどのデータ開発およびガバナンス操作を実行できます。クラスターを登録する前に、必要な設定情報を取得し、クラスターとリソースグループ間のネットワーク接続を確立する必要があります。このトピックでは、CDH クラスターを例に、クラスター情報の取得方法とネットワーク接続の設定方法について説明します。

背景情報

  • CDH は Cloudera のオープンソースプラットフォームディストリビューションです。クラスター管理、監視、診断などのすぐに使える機能が含まれており、エンドツーエンドのビッグデータワークフローを実行するためのさまざまなコンポーネントをサポートしています。

  • CDP は、複数のプラットフォームから顧客データを収集・統合するパブリックデータプラットフォームです。リアルタイムデータを収集して、個々のユーザーデータプロファイルを作成します。

DataWorks に CDH および CDP クラスターを登録して、タスク開発、スケジューリング、データマップでのメタデータ管理、Data Quality チェックを実行できます。

前提条件

  • CDH クラスターがデプロイされていること。

    DataWorks は Alibaba Cloud Elastic Compute Service (ECS) 以外の環境にデプロイされた CDH をサポートしていますが、デプロイ環境と Alibaba Cloud VPC 間のネットワーク接続を確保する必要があります。通常、Express Connect や VPN などのサービスを使用してこの接続を確立できます。

  • DataWorks の新しいサーバーレスリソースグループ (推奨) またはスケジューリング用のレガシー専用リソースグループが必要です。

    デフォルトでは、DataWorks のリソースグループは他のクラウド製品からネットワーク的に分離されています。CDH に接続するには、まず CDH クラスターとリソースグループ間のネットワーク接続を確立する必要があります。

    説明
    • サーバーレスリソースグループ (推奨) は、データ同期やタスクスケジューリングなど、さまざまなタスクタイプをサポートする汎用リソースグループです。購入の詳細については、「サーバーレスリソースグループの使用」をご参照ください。新規ユーザー (現在のリージョンで DataWorks のどのエディションもアクティベートしていないユーザー) は、新しいバージョンのリソースグループのみを購入できます。

    • スケジューリング用のレガシー専用リソースグループを使用して、CDH または CDP タスクを実行することもできます。詳細については、「スケジューリング用専用リソースグループの使用」をご参照ください。

CDH クラスター設定情報の取得

以下の手順に従って、DataWorks にクラスターを登録するために必要な CDH 設定情報を取得します。

  1. CDH バージョン情報を取得します。

    Cloudera Manager にログインします。ホームページの左側にあるクラスターパネルで、Cluster 1 (CDH 6.1.1, Parcel) のような CDH バージョン情報を見つけます。また、HBase、HDFS、Hive、Hue、Impala、Oozie、Solr、Spark、YARN、ZooKeeper などのサービスの実行ステータスを確認します。

  2. 登録時にクラスター接続を設定するために必要なホストおよびコンポーネントのアドレス情報を取得します。

    Cloudera Manager での情報の検索

    Cloudera Manager にログインします。上部メニューで、[Hosts] > [Roles] をクリックします。[Roles] ページでは、割り当てられたロールごとにホストがグループ化されています。たとえば、cdh-header-1-cn-shanghai ホストには HMS、HS2、RM などのロールが割り当てられ、cdh-worker-[1-2]-cn-shanghai ホストには ID ロールが割り当てられています。

    説明:

    • HS2:HiveServer2

    • HMS:Hive メタストア

    • ID:Impala デーモン

    • RM:YARN リソースマネージャー

  3. CDH クラスター登録時にアップロードする設定ファイルを取得します。

    1. Cloudera Manager にログインします。

    2. Status ページで、クラスターのドロップダウンメニューをクリックし、[View Client Configuration URLs] を選択します。

    3. 必要なサービスの設定パッケージをダウンロードします。たとえば、YARN 設定をダウンロードするには、ダイアログボックスで YARN を見つけます。ダイアログボックスには、YARN (MR2 Included)、HBase、Solr、HDFS、Hive などのサービスのクライアント設定のダウンロードリンクが表示されます。[YARN (MR2 Included)] など、対象サービスのダウンロードアイコンをクリックして、クライアント設定ファイルを取得します。

  4. DataWorks リソースグループへの接続を設定するための CDH クラスターのネットワーク情報を取得します。

    1. CDH クラスターがデプロイされている ECS コンソールにログインします。

    2. インスタンスリストで、CDH クラスターがデプロイされている ECS インスタンスを見つけ、インスタンス名をクリックして Instance Details ページを開きます。セキュリティグループ独自のネットワーク[vSwitch] の情報を表示して記録します。

ネットワーク接続の設定

サーバーレスリソースグループ

このセクションでは、サーバーレスリソースグループを例に、リソースグループと CDH クラスター間のネットワーク接続を設定する方法について説明します。

デフォルトでは、DataWorks のサーバーレスリソースグループは他のクラウド製品からネットワーク的に分離されています。CDH クラスターに接続するには、リソースグループをクラスターが配置されている VPC にバインドする必要があります。これにより、CDH クラスターとリソースグループ間のネットワーク接続が確立されます。

  1. サーバーレスリソースグループのネットワーク設定ページに移動します。

    1. DataWorks コンソールにログインします。

    2. 左側メニューで、Resource Group をクリックします。リソースグループ ページが開き、デフォルトで Exclusive Resource Group タブが表示されます。

    3. 対象のリソースグループを見つけ、ネットワーク設定 列の [ネットワーク設定] をクリックします。

  2. VPC をバインドします。

    Vpcバインディング タブの [データスケジューリング & Data Integration] セクションで、バインディングの追加 をクリックします。設定ページで、「CDH クラスター設定情報の取得」の手順 4 で記録した CDH クラスターの VPC、ゾーン、vSwitch を選択します。

  3. ホストを設定します。

    Alibaba Cloud DNS コンソールに移動します。[Private DNS (PrivateZone)] を使用して、「CDH クラスター設定情報の取得」の手順 2 で記録したホストアドレスを権威解決します。

    1. Private DNS を有効化します。詳細については、「Private DNS の有効化」をご参照ください。

      説明

      すでに Private DNS を有効化している場合は、この手順をスキップできます。

    2. ビルトイン権威ドメイン名を追加します。詳細については、「ビルトイン権威ドメイン名の追加」をご参照ください。

      説明
      • このトピックでは、名前解決の例として、「Cloudera Manager での情報の検索」で取得したホスト名 cdh-header-1-cn-shanghai を使用します。実際のホスト名設定に基づいてパラメーターを調整してください。

      • 解決される IP アドレスは、CDH クラスターがデプロイされている ECS インスタンスの プライベート IP アドレス です。

    3. ゾーンのスコープを設定します。詳細については、「ゾーンのスコープ設定」をご参照ください。

      説明

      ゾーンの VPC スコープを設定する際は、リソースグループがバインドされている VPC を選択します。

スケジューリング用専用リソースグループ

このセクションでは、スケジューリング用専用リソースグループと CDH クラスター間のネットワーク接続を設定する方法について説明します。

デフォルトでは、DataWorks のスケジューリング用専用リソースグループは他のクラウド製品からネットワーク的に分離されています。CDH クラスターに接続するには、リソースグループをクラスターが配置されている VPC にバインドする必要があります。これにより、CDH クラスターとスケジューリング用専用リソースグループ間のネットワーク接続が確立されます。

  1. スケジューリング用専用リソースグループのネットワーク設定ページに移動します。

    1. DataWorks コンソールにログインします。

    2. 左側メニューで、Resource Group をクリックします。リソースグループ ページが開き、デフォルトで Exclusive Resource Group タブが表示されます。

    3. 対象のスケジューリング用専用リソースグループを見つけ、ネットワーク設定 列の [ネットワーク設定] をクリックします。

  2. VPC をバインドします。

    Vpcバインディング タブで、バインディングの追加 をクリックします。設定ページで、「CDH クラスター設定情報の取得」の手順 4 で記録した CDH クラスターの VPC、ゾーン、vSwitch、セキュリティグループを選択します。

  3. ホストを設定します。

    ホスト設定 タブをクリックします。Batch Edit をクリックし、ダイアログボックスに 「CDH クラスター設定情報の取得」の手順 2 で記録したホストアドレス情報を入力します。

次のステップ

このトピックの手順を完了したら、DataWorks に CDH クラスターを登録して開発を開始できます。詳細については、「DataStudio (レガシー): CDH コンピュートエンジンのバインド」をご参照ください。