すべてのプロダクト
Search
ドキュメントセンター

DataWorks:前提条件: クラスター情報とネットワーク構成

最終更新日:Mar 04, 2026

DataWorks では、Cloudera's Distribution Including Apache Hadoop (CDH) クラスターと Cloudera Data Platform (CDP) クラスターに接続できます。DataWorks に CDH クラスターと CDP クラスターを登録すると、タスク開発、スケジューリング、Data Map (メタデータ管理)、Data Quality など、一連のデータ開発および管理操作を実行できます。CDH または CDP クラスターを登録する前に、必要な構成情報を取得し、クラスターとリソースグループ間のネットワーク接続を構成する必要があります。このトピックでは、CDH クラスターを例として、クラスター情報を取得し、クラスターとリソースグループ間のネットワーク接続を構成する方法について説明します。

背景情報

  • CDH は、Cloudera が提供するオープンソースプラットフォームディストリビューションです。クラスター管理、モニタリング、診断などのすぐに使える機能を提供します。また、エンドツーエンドのビッグデータワークフローを実行するのに役立つさまざまなコンポーネントもサポートしています。

  • CDP は、プラットフォーム間で顧客データを収集および統合するパブリックデータプラットフォームです。リアルタイムデータを収集し、それを使用して個々のユーザーデータプロファイルを作成するのに役立ちます。

DataWorks に CDH クラスターと CDP クラスターを登録すると、ビジネスニーズに合わせてデータ開発および管理操作を実行できます。これらの操作には、タスク開発、スケジューリング、Data Map (メタデータ管理)、Data Quality が含まれます。

前提条件

  • CDH クラスターがデプロイされていること。

    DataWorks は、Alibaba Cloud ECS インスタンスにデプロイされていない CDH クラスターをサポートしています。ただし、CDH クラスターがデプロイされている環境が Alibaba Cloud virtual private cloud (VPC) に接続できることを確認する必要があります。通常、Express Connect や VPN などのネットワークソリューションを使用して接続性を確保できます。

  • DataWorks 用の新しい Serverless リソースグループ (推奨) または旧バージョンの専用スケジューリングリソースグループを購入済みであること。

    DataWorks リソースグループを購入しても、デフォルトでは他のクラウド製品に接続できません。CDH クラスターに接続するには、関連操作を実行する前に、まず CDH クラスターとリソースグループ間のネットワーク接続を確立する必要があります。

    説明
    • Serverless リソースグループ (推奨) は汎用リソースグループです。これらは、データ同期やタスクスケジューリングなど、さまざまなタスクタイプに使用できます。Serverless リソースグループの購入の詳細については、「Serverless リソースグループの使用」をご参照ください。新規ユーザーは新しいリソースグループのみを購入できます。新規ユーザーとは、現在のリージョンで DataWorks のいずれかのバージョンをアクティブ化したことがないユーザーです。

    • 旧バージョンの専用スケジューリングリソースグループを購入している場合でも、それを使用して CDH または CDP タスクを実行できます。詳細については、「専用スケジューリングリソースグループの使用」をご参照ください。

CDH クラスター構成情報の取得

DataWorks に CDH クラスターを登録するために必要な CDH 構成情報を取得するには、次の手順に従います。

  1. CDH バージョンの取得。

    Cloudera Manager にログインします。メインページで、デプロイされている CDH クラスターのバージョンを見つけます。バージョンは、次の図に示すように、クラスター名の右側に表示されます。cdh版本信息

  2. ホストとコンポーネントアドレスの取得。この情報は、CDH クラスターを登録する際にクラスター接続を構成するために使用します。

    Cloudera Manager での手動確認

    Cloudera Manager にログインします。[Hosts] ドロップダウンメニューから [Roles] を選択します。キーワードとアイコンに基づいて構成するサービスを特定します。次に、左側にある対応する [Host] を見つけて、必要な形式でアドレスを記録します。方法二

    詳細:

    • HS2: HiveServer2

    • HMS: Hive Metastore

    • ID: Impala Daemon

    • RM: YARN ResourceManager

  3. 構成ファイルの取得。このファイルは、CDH クラスターを登録する際にアップロードします。

    1. Cloudera Manager にログインします。

    2. [ステータス] ページで、クラスターのドロップダウンメニューをクリックし、[クライアント設定URLの表示] を選択します。構成ファイル

    3. ダイアログボックスで、構成パッケージをダウンロードします。この例では YARN を使用します。配置文件2

  4. CDH クラスターのネットワーク情報の取得。この情報は、DataWorks リソースグループとのネットワーク接続を構成するために使用します。

    1. CDH クラスターがデプロイされている ECS コンソール にログインします。

    2. インスタンス一覧で、CDH クラスターがデプロイされている ECS インスタンスを検索します。インスタンス名をクリックして、[インスタンスの詳細] ページに移動します。このページで、[セキュリティグループ][VPC]、および[仮想スイッチ] の情報を記録します。

ネットワーク接続の構成

Serverless リソースグループ

このセクションでは、Serverless リソースグループと CDH クラスター間のネットワーク接続を構成する方法について説明します。

DataWorks Serverless リソースグループを購入しても、デフォルトでは他のクラウド製品に接続できません。CDH クラスターに接続するには、CDH クラスターのネットワーク情報を取得し、リソースグループをクラスターがデプロイされている VPC にアタッチする必要があります。これにより、CDH クラスターとリソースグループ間のネットワーク接続が確保されます。

  1. Serverless リソースグループのネットワーク構成ページに移動します。

    1. DataWorks コンソール にログインします。

    2. 左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。[リソースグループ一覧] ページの [専用リソースグループ] タブがデフォルトで表示されます。

    3. リソースグループの横にある[ネットワーク設定]をクリックします。

  2. VPC のアタッチ。

    [VPC バインディング] タブの [データスケジューリングおよびデータ統合] セクションで、[バインディングの追加] をクリックします。設定ページで、CDH クラスターが配置されている VPC、ゾーン、および vSwitch を選択します。『「CDH クラスター構成情報の取得」セクションの手順 4』で記録した情報を使用します。

  3. ホストの構成。

    Alibaba Cloud DNS コンソール (Alibaba Cloud DNS) に移動し、[PrivateZone] で、「CDH クラスター構成情報の取得」セクションの手順 2 で記録したホストアドレス用の権威ゾーンを追加します。

    1. 内部 DNS 解決のアクティブ化。詳細については、「内部 DNS 解決のアクティブ化」をご参照ください。

      説明

      内部 DNS 解決をすでにアクティブ化している場合は、このステップをスキップできます。

    2. 組み込みの権限のあるドメイン名の追加。詳細については、「組み込みの権限のあるドメイン名の追加」をご参照ください。

      説明
      • このトピックでは、「Cloudera Manager 管理コンソールからアドレスを取得する」セクションで取得したホストドメイン名 cdh-header-1-cn-shanghai を例として使用します。ドメイン名 cdh-header-1-cn-shanghai の権限のある解決が構成されています。ご利用のホストドメイン名に基づいてこのパラメーターを調整してください。

      • 解決された IP アドレスは、CDH クラスターがデプロイされている ECS インスタンスの Private IP Address です。

    3. ドメイン名のスコープの設定。詳細については、「ドメイン名のスコープの設定」をご参照ください。

      説明

      ドメイン名のスコープを設定する際は、CDH クラスターとリソースグループがアタッチされている VPC を選択します。

専用スケジューリングリソースグループ

このセクションでは、専用スケジューリングリソースグループと CDH クラスター間のネットワーク接続を構成する方法について説明します。

DataWorks 専用スケジューリングリソースグループを購入しても、デフォルトでは他のクラウド製品に接続できません。CDH クラスターに接続するには、CDH クラスターのネットワーク情報を取得し、専用スケジューリングリソースグループをクラスターがデプロイされている VPC にアタッチする必要があります。これにより、CDH クラスターと専用スケジューリングリソースグループ間のネットワーク接続が確保されます。

  1. 専用リソースグループのネットワーク構成ページに移動します。

    1. DataWorks コンソール にログインします。

    2. 左側のナビゲーションウィンドウで、[リソースグループ] をクリックします。[リソースグループ一覧] ページが表示され、[専用リソースグループ] タブがデフォルトで選択されます。

    3. 専用スケジューリングリソースグループの横にある[ネットワーク設定]をクリックします。

  2. VPC を関連付けます。

    VPC バインディング]タブで、[バインディングの追加]をクリックします。構成ページで、CDH クラスターの VPC、ゾーン、vSwitch、およびセキュリティグループを選択します。この情報は、「『CDH クラスター構成情報の取得』セクションの手順 4」で記録しました。

  3. ホストの構成。

    [ホスト構成] タブで、[一括変更] をクリックします。ダイアログボックスで、「CDHクラスター構成情報の取得」セクションの手順2で記録したホストアドレス情報を入力します。ホスト構成

次のステップ

このトピックで説明した事前準備を完了した後、CDH クラスターを DataWorks に登録し、開発操作を実行できます。詳細については、「データ開発(従来型):CDH 計算リソースのアタッチ」をご参照ください。