すべてのプロダクト
Search
ドキュメントセンター

DataWorks:DataStudio (レガシー): CDH 計算リソースをバインドする

最終更新日:Nov 19, 2025

DataWorks は Cloudera Distribution for Hadoop (CDH) および Cloudera Data Platform (CDP) クラスターに接続できます。DataWorks に CDH または CDP クラスターを登録すると、タスク開発、スケジューリング、データマップでのメタデータ管理、データ品質モニタリングなどのデータ開発およびガバナンス操作を実行できます。

背景情報

  • CDH は Cloudera のオープンソースプラットフォームディストリビューションです。CDH は、クラスター管理、クラスターモニタリング、クラスター診断などのすぐに使える機能を提供します。CDH はまた、エンドツーエンドのビッグデータワークフローを実行するのに役立つさまざまなコンポーネントをサポートしています。

  • CDP は、プラットフォーム間で顧客データを収集および統合する共通のデータプラットフォームです。CDP を使用してリアルタイムデータを収集し、リアルタイムデータを個々のユーザーデータとして構築できます。

CDH および CDP クラスターを DataWorks に登録できます。その後、タスク開発、タスクスケジューリング、データマップでのメタデータ管理、データ品質モニタリングなどの DataWorks の機能を使用して、ビジネス要件に基づいてクラスター内のデータを開発および管理できます。

前提条件

制限事項

  • CDH または CDP クラスタータスクの実行には、サーバーレスリソースグループ (推奨) または以前のバージョンの専用スケジューリングリソースグループのみを使用できます。

    説明
    • サーバーレスリソースグループは、データ同期やタスクスケジューリングなど、さまざまなシナリオで使用できる汎用リソースグループです。サーバーレスリソースグループの購入方法の詳細については、「サーバーレスリソースグループの使用」をご参照ください。以前のバージョンの専用スケジューリングリソースグループを購入した場合、そのリソースグループを使用して CDH または CDP タスクを実行することもできます。詳細については、「専用スケジューリングリソースグループの使用」をご参照ください。

    • 新規ユーザーはサーバーレスリソースグループのみを購入できます。

    • DataWorks に [カスタムバージョン] のクラスターを登録する場合、以前のバージョンの専用スケジューリングリソースグループのみを使用できます。クラスターバージョンの詳細については、「ステップ 2: CDH または CDP クラスターを登録する」をご参照ください。

  • DataWorks に CDH または CDP クラスターを登録できるのは、中国 (北京)、中国 (上海)、中国 (杭州)、中国 (深圳)、中国 (張家口)、中国 (成都)、およびドイツ (フランクフルト) のリージョンのみです。

ステップ 1: クラスター登録ページに移動する

  1. SettingCenter ページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。

  2. 左側のナビゲーションウィンドウで [クラスター管理] をクリックして [クラスター管理] ページに移動します。[クラスターの登録]をクリックし、オープンソースクラスタータイプとして [CDH] を選択して、クラスター登録ページに移動します。

ステップ 2: CDH または CDP クラスターを登録する

説明
  • 標準モードのワークスペースを使用する場合、開発環境と本番環境の両方にクラスターを登録する必要があります。ワークスペースモードの詳細については、「ワークスペースモードの違い」をご参照ください。

  • DataWorks での CDP および CDH クラスターの開発操作は基本的に同じです。このトピックでは、CDH クラスターを例として、DataWorks に CDH クラスターを登録する方法について説明します。

  1. クラスターの基本情報を構成します。

    パラメーター

    説明

    表示名

    DataWorks でのクラスターの名前。名前は一意である必要があります。

    クラスターバージョン

    登録するクラスターのバージョンを選択します。

    CDH 5.16.2、CDH 6.1.1、CDH 6.2.1、CDH 6.3.2、または CDP 7.1.7 を選択できます。これらのクラスターバージョンのコンポーネントバージョンは固定されています。クラスター接続情報 セクションでコンポーネントのバージョンを表示できます。これらのクラスターバージョンがビジネスニーズを満たさない場合は、[カスタムバージョン] を選択し、必要に応じてコンポーネントバージョンを構成します。

    説明
    • 構成する必要があるコンポーネントは、クラスターのバージョンによって異なります。ページに実際に表示されるコンポーネントが優先されます。

    • DataWorks に [カスタムバージョン] のクラスターを登録する場合、以前のバージョンの専用スケジューリングリソースグループのみを使用できます。登録が完了したら、チケットを送信してテクニカルサポートに連絡し、環境を初期化する必要があります。

    クラスター名

    登録するクラスターの構成情報のソースを決定するために使用されます。別のワークスペースに登録されているクラスターを選択するか、新しいクラスターを作成できます。

    • 登録済みクラスター: 登録するクラスターの構成情報は、別のワークスペースに登録されているクラスターの構成情報を直接参照します。

    • 新しいクラスター: 登録するクラスターの構成情報を構成する必要があります。

  2. クラスター接続情報を構成します。

    クラスターにデプロイされているコンポーネントのバージョンを選択し、取得したコンポーネントアドレスを入力します。コンポーネント情報の取得方法の詳細については、「準備: CDH または CDP クラスターに関する構成情報を取得し、ネットワーク接続を構成する」をご参照ください。image.png

    説明

    サーバーレスリソースグループを使用してドメイン名で CDH 関連コンポーネントにアクセスする場合、Alibaba Cloud DNS の [PrivateZone] で CDH コンポーネントのドメイン名に対する権威解決を構成する必要があります。詳細については、「組み込みの権限のあるドメイン名を追加する」および「ドメイン名の範囲を設定する」をご参照ください。

  3. クラスター構成ファイルを追加します。

    必要なコンポーネントの構成ファイルをアップロードします。構成ファイルの取得方法の詳細については、「準備: CDH または CDP クラスターに関する構成情報を取得し、ネットワーク接続を構成する」をご参照ください。

    image.png

    次の表に構成ファイルを示します。

    構成ファイル

    説明

    シナリオ

    core-site.xml

    HDFS および MapReduce の共通 I/O 設定など、Hadoop Core ライブラリのグローバル構成が含まれます。

    Spark または MapReduce タスクを実行するには、このファイルをアップロードします。

    hdfs-site.xml

    データブロックサイズ、バックアップ数、パス名など、HDFS 関連の構成が含まれます。

    mapred-site.xml

    MapReduce ジョブの実行メソッドやスケジューリング動作など、MapReduce 関連のパラメーターを構成します。

    MapReduce タスクを実行するには、このファイルをアップロードします。

    yarn-site.xml

    リソースマネージャー、ノードマネージャー、アプリケーションランタイムの環境構成など、YARN デーモンプロセスに関連するすべての構成が含まれます。

    Spark または MapReduce タスクを実行する場合、またはアカウントマッピングタイプとして Kerberos を選択した場合は、このファイルをアップロードします。

    hive-site.xml

    データベース接続情報、Hive Metastore 設定、実行エンジンなど、Hive を構成するためのパラメーターが含まれます。

    アカウントマッピングタイプとして Kerberos を選択した場合は、このファイルをアップロードします。

    spark-defaults.conf

    Spark ジョブ実行のデフォルト構成を指定します。spark-defaults.conf ファイルを使用して、メモリサイズや CPU コア数などのパラメーターを事前構成できます。Spark アプリケーションは、実行時にこれらのパラメーター構成を使用します。

    Spark タスクを実行するには、このファイルをアップロードします。

    config.properties

    Presto クラスターのコーディネーターノードとワーカーノードのグローバルプロパティなど、Presto サーバーの構成が含まれます。

    Presto コンポーネントを使用し、アカウントマッピングタイプとして OPEN LDAP または Kerberos を選択した場合は、このファイルをアップロードします。

    presto.jks

    秘密鍵やアプリケーションに発行された公開鍵証明書など、セキュリティ証明書を格納します。Presto データベースクエリエンジンでは、presto.jks ファイルを使用して Presto プロセスの SSL/TLS 暗号化通信を有効にし、データ送信のセキュリティを確保します。

  4. クラスターのデフォルトのアクセス ID を構成します。

    DataWorks で CDH クラスタータスクを実行するときに CDH クラスターへのアクセスに使用されるアカウントを構成します。サポートされるアカウントは環境によって異なります。

    説明

    クラスターを登録する際に、[デフォルトのアクセス ID] をクラスターアカウント以外のアカウントに設定し、アカウントマッピングが構成されていないか、マッピングタイプが認証なしに設定されている場合、すべてのタスクが失敗します。

    環境

    デフォルトのアクセス ID

    リファレンス

    開発環境

    • クラスターアカウント: Alibaba Cloud アカウントや開発権限のみを持つ RAM ユーザーなど、DataWorks で CDH タスクを実行するユーザーに関係なく、指定されたクラスターアカウントが CDH クラスターへのアクセスに使用されます。

    • マップされたアカウント: タスクエグゼキュータが CDH タスクを実行する場合、タスクエグゼキュータアカウントとクラスターアカウント間のマッピングを構成する必要があります。マッピングが構成されると、タスクの実行時にマップされたクラスターアカウントが CDH クラスターへのアクセスに使用されます。

    アカウントマッピングの構成方法の詳細については、「クラスター ID マッピングの設定」をご参照ください。

    本番環境

    • クラスターアカウント: Alibaba Cloud アカウントや開発権限のみを持つ RAM ユーザーなど、DataWorks で CDH タスクを実行するユーザーに関係なく、指定されたクラスターアカウントが CDH クラスターへのアクセスに使用されます。

    • マップされたアカウント: タスクのオーナー、Alibaba Cloud アカウント、または RAM ユーザーが CDH タスクを実行する場合、対応するアカウントとクラスターアカウント間のマッピングを構成する必要があります。マッピングが構成されると、タスクの実行時にマップされたクラスターアカウントが CDH クラスターへのアクセスに使用されます。

  5. [登録の完了] をクリックして、DataWorks にクラスターを登録します。

ステップ 3: リソースグループを初期化する

クラスターをバインドする初回、またはクラスターサービスの構成が変更された場合やコンポーネントがアップグレードされた場合 (たとえば、core-site.xml ファイルを変更した場合) は、リソースグループを初期化する必要があります。これにより、リソースグループが CDH クラスターにアクセスでき、CDH クラスタータスクがリソースグループの現在の環境構成を使用して実行できるようになります。[クラスター管理] ページで、登録済みの CDH クラスターを見つけ、右上隅にある [リソースグループの初期化] をクリックし、必要なリソースグループを選択して初期化します。

説明
  • DataWorks では、CDH クラスタータスクを実行するために、サーバーレスリソースグループ (推奨) と専用スケジューリングリソースグループのみを使用できます。したがって、これらの 2 種類のリソースグループのみを初期化できます。利用可能なリソースグループがない場合は、必要に応じて作成できます。詳細については、「サーバーレスリソースグループの使用」および「専用スケジューリングリソースグループの使用」をご参照ください。

  • DataWorks に [カスタムバージョン] のクラスターを登録する場合、以前のバージョンの専用スケジューリングリソースグループのみを使用できます。登録が完了したら、チケットを送信してテクニカルサポートに連絡し、環境を初期化する必要があります。

(オプション) YARN リソースキューを設定する

YARN リソースキューは、クラスターリソースをパーティション分割して分離し、さまざまな種類のタスクが計算リソースを公平に使用し、干渉を回避できるようにします。さまざまなモジュールのタスクに専用の YARN リソースキューを設定するには、[クラスター管理] ページでバインドした CDH クラスターを見つけます。[YARN リソースキュー] タブで、[YARN リソースキューの編集] をクリックして設定を構成します。

(オプション) SPARK パラメーターを設定する

さまざまなモジュールのタスクに専用の SPARK プロパティパラメーターを設定できます。

  1. [クラスター管理] ページで、バインドした CDH クラスターを見つけます。

  2. [SPARK パラメーター] タブをクリックし、次に [SPARK パラメーターの編集] をクリックして、CDH クラスターの SPARK パラメーターを編集するページに移動します。

  3. モジュールの下にある [追加] をクリックします。[Spark プロパティ名] と対応する [Spark プロパティ値] を入力して、Spark プロパティ情報を設定します。

次のステップ

  • クラスター ID マッピングの設定: CDH クラスターのデフォルトのアクセス ID が指定されたクラスターアカウントでない場合 (つまり、アクセスが DataWorks アカウントを介して行われる場合)、DataWorks アカウントとクラスターアカウント間のマッピングを構成する必要があります。これにより、DataWorks アカウントはマップされたクラスター ID を使用して CDH クラスターにアクセスでき、データ権限の分離と制御が実装されます。

  • CDH 計算リソースを構成した後、データ開発で CDH 関連ノードを使用してデータ開発操作を実行できます。