すべてのプロダクト
Search
ドキュメントセンター

DataWorks:CDH 計算リソースの関連付け

最終更新日:Mar 27, 2026

DataWorks で Cloudera Distribution Including Apache Hadoop (CDH) クラスター上のタスクを開発・管理するには、そのクラスターを計算リソースとして登録する必要があります。登録後、その計算リソースはデータ同期やデータ開発タスクで利用可能になります。

利用可能なリージョン:中国 (北京)、中国 (上海)、中国 (深セン)、中国 (杭州)、中国 (張家口)、中国 (成都)、ドイツ (フランクフルト)。

前提条件

開始する前に、以下をご確認ください:

  • ワークスペースに ワークスペース管理者 ロールを持つ RAM ユーザーが追加されていること

  • CDH クラスターがデプロイされていること — DataWorks は、デプロイ環境が Alibaba Cloud の Virtual Private Cloud (VPC) に接続されていれば、Alibaba Cloud Elastic Compute Service (ECS) の外部にデプロイされた CDH クラスターをサポートします。詳細については、「IDC データソースのネットワーク接続」をご参照ください。

  • ワークスペースに関連付けられたリソースグループがあり、ネットワーク接続が確認されていること:

権限

オペレーター 必要な権限
Alibaba Cloud アカウント なし
RAM ユーザーまたは RAM ロール 運用保守 および ワークスペース管理者 ロール、または AliyunDataWorksFullAccess 権限。詳細については、「ユーザースペース管理者権限の付与」をご参照ください。

計算リソースリストへの移動

  1. DataWorks コンソールにログインし、対象のリージョンに切り替えます。

  2. 左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。ご利用のワークスペースを選択し、[管理センターへ] をクリックします。

  3. 左側のナビゲーションウィンドウで、[計算リソース] をクリックします。

CDH 計算リソースの関連付け

  1. [計算リソース] ページで、[計算リソースの関連付け] をクリックします。

  2. [コンピューティングリソースの関連付け] ページで、コンピューティングリソースタイプを [CDH] に設定します。[CDH コンピューティングリソースの関連付け] ページにリダイレクトされます。

  3. 以下で説明するパラメーターを設定し、[確認] をクリックします。

クラスターのバージョンと名前

パラメーター 説明
クラスターバージョン 登録する CDH または CDP のバージョン。サポートされているバージョンとその固定コンポーネントバージョンについては、「クラスター接続情報」をご参照ください。コンポーネントのバージョンを手動で指定するには、[カスタムバージョン] を選択します。
クラスター名 別のワークスペースに登録されている既存のクラスターを選択してその設定をロードするか、名前を入力して新しい設定を作成します。
計算リソースインスタンス名 この計算リソースの表示名。実行時に、タスクはこの名前で計算リソースを参照します。
カスタムバージョンのクラスターは、スケジューリング用にレガシ専用リソースグループのみをサポートします。登録後、環境を初期化するには、チケットを送信してください。

クラスター接続情報

タスクが使用する Hadoop コンポーネントの接続エンドポイントを設定します。システムは、選択されたクラスターバージョンに対応するコンポーネントバージョンを自動的に検出します。

コンポーネント 接続フォーマット 設定するタイミング
Hive — HiveServer2 jdbc:hive2://<host>:<port>/<database> Hive ジョブの送信
Hive — メタストア thrift://<host>:<port> Hive ジョブを送信する
Impala jdbc:impala://<host>:<port>/<schema> Impala ジョブの送信
Spark リストからデフォルトバージョンを選択 Spark タスクを実行する場合
YARN — ResourceManager アドレス http://<host>:<port> Spark または MapReduce タスクを送信する場合
YARN — JobHistory Web アプリケーションアドレス http://<host>:<port2> JobHistory Server の Web UI で過去のタスク詳細を表示する場合
MapReduce リストからデフォルトバージョンを選択 MapReduce タスクを実行する
Presto jdbc:presto://<host>:<port>/<catalog>/<schema> Presto ジョブを送信する場合 (CDH のデフォルトコンポーネントではない)

ご利用のクラスターの接続パラメーターを調べるには、「CDH または CDP クラスター情報の取得とネットワーク接続の設定」をご参照ください。

サーバーレスリソースグループを使用し、ドメイン名で CDH コンポーネントにアクセスする場合、Alibaba Cloud DNS PrivateZone で CDH コンポーネントのドメイン名に対する権威解決を設定し、その有効範囲を設定する必要があります。

クラスター設定ファイル

実行予定のタスクに対応する設定ファイルをアップロードします。

ファイル 説明 アップロードするタイミング
Core-site ファイル グローバルな Hadoop 分散ファイルシステム (HDFS) および MapReduce の I/O 設定 Spark または MapReduce タスクを実行する場合
Hdfs-site ファイル HDFS 設定:ブロックサイズ、レプリケーション係数、パス名
Mapred-site ファイル MapReduce の実行モードとスケジューリング動作 MapReduce タスクを実行する場合
Yarn-site ファイル YARN のリソースマネージャー、ノードマネージャー、アプリケーション実行時設定 Spark または MapReduce タスクを実行する場合、または Kerberos アカウントマッピングを使用する場合
Hive-site ファイル Hive のデータベース接続、メタストア、実行エンジンの設定 Kerberos アカウントマッピングを使用する場合
Spark-defaults ファイル デフォルトの Spark ジョブ設定 (spark-defaults.conf):メモリ、CPU コア、その他の実行時パラメーター Spark タスクを実行する場合
Config.properties ファイル Presto のコーディネーターとワーカーノードの設定 OPEN LDAP または Kerberos 認証で Presto を使用する場合
Presto.jks ファイル 暗号化された Presto 通信のための SSL/TLS 証明書

デフォルトアクセス ID

タスクが CDH クラスターに対して実行される際に使用されるクラスター ID を設定します。ID マッピングを設定するには、[計算リソース] ページの [アカウントマッピング] タブに移動します。詳細については、「クラスター ID マッピングの設定」をご参照ください。

環境 利用可能なオプション
開発環境 クラスターアカウント、タスク実行者のマップ済みクラスターアカウント
本番環境 クラスターアカウント、タスク所有者のマップ済みクラスターアカウント、Alibaba Cloud アカウントのマップ済みクラスターアカウント、RAM ユーザーのマップ済みクラスターアカウント

リソースグループの初期化

初めてクラスターを登録するとき、またはクラスターのサービス設定を変更した後 (例:core-site.xml の変更)、リソースグループを初期化します。初期化により、ネットワーク接続が設定された後、リソースグループが CDH クラスターに到達できるようになります。

  1. [コンピューティングリソース]」ページで、作成した CDH コンピューティングリソースを見つけます。

  2. 右上隅にある [リソースグループの初期化] をクリックします。

  3. 対象のリソースグループの横にある [初期化] をクリックし、[OK] をクリックします。

その他の操作

YARN リソースキューの設定 (任意)

[計算リソース] ページで、CDH クラスターを見つけます。[YARN リソースキュー] タブで、[YARN リソースキューの編集] をクリックして、異なるモジュールのタスクに専用の YARN リソースキューを割り当てます。

Spark パラメーターの設定 (任意)

[計算リソース] ページで、CDH クラスターを見つけます。[Spark 関連パラメーター] タブで、[Spark 関連パラメーターの編集] をクリックします。対象のモジュールの下にある [追加] をクリックし、[Spark プロパティ名][Spark プロパティ値] を入力します。Spark プロパティの完全なリストについては、「Spark 設定」をご参照ください。

Kerberos 認証のためのホストマッピングの設定 (任意)

Kerberos 認証が有効になっている CDH クラスターでサーバーレスリソースグループを使用する場合、DNS がクラスターの IP アドレスを Kerberos に登録されているホスト名に解決できないと、タスクの送信が失敗することがあります。

[ホスト設定] 機能を使用すると、計算リソースに対して静的な IP-ホスト名マッピングテーブルを定義できます。DataWorks は、CDH クラスターにアクセスする際にこのマッピングを使用し、Kerberos 認証が成功するようにします。

ホストマッピングを設定するには:

  1. [計算リソース] ページで、CDH 計算リソースを見つけ、[ホスト設定] をクリックします。

  2. ダイアログボックスに、次のフォーマットでマッピングを入力します。各行が 1 つのマッピングレコードになります:

    <IP アドレス> <ホスト名>

    IP アドレスとホスト名は 1 つ以上のスペースで区切ります。NameNode、ResourceManager、NodeManagers など、Kerberos 認証とタスク実行に関与するすべての主要ノードのマッピングを設定します。

  3. [OK] をクリックして保存します。設定されたホスト名が計算リソースカードに表示され、設定がアクティブであることが確認されます。

重要

ホスト設定は現在の計算リソースにのみ適用され、ワークスペース内の他の計算リソースには影響しません。

次のステップ

CDH 計算リソースを設定した後、Data Studio の CDH 関連ノード を使用してデータ開発を行います。