DataWorks で Cloudera Distribution Including Apache Hadoop (CDH) クラスター上のタスクを開発・管理するには、そのクラスターを計算リソースとして登録する必要があります。登録後、その計算リソースはデータ同期やデータ開発タスクで利用可能になります。
利用可能なリージョン:中国 (北京)、中国 (上海)、中国 (深セン)、中国 (杭州)、中国 (張家口)、中国 (成都)、ドイツ (フランクフルト)。
前提条件
開始する前に、以下をご確認ください:
-
ワークスペースに ワークスペース管理者 ロールを持つ RAM ユーザーが追加されていること
-
CDH クラスターがデプロイされていること — DataWorks は、デプロイ環境が Alibaba Cloud の Virtual Private Cloud (VPC) に接続されていれば、Alibaba Cloud Elastic Compute Service (ECS) の外部にデプロイされた CDH クラスターをサポートします。詳細については、「IDC データソースのネットワーク接続」をご参照ください。
-
ワークスペースに関連付けられたリソースグループがあり、ネットワーク接続が確認されていること:
-
サーバーレスリソースグループ を使用する場合、CDH 計算リソースと サーバーレスリソースグループ 間の接続性を確認します。
-
レガシ専用リソースグループ を使用する場合、CDH 計算リソースと 専用スケジューリングリソースグループ 間の接続性を確認します。
-
権限
| オペレーター | 必要な権限 |
|---|---|
| Alibaba Cloud アカウント | なし |
| RAM ユーザーまたは RAM ロール | 運用保守 および ワークスペース管理者 ロール、または AliyunDataWorksFullAccess 権限。詳細については、「ユーザースペース管理者権限の付与」をご参照ください。 |
計算リソースリストへの移動
-
DataWorks コンソールにログインし、対象のリージョンに切り替えます。
-
左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。ご利用のワークスペースを選択し、[管理センターへ] をクリックします。
-
左側のナビゲーションウィンドウで、[計算リソース] をクリックします。
CDH 計算リソースの関連付け
-
[計算リソース] ページで、[計算リソースの関連付け] をクリックします。
-
[コンピューティングリソースの関連付け] ページで、コンピューティングリソースタイプを [CDH] に設定します。[CDH コンピューティングリソースの関連付け] ページにリダイレクトされます。
-
以下で説明するパラメーターを設定し、[確認] をクリックします。
クラスターのバージョンと名前
| パラメーター | 説明 |
|---|---|
| クラスターバージョン | 登録する CDH または CDP のバージョン。サポートされているバージョンとその固定コンポーネントバージョンについては、「クラスター接続情報」をご参照ください。コンポーネントのバージョンを手動で指定するには、[カスタムバージョン] を選択します。 |
| クラスター名 | 別のワークスペースに登録されている既存のクラスターを選択してその設定をロードするか、名前を入力して新しい設定を作成します。 |
| 計算リソースインスタンス名 | この計算リソースの表示名。実行時に、タスクはこの名前で計算リソースを参照します。 |
カスタムバージョンのクラスターは、スケジューリング用にレガシ専用リソースグループのみをサポートします。登録後、環境を初期化するには、チケットを送信してください。
クラスター接続情報
タスクが使用する Hadoop コンポーネントの接続エンドポイントを設定します。システムは、選択されたクラスターバージョンに対応するコンポーネントバージョンを自動的に検出します。
| コンポーネント | 接続フォーマット | 設定するタイミング |
|---|---|---|
| Hive — HiveServer2 | jdbc:hive2://<host>:<port>/<database> |
Hive ジョブの送信 |
| Hive — メタストア | thrift://<host>:<port> |
Hive ジョブを送信する |
| Impala | jdbc:impala://<host>:<port>/<schema> |
Impala ジョブの送信 |
| Spark | リストからデフォルトバージョンを選択 | Spark タスクを実行する場合 |
| YARN — ResourceManager アドレス | http://<host>:<port> |
Spark または MapReduce タスクを送信する場合 |
| YARN — JobHistory Web アプリケーションアドレス | http://<host>:<port2> |
JobHistory Server の Web UI で過去のタスク詳細を表示する場合 |
| MapReduce | リストからデフォルトバージョンを選択 | MapReduce タスクを実行する |
| Presto | jdbc:presto://<host>:<port>/<catalog>/<schema> |
Presto ジョブを送信する場合 (CDH のデフォルトコンポーネントではない) |
ご利用のクラスターの接続パラメーターを調べるには、「CDH または CDP クラスター情報の取得とネットワーク接続の設定」をご参照ください。
サーバーレスリソースグループを使用し、ドメイン名で CDH コンポーネントにアクセスする場合、Alibaba Cloud DNS PrivateZone で CDH コンポーネントのドメイン名に対する権威解決を設定し、その有効範囲を設定する必要があります。
クラスター設定ファイル
実行予定のタスクに対応する設定ファイルをアップロードします。
| ファイル | 説明 | アップロードするタイミング |
|---|---|---|
| Core-site ファイル | グローバルな Hadoop 分散ファイルシステム (HDFS) および MapReduce の I/O 設定 | Spark または MapReduce タスクを実行する場合 |
| Hdfs-site ファイル | HDFS 設定:ブロックサイズ、レプリケーション係数、パス名 | — |
| Mapred-site ファイル | MapReduce の実行モードとスケジューリング動作 | MapReduce タスクを実行する場合 |
| Yarn-site ファイル | YARN のリソースマネージャー、ノードマネージャー、アプリケーション実行時設定 | Spark または MapReduce タスクを実行する場合、または Kerberos アカウントマッピングを使用する場合 |
| Hive-site ファイル | Hive のデータベース接続、メタストア、実行エンジンの設定 | Kerberos アカウントマッピングを使用する場合 |
| Spark-defaults ファイル | デフォルトの Spark ジョブ設定 (spark-defaults.conf):メモリ、CPU コア、その他の実行時パラメーター |
Spark タスクを実行する場合 |
| Config.properties ファイル | Presto のコーディネーターとワーカーノードの設定 | OPEN LDAP または Kerberos 認証で Presto を使用する場合 |
| Presto.jks ファイル | 暗号化された Presto 通信のための SSL/TLS 証明書 | — |
デフォルトアクセス ID
タスクが CDH クラスターに対して実行される際に使用されるクラスター ID を設定します。ID マッピングを設定するには、[計算リソース] ページの [アカウントマッピング] タブに移動します。詳細については、「クラスター ID マッピングの設定」をご参照ください。
| 環境 | 利用可能なオプション |
|---|---|
| 開発環境 | クラスターアカウント、タスク実行者のマップ済みクラスターアカウント |
| 本番環境 | クラスターアカウント、タスク所有者のマップ済みクラスターアカウント、Alibaba Cloud アカウントのマップ済みクラスターアカウント、RAM ユーザーのマップ済みクラスターアカウント |
リソースグループの初期化
初めてクラスターを登録するとき、またはクラスターのサービス設定を変更した後 (例:core-site.xml の変更)、リソースグループを初期化します。初期化により、ネットワーク接続が設定された後、リソースグループが CDH クラスターに到達できるようになります。
-
「[コンピューティングリソース]」ページで、作成した CDH コンピューティングリソースを見つけます。
-
右上隅にある [リソースグループの初期化] をクリックします。
-
対象のリソースグループの横にある [初期化] をクリックし、[OK] をクリックします。
その他の操作
YARN リソースキューの設定 (任意)
[計算リソース] ページで、CDH クラスターを見つけます。[YARN リソースキュー] タブで、[YARN リソースキューの編集] をクリックして、異なるモジュールのタスクに専用の YARN リソースキューを割り当てます。
Spark パラメーターの設定 (任意)
[計算リソース] ページで、CDH クラスターを見つけます。[Spark 関連パラメーター] タブで、[Spark 関連パラメーターの編集] をクリックします。対象のモジュールの下にある [追加] をクリックし、[Spark プロパティ名] と [Spark プロパティ値] を入力します。Spark プロパティの完全なリストについては、「Spark 設定」をご参照ください。
Kerberos 認証のためのホストマッピングの設定 (任意)
Kerberos 認証が有効になっている CDH クラスターでサーバーレスリソースグループを使用する場合、DNS がクラスターの IP アドレスを Kerberos に登録されているホスト名に解決できないと、タスクの送信が失敗することがあります。
[ホスト設定] 機能を使用すると、計算リソースに対して静的な IP-ホスト名マッピングテーブルを定義できます。DataWorks は、CDH クラスターにアクセスする際にこのマッピングを使用し、Kerberos 認証が成功するようにします。
ホストマッピングを設定するには:
-
[計算リソース] ページで、CDH 計算リソースを見つけ、[ホスト設定] をクリックします。
-
ダイアログボックスに、次のフォーマットでマッピングを入力します。各行が 1 つのマッピングレコードになります:
<IP アドレス> <ホスト名>IP アドレスとホスト名は 1 つ以上のスペースで区切ります。NameNode、ResourceManager、NodeManagers など、Kerberos 認証とタスク実行に関与するすべての主要ノードのマッピングを設定します。
-
[OK] をクリックして保存します。設定されたホスト名が計算リソースカードに表示され、設定がアクティブであることが確認されます。
ホスト設定は現在の計算リソースにのみ適用され、ワークスペース内の他の計算リソースには影響しません。
次のステップ
CDH 計算リソースを設定した後、Data Studio の CDH 関連ノード を使用してデータ開発を行います。