DataWorks を使用して Cloudera Distribution Including Apache Hadoop (CDH) クラスター上のタスクを開発および管理するには、CDH クラスターを計算リソースとして DataWorks にアタッチする必要があります。クラスターがアタッチされると、DataWorks でこの計算リソースを使用して、データ同期や開発などの操作を実行できます。
前提条件
操作を実行する Resource Access Management (RAM) ユーザーがワークスペースに追加され、ワークスペース管理者ロールが割り当てられていること。
CDH クラスターがデプロイされていること。
説明DataWorks は、Alibaba Cloud 以外の ECS 環境にデプロイされた CDH クラスターをサポートします。ただし、デプロイメント環境は Alibaba Cloud の Virtual Private Cloud (VPC) に接続されている必要があります。接続を確立する方法については、「IDC データソースのネットワーク接続」をご参照ください。
リソースグループがワークスペースにアタッチされ、ネットワーク接続が確認されていること。
サーバーレスリソースグループを使用する場合、CDH 計算リソースと サーバーレスリソースグループ との間の接続性を確保するだけで済みます。
従来の専用リソースグループを使用する場合、CDH 計算リソースと、対応するシナリオの専用スケジューリングリソースグループとの間の接続性を確保する必要があります。
制限
リージョン制限: この機能は、中国 (北京)、中国 (上海)、中国 (深圳)、中国 (杭州)、中国 (張家口)、中国 (成都)、およびドイツ (フランクフルト) で利用できます。コンピューティングリソース コンピューティングリソース
権限の制限:
オペレーター
必要な権限
Alibaba Cloud アカウント
追加の権限は必要ありません。
Alibaba Cloud RAM ユーザー/RAM ロール
O&M およびスペース管理者ロール、または
AliyunDataWorksFullAccess権限を持つワークスペースメンバーのみが計算リソースを作成できます。詳細については、「ユーザースペース管理者権限を付与する」をご参照ください。
計算リソースリストページへ移動
DataWorks コンソールにログインします。ターゲットリージョンに切り替えます。左側のナビゲーションウィンドウで、 を選択します。ドロップダウンリストからワークスペースを選択し、[管理センターへ移動] をクリックします。
左側のナビゲーションウィンドウで、[計算リソース] をクリックします。
CDH 計算リソースのアタッチ
[計算リソース] ページで、CDH 計算リソースを構成してアタッチできます。
アタッチする計算リソースのタイプを選択します。
[計算リソースのアタッチ] をクリックして [計算リソースのアタッチ] ページに移動します。
[計算リソースのアタッチ] ページで、計算リソースタイプを [CDH] に設定します。[CDH 計算リソースのアタッチ] 構成ページにリダイレクトされます。
CDH 計算リソースを構成します。
[CDH 計算リソースのアタッチ] ページで、次の表の説明に従ってパラメーターを構成します。
パラメーター
構成の説明
クラスターバージョン
登録するクラスターのバージョンを選択します。
DataWorks が提供する CDH 5.16.2、CDH 6.1.1、CDH 6.2.1、CDH 6.3.2、または CDP 7.1.7 バージョンを選択できます。これらのバージョンでは、コンポーネントのバージョンは「クラスター接続情報」の各コンポーネントに指定されたバージョンに固定されます。これらのクラスターバージョンが要件を満たさない場合は、[カスタムバージョン] を選択し、必要に応じてコンポーネントのバージョンを構成できます。
説明構成する必要があるコンポーネントは、クラスターのバージョンによって異なります。UI が必要なコンポーネントを決定します。
[カスタムバージョン] クラスターを DataWorks に登録する場合、スケジューリング用の従来の専用リソースグループのみがサポートされます。登録が完了したら、チケットを送信 してヘルプデスクに環境の初期化を依頼する必要があります。
クラスター名
別のワークスペースに登録されているクラスターの名前を選択してその構成を読み込むか、カスタム名を入力して新しい構成を作成します。
クラスター接続情報
Hive 接続情報
Hive ジョブをクラスターに送信するために使用されます。
HiveServer2 構成フォーマット:
jdbc:hive2://<host>:<port>/<database>Metastore 構成フォーマット:
thrift://<host>:<port>
パラメーターの取得方法: 詳細については、「CDH または CDP クラスター情報を取得し、ネットワーク接続を構成する」をご参照ください。
コンポーネントバージョンの選択: システムは現在のクラスターのコンポーネントバージョンを自動的に検出します。
説明サーバーレスリソースグループを使用してドメイン名で CDH コンポーネントにアクセスする場合、CDH コンポーネントのドメイン名に対して 権威解決 を構成し、Alibaba Cloud DNS の [PrivateZone] で その有効範囲を設定する 必要があります。
Impala 接続情報
Impala ジョブを送信するために使用されます。
構成フォーマット:
jdbc:impala://<host>:<port>/<schema>。Spark 接続情報
DataWorks で Spark コンポーネントを使用するには、デフォルトバージョンを選択してここで構成できます。
Yarn 接続情報
タスクの送信とタスク詳細の表示のための構成。
Yarn.Resourcemanager.Address 構成フォーマット:
http://<host>:<port>説明Spark または MapReduce タスクを送信するためのアドレス。
Jobhistory.Webapp.Address 構成フォーマット:
http://<host>:<port2>説明JobHistory Server の Web UI アドレス。ブラウザでこのアドレスにアクセスして、履歴タスクの詳細を表示できます。
MapReduce 接続情報
DataWorks で MapReduce コンポーネントを使用するには、デフォルトバージョンを選択してここで構成できます。
Presto 接続情報
Presto ジョブを送信するために使用されます。
JDBC アドレス情報構成フォーマット:
jdbc:presto://<host>:<port>/<catalog>/<schema>説明これはデフォルトの CDH コンポーネントではありません。必要に応じて構成してください。
クラスター構成ファイル
Core-Site ファイルの構成
Hadoop 分散ファイルシステム (HDFS) や MapReduce の共通 I/O 設定など、Hadoop Core ライブラリのグローバル構成が含まれます。
Spark または MapReduce タスクを実行するには、このファイルをアップロードします。
Hdfs-Site ファイルの構成
ブロックサイズ、バックアップ数、パス名など、HDFS の構成が含まれます。
Mapred-Site ファイルの構成
MapReduce ジョブの実行モードやスケジューリング動作など、MapReduce パラメーターを構成するために使用されます。
MapReduce タスクを実行するには、このファイルをアップロードします。
Yarn-Site ファイルの構成
リソースマネージャー、ノードマネージャー、アプリケーションランタイムの環境構成など、YARN デーモンに関連するすべての構成が含まれます。
Spark または MapReduce タスクを実行する場合、またはアカウントマッピングタイプを Kerberos に設定する場合に、このファイルをアップロードします。
Hive-Site ファイルの構成
データベース接続情報、Hive Metastore 設定、実行エンジンなど、Hive を構成するためのさまざまなパラメーターが含まれます。
アカウントマッピングタイプを Kerberos に設定する場合は、このファイルをアップロードします。
Spark-Defaults ファイルの構成
Spark ジョブ実行のデフォルト構成を指定するために使用されます。
spark-defaults.confファイルを使用して、メモリサイズや CPU コア数などのパラメーターをプリセットできます。Spark アプリケーションは、実行時にこれらのパラメーター設定を使用します。Spark タスクを実行するには、このファイルをアップロードします。
Config.Properties ファイルの構成
Presto クラスター内のコーディネーターノードとワーカーノードのグローバルプロパティなど、Presto サーバーの構成が含まれます。
Presto コンポーネントを使用し、アカウントマッピングタイプを OPEN LDAP または Kerberos に設定する場合は、このファイルをアップロードします。
Presto.Jks ファイルの構成
秘密鍵やアプリケーションに発行された公開鍵証明書など、セキュリティ証明書を保存するために使用されます。Presto データベースクエリエンジンでは、
presto.jksファイルを使用して Presto プロセスの SSL/TLS 暗号化通信を有効にし、データ転送のセキュリティを確保します。デフォルトのアクセス ID
マッピングされたクラスターアカウントに関連付けられた ID を使用することを選択した場合、[アカウントマッピング] タブの [計算リソース] ページに移動して クラスター ID マッピングを設定できます。
開発環境: クラスターアカウント または タスク実行者のマッピングされたクラスターアカウント を選択できます。
本番環境: クラスターアカウント、タスクオーナーのマッピングされたクラスターアカウント、Alibaba Cloud アカウントのマッピングされたクラスターアカウント、または RAM ユーザーのマッピングされたクラスターアカウント を選択できます。
計算リソースインスタンス名
計算リソースインスタンスのカスタム名を入力します。実行時に、この名前に基づいてタスクの計算リソースを選択できます。
[確認] をクリックして、CDH 計算リソースの構成を完了します。
リソースグループの初期化
クラスターを初めて登録する場合、またはクラスターサービス構成を変更する場合 (core-site.xml の変更など)、リソースグループを初期化する必要があります。これにより、ネットワーク接続を構成した後、リソースグループが CDH クラスターにアクセスできるようになります。
[計算リソース] ページで、作成した CDH 計算リソースを見つけます。右上隅にある [リソースグループの初期化] をクリックします。
目的のリソースグループの横にある [初期化] をクリックします。リソースグループが初期化されたら、[OK] をクリックします。
(オプション) YARN リソースキューの設定
[計算リソース] ページで、アタッチした CDH クラスターを見つけます。[YARN リソースキュー] タブで、[YARN リソースキューの編集] をクリックして、異なるモジュールのタスクに専用の YARN リソースキューを設定します。
(オプション) SPARK パラメーターの設定
異なるモジュールのタスクに専用の Spark プロパティパラメーターを設定できます。
[計算リソース] ページで、アタッチした CDH クラスターを見つけます。
[SPARK パラメーター] タブで、[SPARK パラメーターの編集] をクリックして、CDH クラスターの Spark パラメーターを編集できるページに移動します。
モジュールの下にある [追加] をクリックします。[Spark プロパティ名] と対応する [Spark プロパティ値] を入力して、Spark プロパティ情報 を設定します。
(オプション) ホスト設定の構成
DataWorks のサーバーレスリソースグループを使用して、Kerberos 認証が有効になっている CDH クラスターに接続すると、タスクの送信が失敗することがあります。
この問題は、Kerberos 認証メカニズムが安全な通信のためにホスト名に依存しているために発生します。一部のネットワーク環境では、標準の DNS 解決サービスがクラスターの IP アドレスを Kerberos に登録されているホスト名に解決できず、認証が失敗する原因となります。
ホスト構成機能を使用すると、CDH 計算リソースの静的な IP とホスト名のマッピングテーブルを手動で構成できます。構成後、DataWorks は CDH クラスターにアクセスする際にこのマッピングを優先し、Kerberos 認証が成功するようにします。
構成する CDH 計算リソースを見つけて、[ホスト構成] をクリックします。
表示されるダイアログボックスに、
IP アドレス ホスト名の形式でマッピングを入力します。各行が 1 つのマッピングレコードを表します。[OK] をクリックして構成を保存します。
構成を保存すると、構成されたホスト名情報が計算リソースカードに表示されます。これは、構成が有効になったことを示します。
フォーマット要件:
IP アドレスとホスト名は、1 つ以上のスペースで区切る必要があります。構成の完全性: NameNode、ResourceManager、NodeManagers など、Kerberos 認証とタスク実行に関与するすべての主要ノードに対して正しいマッピングを構成していることを確認してください。
適用範囲: このホスト構成は現在の計算リソースにのみ適用され、ワークスペース内の他の計算リソースには影響しません。
次のステップ
CDH 計算リソースを構成した後、データ開発で CDH 関連ノード を使用してデータ開発操作を実行できます。