CDH または CDP クラスターの登録 - DataWorks

DataWorks は Cloudera Distribution for Hadoop (CDH) および Cloudera Data Platform (CDP) クラスターに接続できます。DataWorks に CDH または CDP クラスターを登録すると、タスク開発、スケジューリング、データマップでのメタデータ管理、データ品質モニタリングなどのデータ開発およびガバナンス操作を実行できます。

背景情報

CDH は Cloudera のオープンソースプラットフォームディストリビューションです。CDH は、クラスター管理、クラスターモニタリング、クラスター診断などのすぐに使える機能を提供します。CDH はまた、エンドツーエンドのビッグデータワークフローを実行するのに役立つさまざまなコンポーネントをサポートしています。
CDP は、プラットフォーム間で顧客データを収集および統合する共通のデータプラットフォームです。CDP を使用してリアルタイムデータを収集し、リアルタイムデータを個々のユーザーデータとして構築できます。

CDH および CDP クラスターを DataWorks に登録できます。その後、タスク開発、タスクスケジューリング、データマップでのメタデータ管理、データ品質モニタリングなどの DataWorks の機能を使用して、ビジネス要件に基づいてクラスター内のデータを開発および管理できます。

前提条件

次のいずれかの権限がある場合、現在のワークスペースに CDH または CDP クラスターを登録できます:
- Alibaba Cloud アカウント。
- DataWorks ワークスペースのメンバーで、[ワークスペース管理者] ロールを持っていること。詳細については、「ワークスペースメンバーの追加とロールの管理」をご参照ください。
- AliyunDataWorksFullAccess ポリシーがアタッチされた DataWorks ワークスペースメンバー。権限を付与する方法の詳細については、「RAM ユーザーへの権限付与」および「RAM ロールへの権限付与」をご参照ください。ユーザーをメンバーとして DataWorks ワークスペースに追加する方法の詳細については、「ワークスペースメンバーの追加とロールの管理」をご参照ください。
CDH または CDP クラスターをデプロイし、必要な構成情報を取得していること。詳細については、「準備: CDH または CDP クラスターに関する構成情報を取得し、ネットワーク接続を構成する」をご参照ください。

制限事項

CDH または CDP クラスタータスクの実行には、サーバーレスリソースグループ (推奨) または以前のバージョンの専用スケジューリングリソースグループのみを使用できます。
説明
- サーバーレスリソースグループは、データ同期やタスクスケジューリングなど、さまざまなシナリオで使用できる汎用リソースグループです。サーバーレスリソースグループの購入方法の詳細については、「サーバーレスリソースグループの使用」をご参照ください。以前のバージョンの専用スケジューリングリソースグループを購入した場合、そのリソースグループを使用して CDH または CDP タスクを実行することもできます。詳細については、「専用スケジューリングリソースグループの使用」をご参照ください。
- 新規ユーザーはサーバーレスリソースグループのみを購入できます。
- DataWorks に [カスタムバージョン] のクラスターを登録する場合、以前のバージョンの専用スケジューリングリソースグループのみを使用できます。クラスターバージョンの詳細については、「ステップ 2: CDH または CDP クラスターを登録する」をご参照ください。
DataWorks に CDH または CDP クラスターを登録できるのは、中国 (北京)、中国 (上海)、中国 (杭州)、中国 (深圳)、中国 (張家口)、中国 (成都)、およびドイツ (フランクフルト) のリージョンのみです。

ステップ 1: クラスター登録ページに移動する

SettingCenter ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。
左側のナビゲーションウィンドウで [クラスター管理] をクリックして [クラスター管理] ページに移動します。[クラスターの登録]をクリックし、オープンソースクラスタータイプとして [CDH] を選択して、クラスター登録ページに移動します。

ステップ 2: CDH または CDP クラスターを登録する

説明

標準モードのワークスペースを使用する場合、開発環境と本番環境の両方にクラスターを登録する必要があります。ワークスペースモードの詳細については、「ワークスペースモードの違い」をご参照ください。
DataWorks での CDP および CDH クラスターの開発操作は基本的に同じです。このトピックでは、CDH クラスターを例として、DataWorks に CDH クラスターを登録する方法について説明します。

クラスターの基本情報を構成します。

パラメーター	説明
表示名	DataWorks でのクラスターの名前。名前は一意である必要があります。
クラスターバージョン	登録するクラスターのバージョンを選択します。 CDH 5.16.2、CDH 6.1.1、CDH 6.2.1、CDH 6.3.2、または CDP 7.1.7 を選択できます。これらのクラスターバージョンのコンポーネントバージョンは固定されています。クラスター接続情報セクションでコンポーネントのバージョンを表示できます。これらのクラスターバージョンがビジネスニーズを満たさない場合は、[カスタムバージョン] を選択し、必要に応じてコンポーネントバージョンを構成します。説明構成する必要があるコンポーネントは、クラスターのバージョンによって異なります。ページに実際に表示されるコンポーネントが優先されます。 DataWorks に [カスタムバージョン] のクラスターを登録する場合、以前のバージョンの専用スケジューリングリソースグループのみを使用できます。登録が完了したら、チケットを送信してテクニカルサポートに連絡し、環境を初期化する必要があります。
クラスター名	登録するクラスターの構成情報のソースを決定するために使用されます。別のワークスペースに登録されているクラスターを選択するか、新しいクラスターを作成できます。登録済みクラスター: 登録するクラスターの構成情報は、別のワークスペースに登録されているクラスターの構成情報を直接参照します。新しいクラスター: 登録するクラスターの構成情報を構成する必要があります。

クラスター接続情報を構成します。
クラスターにデプロイされているコンポーネントのバージョンを選択し、取得したコンポーネントアドレスを入力します。コンポーネント情報の取得方法の詳細については、「準備: CDH または CDP クラスターに関する構成情報を取得し、ネットワーク接続を構成する」をご参照ください。
説明
サーバーレスリソースグループを使用してドメイン名で CDH 関連コンポーネントにアクセスする場合、Alibaba Cloud DNS の [PrivateZone] で CDH コンポーネントのドメイン名に対する権威解決を構成する必要があります。詳細については、「組み込みの権限のあるドメイン名を追加する」および「ドメイン名の範囲を設定する」をご参照ください。

クラスター構成ファイルを追加します。

必要なコンポーネントの構成ファイルをアップロードします。構成ファイルの取得方法の詳細については、「準備: CDH または CDP クラスターに関する構成情報を取得し、ネットワーク接続を構成する」をご参照ください。

次の表に構成ファイルを示します。

構成ファイル	説明	シナリオ
core-site.xml	HDFS および MapReduce の共通 I/O 設定など、Hadoop Core ライブラリのグローバル構成が含まれます。	Spark または MapReduce タスクを実行するには、このファイルをアップロードします。
hdfs-site.xml	データブロックサイズ、バックアップ数、パス名など、HDFS 関連の構成が含まれます。	Spark または MapReduce タスクを実行するには、このファイルをアップロードします。
mapred-site.xml	MapReduce ジョブの実行メソッドやスケジューリング動作など、MapReduce 関連のパラメーターを構成します。	MapReduce タスクを実行するには、このファイルをアップロードします。
yarn-site.xml	リソースマネージャー、ノードマネージャー、アプリケーションランタイムの環境構成など、YARN デーモンプロセスに関連するすべての構成が含まれます。	Spark または MapReduce タスクを実行する場合、またはアカウントマッピングタイプとして Kerberos を選択した場合は、このファイルをアップロードします。
hive-site.xml	データベース接続情報、Hive Metastore 設定、実行エンジンなど、Hive を構成するためのパラメーターが含まれます。	アカウントマッピングタイプとして Kerberos を選択した場合は、このファイルをアップロードします。
spark-defaults.conf	Spark ジョブ実行のデフォルト構成を指定します。`spark-defaults.conf` ファイルを使用して、メモリサイズや CPU コア数などのパラメーターを事前構成できます。Spark アプリケーションは、実行時にこれらのパラメーター構成を使用します。	Spark タスクを実行するには、このファイルをアップロードします。
config.properties	Presto クラスターのコーディネーターノードとワーカーノードのグローバルプロパティなど、Presto サーバーの構成が含まれます。	Presto コンポーネントを使用し、アカウントマッピングタイプとして OPEN LDAP または Kerberos を選択した場合は、このファイルをアップロードします。
presto.jks	秘密鍵やアプリケーションに発行された公開鍵証明書など、セキュリティ証明書を格納します。Presto データベースクエリエンジンでは、`presto.jks` ファイルを使用して Presto プロセスの SSL/TLS 暗号化通信を有効にし、データ送信のセキュリティを確保します。

クラスターのデフォルトのアクセス ID を構成します。

DataWorks で CDH クラスタータスクを実行するときに CDH クラスターへのアクセスに使用されるアカウントを構成します。サポートされるアカウントは環境によって異なります。

説明

クラスターを登録する際に、[デフォルトのアクセス ID] をクラスターアカウント以外のアカウントに設定し、アカウントマッピングが構成されていないか、マッピングタイプが認証なしに設定されている場合、すべてのタスクが失敗します。

環境

デフォルトのアクセス ID

リファレンス

開発環境

クラスターアカウント: Alibaba Cloud アカウントや開発権限のみを持つ RAM ユーザーなど、DataWorks で CDH タスクを実行するユーザーに関係なく、指定されたクラスターアカウントが CDH クラスターへのアクセスに使用されます。
マップされたアカウント: タスクエグゼキュータが CDH タスクを実行する場合、タスクエグゼキュータアカウントとクラスターアカウント間のマッピングを構成する必要があります。マッピングが構成されると、タスクの実行時にマップされたクラスターアカウントが CDH クラスターへのアクセスに使用されます。

アカウントマッピングの構成方法の詳細については、「クラスター ID マッピングの設定」をご参照ください。

本番環境

クラスターアカウント: Alibaba Cloud アカウントや開発権限のみを持つ RAM ユーザーなど、DataWorks で CDH タスクを実行するユーザーに関係なく、指定されたクラスターアカウントが CDH クラスターへのアクセスに使用されます。
マップされたアカウント: タスクのオーナー、Alibaba Cloud アカウント、または RAM ユーザーが CDH タスクを実行する場合、対応するアカウントとクラスターアカウント間のマッピングを構成する必要があります。マッピングが構成されると、タスクの実行時にマップされたクラスターアカウントが CDH クラスターへのアクセスに使用されます。

[登録の完了] をクリックして、DataWorks にクラスターを登録します。

ステップ 3: リソースグループを初期化する

クラスターをバインドする初回、またはクラスターサービスの構成が変更された場合やコンポーネントがアップグレードされた場合 (たとえば、core-site.xml ファイルを変更した場合) は、リソースグループを初期化する必要があります。これにより、リソースグループが CDH クラスターにアクセスでき、CDH クラスタータスクがリソースグループの現在の環境構成を使用して実行できるようになります。[クラスター管理] ページで、登録済みの CDH クラスターを見つけ、右上隅にある [リソースグループの初期化] をクリックし、必要なリソースグループを選択して初期化します。

説明

DataWorks では、CDH クラスタータスクを実行するために、サーバーレスリソースグループ (推奨) と専用スケジューリングリソースグループのみを使用できます。したがって、これらの 2 種類のリソースグループのみを初期化できます。利用可能なリソースグループがない場合は、必要に応じて作成できます。詳細については、「サーバーレスリソースグループの使用」および「専用スケジューリングリソースグループの使用」をご参照ください。
DataWorks に [カスタムバージョン] のクラスターを登録する場合、以前のバージョンの専用スケジューリングリソースグループのみを使用できます。登録が完了したら、チケットを送信してテクニカルサポートに連絡し、環境を初期化する必要があります。

(オプション) YARN リソースキューを設定する

YARN リソースキューは、クラスターリソースをパーティション分割して分離し、さまざまな種類のタスクが計算リソースを公平に使用し、干渉を回避できるようにします。さまざまなモジュールのタスクに専用の YARN リソースキューを設定するには、[クラスター管理] ページでバインドした CDH クラスターを見つけます。[YARN リソースキュー] タブで、[YARN リソースキューの編集] をクリックして設定を構成します。

(オプション) SPARK パラメーターを設定する

さまざまなモジュールのタスクに専用の SPARK プロパティパラメーターを設定できます。

[クラスター管理] ページで、バインドした CDH クラスターを見つけます。
[SPARK パラメーター] タブをクリックし、次に [SPARK パラメーターの編集] をクリックして、CDH クラスターの SPARK パラメーターを編集するページに移動します。
モジュールの下にある [追加] をクリックします。[Spark プロパティ名] と対応する [Spark プロパティ値] を入力して、Spark プロパティ情報を設定します。

次のステップ

クラスター ID マッピングの設定: CDH クラスターのデフォルトのアクセス ID が指定されたクラスターアカウントでない場合 (つまり、アクセスが DataWorks アカウントを介して行われる場合)、DataWorks アカウントとクラスターアカウント間のマッピングを構成する必要があります。これにより、DataWorks アカウントはマップされたクラスター ID を使用して CDH クラスターにアクセスでき、データ権限の分離と制御が実装されます。
CDH 計算リソースを構成した後、データ開発で CDH 関連ノードを使用してデータ開発操作を実行できます。