DataWorks は Cloudera Distribution for Hadoop (CDH) および Cloudera Data Platform (CDP) クラスターに接続できます。DataWorks に CDH または CDP クラスターを登録すると、タスク開発、スケジューリング、データマップでのメタデータ管理、データ品質モニタリングなどのデータ開発およびガバナンス操作を実行できます。
背景情報
CDH は Cloudera のオープンソースプラットフォームディストリビューションです。CDH は、クラスター管理、クラスターモニタリング、クラスター診断などのすぐに使える機能を提供します。CDH はまた、エンドツーエンドのビッグデータワークフローを実行するのに役立つさまざまなコンポーネントをサポートしています。
CDP は、プラットフォーム間で顧客データを収集および統合する共通のデータプラットフォームです。CDP を使用してリアルタイムデータを収集し、リアルタイムデータを個々のユーザーデータとして構築できます。
CDH および CDP クラスターを DataWorks に登録できます。その後、タスク開発、タスクスケジューリング、データマップでのメタデータ管理、データ品質モニタリングなどの DataWorks の機能を使用して、ビジネス要件に基づいてクラスター内のデータを開発および管理できます。
前提条件
次のいずれかの権限がある場合、現在のワークスペースに CDH または CDP クラスターを登録できます:
Alibaba Cloud アカウント。
DataWorks ワークスペースのメンバーで、[ワークスペース管理者] ロールを持っていること。詳細については、「ワークスペースメンバーの追加とロールの管理」をご参照ください。
AliyunDataWorksFullAccess ポリシーがアタッチされた DataWorks ワークスペースメンバー。権限を付与する方法の詳細については、「RAM ユーザーへの権限付与」および「RAM ロールへの権限付与」をご参照ください。ユーザーをメンバーとして DataWorks ワークスペースに追加する方法の詳細については、「ワークスペースメンバーの追加とロールの管理」をご参照ください。
CDH または CDP クラスターをデプロイし、必要な構成情報を取得していること。詳細については、「準備: CDH または CDP クラスターに関する構成情報を取得し、ネットワーク接続を構成する」をご参照ください。
制限事項
CDH または CDP クラスタータスクの実行には、サーバーレスリソースグループ (推奨) または以前のバージョンの専用スケジューリングリソースグループのみを使用できます。
説明サーバーレスリソースグループは、データ同期やタスクスケジューリングなど、さまざまなシナリオで使用できる汎用リソースグループです。サーバーレスリソースグループの購入方法の詳細については、「サーバーレスリソースグループの使用」をご参照ください。以前のバージョンの専用スケジューリングリソースグループを購入した場合、そのリソースグループを使用して CDH または CDP タスクを実行することもできます。詳細については、「専用スケジューリングリソースグループの使用」をご参照ください。
新規ユーザーはサーバーレスリソースグループのみを購入できます。
DataWorks に [カスタムバージョン] のクラスターを登録する場合、以前のバージョンの専用スケジューリングリソースグループのみを使用できます。クラスターバージョンの詳細については、「ステップ 2: CDH または CDP クラスターを登録する」をご参照ください。
DataWorks に CDH または CDP クラスターを登録できるのは、中国 (北京)、中国 (上海)、中国 (杭州)、中国 (深圳)、中国 (張家口)、中国 (成都)、およびドイツ (フランクフルト) のリージョンのみです。
ステップ 1: クラスター登録ページに移動する
SettingCenter ページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。
左側のナビゲーションウィンドウで [クラスター管理] をクリックして [クラスター管理] ページに移動します。[クラスターの登録]をクリックし、オープンソースクラスタータイプとして [CDH] を選択して、クラスター登録ページに移動します。
ステップ 2: CDH または CDP クラスターを登録する
標準モードのワークスペースを使用する場合、開発環境と本番環境の両方にクラスターを登録する必要があります。ワークスペースモードの詳細については、「ワークスペースモードの違い」をご参照ください。
DataWorks での CDP および CDH クラスターの開発操作は基本的に同じです。このトピックでは、CDH クラスターを例として、DataWorks に CDH クラスターを登録する方法について説明します。
クラスターの基本情報を構成します。
パラメーター
説明
表示名
DataWorks でのクラスターの名前。名前は一意である必要があります。
クラスターバージョン
登録するクラスターのバージョンを選択します。
CDH 5.16.2、CDH 6.1.1、CDH 6.2.1、CDH 6.3.2、または CDP 7.1.7 を選択できます。これらのクラスターバージョンのコンポーネントバージョンは固定されています。クラスター接続情報 セクションでコンポーネントのバージョンを表示できます。これらのクラスターバージョンがビジネスニーズを満たさない場合は、[カスタムバージョン] を選択し、必要に応じてコンポーネントバージョンを構成します。
説明構成する必要があるコンポーネントは、クラスターのバージョンによって異なります。ページに実際に表示されるコンポーネントが優先されます。
DataWorks に [カスタムバージョン] のクラスターを登録する場合、以前のバージョンの専用スケジューリングリソースグループのみを使用できます。登録が完了したら、チケットを送信してテクニカルサポートに連絡し、環境を初期化する必要があります。
クラスター名
登録するクラスターの構成情報のソースを決定するために使用されます。別のワークスペースに登録されているクラスターを選択するか、新しいクラスターを作成できます。
登録済みクラスター: 登録するクラスターの構成情報は、別のワークスペースに登録されているクラスターの構成情報を直接参照します。
新しいクラスター: 登録するクラスターの構成情報を構成する必要があります。
クラスター接続情報を構成します。
クラスターにデプロイされているコンポーネントのバージョンを選択し、取得したコンポーネントアドレスを入力します。コンポーネント情報の取得方法の詳細については、「準備: CDH または CDP クラスターに関する構成情報を取得し、ネットワーク接続を構成する」をご参照ください。
説明サーバーレスリソースグループを使用してドメイン名で CDH 関連コンポーネントにアクセスする場合、Alibaba Cloud DNS の [PrivateZone] で CDH コンポーネントのドメイン名に対する権威解決を構成する必要があります。詳細については、「組み込みの権限のあるドメイン名を追加する」および「ドメイン名の範囲を設定する」をご参照ください。
クラスター構成ファイルを追加します。
必要なコンポーネントの構成ファイルをアップロードします。構成ファイルの取得方法の詳細については、「準備: CDH または CDP クラスターに関する構成情報を取得し、ネットワーク接続を構成する」をご参照ください。

次の表に構成ファイルを示します。
構成ファイル
説明
シナリオ
core-site.xml
HDFS および MapReduce の共通 I/O 設定など、Hadoop Core ライブラリのグローバル構成が含まれます。
Spark または MapReduce タスクを実行するには、このファイルをアップロードします。
hdfs-site.xml
データブロックサイズ、バックアップ数、パス名など、HDFS 関連の構成が含まれます。
mapred-site.xml
MapReduce ジョブの実行メソッドやスケジューリング動作など、MapReduce 関連のパラメーターを構成します。
MapReduce タスクを実行するには、このファイルをアップロードします。
yarn-site.xml
リソースマネージャー、ノードマネージャー、アプリケーションランタイムの環境構成など、YARN デーモンプロセスに関連するすべての構成が含まれます。
Spark または MapReduce タスクを実行する場合、またはアカウントマッピングタイプとして Kerberos を選択した場合は、このファイルをアップロードします。
hive-site.xml
データベース接続情報、Hive Metastore 設定、実行エンジンなど、Hive を構成するためのパラメーターが含まれます。
アカウントマッピングタイプとして Kerberos を選択した場合は、このファイルをアップロードします。
spark-defaults.conf
Spark ジョブ実行のデフォルト構成を指定します。
spark-defaults.confファイルを使用して、メモリサイズや CPU コア数などのパラメーターを事前構成できます。Spark アプリケーションは、実行時にこれらのパラメーター構成を使用します。Spark タスクを実行するには、このファイルをアップロードします。
config.properties
Presto クラスターのコーディネーターノードとワーカーノードのグローバルプロパティなど、Presto サーバーの構成が含まれます。
Presto コンポーネントを使用し、アカウントマッピングタイプとして OPEN LDAP または Kerberos を選択した場合は、このファイルをアップロードします。
presto.jks
秘密鍵やアプリケーションに発行された公開鍵証明書など、セキュリティ証明書を格納します。Presto データベースクエリエンジンでは、
presto.jksファイルを使用して Presto プロセスの SSL/TLS 暗号化通信を有効にし、データ送信のセキュリティを確保します。クラスターのデフォルトのアクセス ID を構成します。
DataWorks で CDH クラスタータスクを実行するときに CDH クラスターへのアクセスに使用されるアカウントを構成します。サポートされるアカウントは環境によって異なります。
説明クラスターを登録する際に、[デフォルトのアクセス ID] をクラスターアカウント以外のアカウントに設定し、アカウントマッピングが構成されていないか、マッピングタイプが認証なしに設定されている場合、すべてのタスクが失敗します。
環境
デフォルトのアクセス ID
リファレンス
開発環境
クラスターアカウント: Alibaba Cloud アカウントや開発権限のみを持つ RAM ユーザーなど、DataWorks で CDH タスクを実行するユーザーに関係なく、指定されたクラスターアカウントが CDH クラスターへのアクセスに使用されます。
マップされたアカウント: タスクエグゼキュータが CDH タスクを実行する場合、タスクエグゼキュータアカウントとクラスターアカウント間のマッピングを構成する必要があります。マッピングが構成されると、タスクの実行時にマップされたクラスターアカウントが CDH クラスターへのアクセスに使用されます。
アカウントマッピングの構成方法の詳細については、「クラスター ID マッピングの設定」をご参照ください。
本番環境
クラスターアカウント: Alibaba Cloud アカウントや開発権限のみを持つ RAM ユーザーなど、DataWorks で CDH タスクを実行するユーザーに関係なく、指定されたクラスターアカウントが CDH クラスターへのアクセスに使用されます。
マップされたアカウント: タスクのオーナー、Alibaba Cloud アカウント、または RAM ユーザーが CDH タスクを実行する場合、対応するアカウントとクラスターアカウント間のマッピングを構成する必要があります。マッピングが構成されると、タスクの実行時にマップされたクラスターアカウントが CDH クラスターへのアクセスに使用されます。
[登録の完了] をクリックして、DataWorks にクラスターを登録します。
ステップ 3: リソースグループを初期化する
クラスターをバインドする初回、またはクラスターサービスの構成が変更された場合やコンポーネントがアップグレードされた場合 (たとえば、core-site.xml ファイルを変更した場合) は、リソースグループを初期化する必要があります。これにより、リソースグループが CDH クラスターにアクセスでき、CDH クラスタータスクがリソースグループの現在の環境構成を使用して実行できるようになります。[クラスター管理] ページで、登録済みの CDH クラスターを見つけ、右上隅にある [リソースグループの初期化] をクリックし、必要なリソースグループを選択して初期化します。
DataWorks では、CDH クラスタータスクを実行するために、サーバーレスリソースグループ (推奨) と専用スケジューリングリソースグループのみを使用できます。したがって、これらの 2 種類のリソースグループのみを初期化できます。利用可能なリソースグループがない場合は、必要に応じて作成できます。詳細については、「サーバーレスリソースグループの使用」および「専用スケジューリングリソースグループの使用」をご参照ください。
DataWorks に [カスタムバージョン] のクラスターを登録する場合、以前のバージョンの専用スケジューリングリソースグループのみを使用できます。登録が完了したら、チケットを送信してテクニカルサポートに連絡し、環境を初期化する必要があります。
(オプション) YARN リソースキューを設定する
YARN リソースキューは、クラスターリソースをパーティション分割して分離し、さまざまな種類のタスクが計算リソースを公平に使用し、干渉を回避できるようにします。さまざまなモジュールのタスクに専用の YARN リソースキューを設定するには、[クラスター管理] ページでバインドした CDH クラスターを見つけます。[YARN リソースキュー] タブで、[YARN リソースキューの編集] をクリックして設定を構成します。
(オプション) SPARK パラメーターを設定する
さまざまなモジュールのタスクに専用の SPARK プロパティパラメーターを設定できます。
[クラスター管理] ページで、バインドした CDH クラスターを見つけます。
[SPARK パラメーター] タブをクリックし、次に [SPARK パラメーターの編集] をクリックして、CDH クラスターの SPARK パラメーターを編集するページに移動します。
モジュールの下にある [追加] をクリックします。[Spark プロパティ名] と対応する [Spark プロパティ値] を入力して、Spark プロパティ情報を設定します。
次のステップ
クラスター ID マッピングの設定: CDH クラスターのデフォルトのアクセス ID が指定されたクラスターアカウントでない場合 (つまり、アクセスが DataWorks アカウントを介して行われる場合)、DataWorks アカウントとクラスターアカウント間のマッピングを構成する必要があります。これにより、DataWorks アカウントはマップされたクラスター ID を使用して CDH クラスターにアクセスでき、データ権限の分離と制御が実装されます。
CDH 計算リソースを構成した後、データ開発で CDH 関連ノードを使用してデータ開発操作を実行できます。