Spark SQL タスク有効化のための Amazon EMR 計算ソース作成 - Dataphin

Amazon EMR 計算ソースは、Dataphin プロジェクトで計算タスクを処理するための計算リソースを提供します。Dataphin システムの計算エンジンが Amazon EMR に設定されている場合、プロジェクトは、Amazon EMR 計算ソースがプロジェクトに追加された後にのみ、計算タスク、アドホッククエリ、および一般的なスクリプトなどの機能を使用できます。このトピックでは、Amazon EMR 計算ソースを作成する方法について説明します。

前提条件

Dataphin の計算エンジンが Amazon EMR に設定されています。詳細については、「Amazon EMR をメタデータウェアハウスエンジンとして使用してメタデータウェアハウスを初期化する」をご参照ください。
Amazon EMR クラスタが作成されています。詳細については、「Amazon EMR クラスタを作成および管理する」をご参照ください。

手順

Dataphin ホームページの上部ナビゲーションバーで、[計画] > [計算ソース] を選択します。
[計算ソース] ページで、[新しい計算ソース] をクリックし、[Amazon EMR 計算ソース] を選択します。

[Amazon EMR 計算ソースの作成] ダイアログボックスで、必須パラメーターを構成します。

パラメーター		説明
基本情報	計算タイプ	[Amazon EMR] を選択します。
	計算ソース名	漢字、英字、数字、アンダースコア (_)、およびハイフン (-) が使用できます。名前は 64 文字以内にする必要があります。
	構成方法	現在、[指定されたクラスタを参照] のみがサポートされています。キーワードを入力して検索できます。選択後、[表示] をクリックして [Amazon EMR クラスタの表示] ページに移動し、クラスタ情報を表示できます。
	説明 (オプション)	計算ソースの簡単な説明を入力します。説明は 128 文字以内にする必要があります。
計算構成	プライマリノードパブリック DNS	システムは、選択した Amazon EMR クラスタからこの情報を自動的に取得します。変更はサポートされていません。
	データベース	Amazon EMR 計算エンジンのデータベース名を入力します。
	Spark SQL	[有効] または [無効] を選択できます。デフォルト値は有効です。説明このパラメーターは、参照されているクラスタで Spark SQL が有効になっている場合にのみ構成できます。
	Spark ローカルクライアント	[有効] または [無効] を選択できます。デフォルト値は有効です。説明このパラメーターは、参照されているクラスタで Spark SQL と Spark ローカルクライアントの両方が有効になっている場合にのみ構成できます。
	本番タスクのデフォルトキュー (オプション)	YARN リソースキューを入力します。本番環境の手動タスクとスケジュールされたタスクはこのキューを使用します。
	その他のタスクのキュー (オプション)	YARN リソースキューを入力します。その他のタスク (アドホッククエリ、データプレビュー、JDBC ドライバーアクセスなど) はこのキューを使用します。
	優先タスクのキュー	[本番タスクのデフォルトキューを使用] または [カスタム] を選択できます。 [カスタム] を選択した場合は、優先度レベルごとに YARN リソースキューを指定できます。説明 Dataphin が Hive SQL タスクをスケジュールする場合、タスクの優先度に基づいてタスクを対応するキューに送信します。Hive の実行エンジンが Tez または Spark に設定されている場合、タスクの優先度設定を有効にするには、異なる優先度キューを構成する必要があります。

[送信] をクリックします。
Amazon EMR 計算ソースを作成した後、プロジェクトにアタッチできます。詳細については、「汎用プロジェクトを作成する」をご参照ください。