Dataphin でオフラインコンピューティング用の Hive SQL タスクを構築 - Dataphin

このトピックでは、Dataphin で Hive SQL オフラインコンピューティングタスクを作成する方法について説明します。

背景情報

Hive SQL コンピューティングタスクを使用して、既存のデータを処理し、ビジネス要件を満たす新しいデータを生成できます。

手順

Dataphin ホームページのトップメニューバーで、[開発] > [データ開発] を選択します。
[開発] ページで、トップメニューバーからプロジェクトを選択します。Dev-Prod モードでは、環境も選択する必要があります。
左側のナビゲーションウィンドウで、[データ処理] > [スクリプトタスク] を選択します。[スクリプトタスク] リストで、アイコンをクリックし、[Hive SQL] を選択します。

[Hive SQL タスクの作成] ダイアログボックスで、次のパラメーターを設定します。

パラメーター	説明
タスク名	オフラインコンピューティングタスクの名前を入力します。名前は 256 文字以内で、縦棒 (\|)、スラッシュ (/)、バックスラッシュ (\)、コロン (:)、疑問符 (?)、山括弧 (<>)、アスタリスク (*)、二重引用符 (") を含めることはできません。
スケジュールタイプ	タスクのスケジュールタイプを選択します。[スケジュールタイプ] には、次のいずれかを指定できます：定期タスク：タスクは定期的なスケジュールで自動的に実行されます。手動タスク：このタスクは手動でトリガーされます。
ディレクトリの選択	タスクを保存するディレクトリを選択します。必要なディレクトリが存在しない場合は、次のように新しいフォルダを作成します：左側のタスクリストの上にあるアイコンをクリックして、[フォルダの作成] ダイアログボックスを開きます。 [フォルダの作成] ダイアログボックスで、フォルダの [名前] を入力し、必要に応じて [ディレクトリの選択] で場所を選択します。 [OK] をクリックします。
テンプレートの使用	[テンプレートの使用] スイッチをオンにして、コードテンプレートを使用します。このスイッチをオンにした場合は、[テンプレート] と [テンプレートバージョン] も選択する必要があります。コードテンプレートを使用すると、開発効率が向上します。テンプレートタスクのコードは読み取り専用です。テンプレートパラメーターを設定するだけで済みます。詳細については、「オフラインコンピューティングテンプレートの作成」をご参照ください。
説明	タスクの簡単な説明を入力します。説明は 1,000 文字以内です。

[OK] をクリックします。
Hive SQL タスクのコードエディタで、オフラインコンピューティングタスクのコードを記述します。次に、コードエディタの上にある [プリコンパイル] をクリックして、Hive SQL コードの構文をチェックします。
コードがプリコンパイルされたら、コードエディタの上にある [実行] をクリックします。
サイドバーで [プロパティ] をクリックして、タスクの [プロパティ] を設定します。プロパティには、[基本情報]、[実行時パラメーター]、[スケジューリングプロパティ] (定期タスク用)、[スケジュール依存関係] (定期タスク用)、[実行設定]、[リソース設定] が含まれます。
- 基本情報
  タスクの名前、オーナー、説明などの基本情報を設定します。詳細については、「タスクの基本情報の設定」をご参照ください。
- ランタイムパラメーター
  タスクがパラメーター変数を使用する場合、このセクションで値を割り当てることができます。ノードがスケジュールされると、パラメーター変数は自動的に割り当てられた値に置き換えられます。詳細については、「ノードパラメーターの設定と使用」をご参照ください。
- スケジューリングプロパティ (定期タスク用)
  オフラインコンピューティングタスクのスケジュールタイプが [定期タスク] の場合は、[基本情報] に加えて、スケジューリングプロパティを設定する必要があります。詳細については、「スケジューリングプロパティの設定」をご参照ください。
- スケジュール依存関係 (定期タスク用)
  オフラインコンピューティングタスクのスケジュールタイプが [定期タスク] の場合は、[基本情報] に加えて、スケジュール依存関係を設定する必要があります。詳細については、「スケジュール依存関係の設定」をご参照ください。
- ランタイム構成
  必要に応じて、タスクレベルの実行タイムアウトと失敗時のリトライポリシーを設定します。これらの設定を行わない場合、タスクはテナントのデフォルト設定を継承します。詳細については、「コンピューティングタスクの実行設定」をご参照ください。
- リソース構成
  現在のコンピューティングタスクのスケジューリングリソースグループを設定します。タスクがスケジュールされると、このリソースグループのリソースクォータが使用されます。詳細については、「コンピューティングタスクのリソース設定」をご参照ください。
タスクを保存して送信します。
1. コードエディタの上にあるアイコンをクリックして、コードを保存します。
2. コードエディタの上にあるアイコンをクリックして、コードを送信します。
[送信ログ] ページで、[送信内容] と [事前チェック] の結果を確認します。次に、コメントを追加します。詳細については、「オフラインコンピューティングタスクの送信」をご参照ください。
[確認して送信] をクリックします。

次のステップ

Dev-Prod モードを使用している場合は、タスクが送信された後、リリースリストから本番環境にタスクを公開する必要があります。詳細については、「リリースタスクの管理」をご参照ください。
Basic モードでは、送信された Hive SQL タスクは本番環境でスケジュールできます。公開されたタスクはオペレーションセンターで表示できます。詳細については、「スクリプトタスクの表示と管理」および「ワンタイムタスクの表示と管理」をご参照ください。

付録：タスクタイプの切り替え

Hadoop コンピュートソースで Impala タスクを有効にしている場合、Hive SQL タスクを Impala SQL タスクに切り替えることができます。Impala はメモリベースであるため、Impala SQL タスクはクエリと分析において、より優れたエクスペリエンスを提供します。次の手順に従ってください：

Dataphin ホームページのトップメニューバーで、[開発] > [データ開発] を選択します。
[開発] ページで、トップメニューバーからプロジェクトを選択します。Dev-Prod モードでは、環境も選択する必要があります。
左側のナビゲーションウィンドウで、[データ処理] > [スクリプトタスク] を選択します。[スクリプトタスク] リストで、対象の Hive SQL タスクを選択します。
Hive SQL タスクの横にあるアイコンをクリックし、[タイプの変更] を選択します。
[タイプの変更] ダイアログボックスで、Impala SQL を選択し、[OK] をクリックしてタスクタイプを切り替えます。