このトピックでは、Dataphin で HIVE_SQL を使用してオフラインコンピューティングタスクを作成する手順の概要を説明します。
背景情報
HIVE_SQL タスクは、既存のデータを処理して特定のビジネス要件に合わせた結果を生成するのに最適です。
手順
Dataphin ホームページで、トップメニューバーに移動し、[開発] > [データ開発] を選択します。
[開発] ページのトップメニューバーで、[プロジェクト] を選択します(開発-本番モードでは環境の選択が必要です)。
左側のナビゲーションウィンドウで、[データ処理] > [スクリプトタスク] を選択します。[スクリプトタスク] リストで
アイコンをクリックし、[HIVE_SQL] を選択します。
[新しい HIVE_SQL タスク] ダイアログボックスで、次のパラメーターを構成します。
パラメーター
説明
タスク名
オフラインコンピューティングタスクの名前を入力します。256 文字を超えないようにしてください。名前には、縦線(|)、スラッシュ(/)、バックスラッシュ(\)、コロン(:)、疑問符(?)、山かっこ(<>)、アスタリスク(*)、または引用符(")を含めることはできません。
長さは 256 文字以下である必要があります。サポートされていない文字には、縦線(|)、スラッシュ(/)、バックスラッシュ(\)、コロン(:)、疑問符(?)、山かっこ(<>)、アスタリスク(*)、および引用符(")が含まれます。
スケジュールタイプ
タスクのスケジュールタイプを選択します。[スケジュールタイプ] のオプションは次のとおりです。
繰り返しタスク: システムの定期スケジュールに自動的に含まれます。
ワンタイムタスク: 手動で開始する必要があります。
ディレクトリの選択
タスクを保存するディレクトリを選択します。ディレクトリが存在しない場合は、次の手順で作成します。
ディレクトリが存在しない場合は、次の手順に従って [フォルダの作成] を行います。
左側のタスクリストの上にある
アイコンをクリックして、[フォルダの作成] ダイアログボックスを開きます。
[フォルダの作成] ダイアログで、フォルダの [名前] を入力し、必要に応じて [ディレクトリ] の場所を選択します。
[確認] を選択します。
テンプレートの使用
[テンプレートの使用] スイッチを切り替えて、コードテンプレートを適用するかどうかを決定します。有効にした場合は、[テンプレート] とその [バージョン] も選択します。
参照コードテンプレートを利用して、開発を効率化します。テンプレートのタスクコードは読み取り専用であり、変更できません。テンプレートパラメーターを構成するだけで、コード開発を完了できます。詳細については、「オフラインコンピューティングテンプレートを作成する」をご参照ください。
説明
タスクの簡単な説明を 1000 文字以内で入力します。
[確認] を選択します。
現在の HIVE_SQL タスクタブのコード編集領域で、HIVE_SQL オフラインコンピューティングタスクコードを作成します。コードが完成したら、[プリコンパイル] をクリックして HIVE_SQL コードの構文を確認します。
コードをプリコンパイルした後、[実行] をクリックしてコードを実行します。
サイドバーの [属性] をクリックして、タスクの [属性] を設定します。これには、[基本情報]、[ランタイムパラメーター]、[スケジュール属性](繰り返しタスクの場合)、[スケジュール依存関係](繰り返しタスクの場合)、[ランタイム構成]、および [リソース構成] が含まれます。
基本情報
このセクションでは、スケジュールされたタスクの名前の定義、担当者の割り当て、およびその他の基本的な詳細とともに説明を提供します。構成のガイダンスについては、「基本的なタスク情報を構成する」をご参照ください。
ランタイムパラメーター
タスクでパラメーター変数を使用する場合、属性でこれらのパラメーターの値を設定できます。これにより、ノードのスケジューリング中にパラメーター変数がそれぞれの値に自動的に置換されます。構成のガイダンスについては、「ノードパラメーターのパラメーター構成と使用」をご参照ください。
スケジュール属性 (繰り返しタスク)
オフラインコンピューティングタスクのスケジュールタイプが [繰り返しタスク] に設定されている場合は、[基本情報] を提供するだけでなく、タスクのスケジュール属性も構成する必要があります。構成のガイダンスについては、「スケジュール属性の構成」をご参照ください。
スケジュール依存関係 (繰り返しタスク)
オフラインコンピューティングタスクが [繰り返しタスク] として設定されている場合は、[基本情報] を提供するだけでなく、タスクのスケジュール依存関係も構成する必要があります。構成手順については、「スケジュール依存関係の構成」をご参照ください。
ランタイム構成
オフラインコンピューティングタスクの場合、ビジネスニーズに基づいてタスクレベルのランタイムタイムアウトと再実行ポリシーを設定できます。特定の構成がない場合、タスクはテナントレベルで確立されたタイムアウトと再実行設定にデフォルト設定されます。これらの設定を構成する方法のガイダンスについては、「コンピューティングタスクランタイム構成」をご参照ください。
リソース構成
現在のコンピューティングタスクのスケジューリングリソースグループを設定できます。スケジューリング中は、そのグループのリソースクォータが使用されます。これを構成する方法のガイダンスについては、「コンピューティングタスクリソース構成」をご参照ください。
現在の HIVE_SQL タスクタブでタスクを保存して送信します。
アイコンをクリックしてコードを保存します。
アイコンをクリックしてコードを送信します。
[ログの送信] ページで、[送信コンテンツ] と [事前チェック] の結果を確認し、備考を入力する必要があります。詳細については、「オフラインコンピューティングタスクの送信手順」をご参照ください。
確認後、[確認して送信] をクリックします。
次の手順
開発-本番モードでは、タスクが正常に送信されたら、リリースリストに進み、タスクを本番環境に公開します。詳細については、「リリースタスクの管理」をご参照ください。
開発モードが 基本モードの場合、正常に送信された HIVE_SQL タスクは本番環境のスケジューリングに参加できます。オペレーションセンターに移動して、公開済みのタスクを表示できます。詳細については、「スクリプトタスクの表示と管理」、「ワンタイムタスクの表示と管理」をご参照ください。
付録: タスクタイプの切り替え
Hadoop コンピューティングソースで Impala タスクが有効になっている場合、クエリ分析のパフォーマンスを向上させるために、HIVE_SQL タスクを IMPALA_SQL タスクに変換できます。次の手順に従います。
Dataphin ホームページのトップメニューバーに移動し、[開発] > [データ開発] を選択します。
[開発] ページのトップメニューバーで、[プロジェクト] を選択します(開発-本番モードでは環境の選択が必要です)。
左側のナビゲーションウィンドウで、[データ処理] > [スクリプトタスク] を選択します。次に、[スクリプトタスク] リストから、目的の HIVE_SQL タスクを選択します。
HIVE_SQL タスクの横にある
アイコンをクリックし、[タイプの変更] を選択します。
[タイプの変更] ダイアログボックスで、[IMPALA_SQL] を選択し、[確認] をクリックしてタスクタイプを変更します。