このトピックでは、Dataphin で Hive SQL オフラインコンピューティングタスクを作成する方法について説明します。
背景情報
Hive SQL コンピューティングタスクを使用して、既存のデータを処理し、ビジネス要件を満たす新しいデータを生成できます。
手順
Dataphin ホームページのトップメニューバーで、[開発] > [データ開発] を選択します。
[開発] ページで、トップメニューバーからプロジェクトを選択します。Dev-Prod モードでは、環境も選択する必要があります。
左側のナビゲーションウィンドウで、[データ処理] > [スクリプトタスク] を選択します。[スクリプトタスク] リストで、
アイコンをクリックし、[Hive SQL] を選択します。[Hive SQL タスクの作成] ダイアログボックスで、次のパラメーターを設定します。
パラメーター
説明
タスク名
オフラインコンピューティングタスクの名前を入力します。
名前は 256 文字以内で、縦棒 (|)、スラッシュ (/)、バックスラッシュ (\)、コロン (:)、疑問符 (?)、山括弧 (<>)、アスタリスク (*)、二重引用符 (") を含めることはできません。
スケジュールタイプ
タスクのスケジュールタイプを選択します。[スケジュールタイプ] には、次のいずれかを指定できます:
定期タスク:タスクは定期的なスケジュールで自動的に実行されます。
手動タスク:このタスクは手動でトリガーされます。
ディレクトリの選択
タスクを保存するディレクトリを選択します。
必要なディレクトリが存在しない場合は、次のように新しいフォルダを作成します:
左側のタスクリストの上にある
アイコンをクリックして、[フォルダの作成] ダイアログボックスを開きます。[フォルダの作成] ダイアログボックスで、フォルダの [名前] を入力し、必要に応じて [ディレクトリの選択] で場所を選択します。
[OK] をクリックします。
テンプレートの使用
[テンプレートの使用] スイッチをオンにして、コードテンプレートを使用します。このスイッチをオンにした場合は、[テンプレート] と [テンプレートバージョン] も選択する必要があります。
コードテンプレートを使用すると、開発効率が向上します。テンプレートタスクのコードは読み取り専用です。テンプレートパラメーターを設定するだけで済みます。詳細については、「オフラインコンピューティングテンプレートの作成」をご参照ください。
説明
タスクの簡単な説明を入力します。説明は 1,000 文字以内です。
[OK] をクリックします。
Hive SQL タスクのコードエディタで、オフラインコンピューティングタスクのコードを記述します。次に、コードエディタの上にある [プリコンパイル] をクリックして、Hive SQL コードの構文をチェックします。
コードがプリコンパイルされたら、コードエディタの上にある [実行] をクリックします。
サイドバーで [プロパティ] をクリックして、タスクの [プロパティ] を設定します。プロパティには、[基本情報]、[実行時パラメーター]、[スケジューリングプロパティ] (定期タスク用)、[スケジュール依存関係] (定期タスク用)、[実行設定]、[リソース設定] が含まれます。
基本情報
タスクの名前、オーナー、説明などの基本情報を設定します。詳細については、「タスクの基本情報の設定」をご参照ください。
ランタイムパラメーター
タスクがパラメーター変数を使用する場合、このセクションで値を割り当てることができます。ノードがスケジュールされると、パラメーター変数は自動的に割り当てられた値に置き換えられます。詳細については、「ノードパラメーターの設定と使用」をご参照ください。
スケジューリングプロパティ (定期タスク用)
オフラインコンピューティングタスクのスケジュールタイプが [定期タスク] の場合は、[基本情報] に加えて、スケジューリングプロパティを設定する必要があります。詳細については、「スケジューリングプロパティの設定」をご参照ください。
スケジュール依存関係 (定期タスク用)
オフラインコンピューティングタスクのスケジュールタイプが [定期タスク] の場合は、[基本情報] に加えて、スケジュール依存関係を設定する必要があります。詳細については、「スケジュール依存関係の設定」をご参照ください。
ランタイム構成
必要に応じて、タスクレベルの実行タイムアウトと失敗時のリトライポリシーを設定します。これらの設定を行わない場合、タスクはテナントのデフォルト設定を継承します。詳細については、「コンピューティングタスクの実行設定」をご参照ください。
リソース構成
現在のコンピューティングタスクのスケジューリングリソースグループを設定します。タスクがスケジュールされると、このリソースグループのリソースクォータが使用されます。詳細については、「コンピューティングタスクのリソース設定」をご参照ください。
タスクを保存して送信します。
コードエディタの上にある
アイコンをクリックして、コードを保存します。コードエディタの上にある
アイコンをクリックして、コードを送信します。
[送信ログ] ページで、[送信内容] と [事前チェック] の結果を確認します。次に、コメントを追加します。詳細については、「オフラインコンピューティングタスクの送信」をご参照ください。
[確認して送信] をクリックします。
次のステップ
Dev-Prod モードを使用している場合は、タスクが送信された後、リリースリストから本番環境にタスクを公開する必要があります。詳細については、「リリースタスクの管理」をご参照ください。
Basic モードでは、送信された Hive SQL タスクは本番環境でスケジュールできます。公開されたタスクはオペレーションセンターで表示できます。詳細については、「スクリプトタスクの表示と管理」および「ワンタイムタスクの表示と管理」をご参照ください。
付録:タスクタイプの切り替え
Hadoop コンピュートソースで Impala タスクを有効にしている場合、Hive SQL タスクを Impala SQL タスクに切り替えることができます。Impala はメモリベースであるため、Impala SQL タスクはクエリと分析において、より優れたエクスペリエンスを提供します。次の手順に従ってください:
Dataphin ホームページのトップメニューバーで、[開発] > [データ開発] を選択します。
[開発] ページで、トップメニューバーからプロジェクトを選択します。Dev-Prod モードでは、環境も選択する必要があります。
左側のナビゲーションウィンドウで、[データ処理] > [スクリプトタスク] を選択します。[スクリプトタスク] リストで、対象の Hive SQL タスクを選択します。
Hive SQL タスクの横にある
アイコンをクリックし、[タイプの変更] を選択します。[タイプの変更] ダイアログボックスで、Impala SQL を選択し、[OK] をクリックしてタスクタイプを切り替えます。