このトピックでは、Dataphin を使用してオフラインコンピューティング用の Spark SQL タスクを作成する方法について説明します。
前提条件
プロジェクトの Hadoop コンピューティングソースが Spark SQL タスクを有効にするように構成されていることを確認します。 詳細については、「Hadoop コンピューティングソースを作成する」をご参照ください。
手順
Dataphin ホームページで、トップメニューバーに移動し、[開発] > [データ開発] を選択します。
[開発] ページのトップメニューバーで、[プロジェクト] を選択します(開発-本番モードでは環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[データ処理] > [スクリプトタスク] を選択します。 [スクリプトタスク] リストで、
アイコンをクリックし、[SPARK_SQL] を選択します。
[新規 SPARK_SQL タスク] ダイアログボックスで、必須パラメーターを入力します。
パラメーター
説明
タスク名
オフラインコンピューティングタスクの名前を入力します。 256 文字を超えることはできません。 使用できない文字には、縦線(|)、スラッシュ(/)、バックスラッシュ(\)、コロン(:)、疑問符(?)、山かっこ(<>)、アスタリスク(*)、引用符(")などがあります。
長さは 256 文字を超えてはいけません。使用できない文字には、縦線(|)、スラッシュ(/)、バックスラッシュ(\)、コロン(:)、疑問符(?)、山かっこ(<>)、アスタリスク(*)、引用符(")などがあります。
スケジュールタイプ
タスクの [スケジュールタイプ] を選択します。 次のようなものがあります。
繰り返しタスク。システムの定期スケジュールに自動的に含まれます。
ワンタイムタスク。手動で開始する必要があります。
ディレクトリの選択
タスクを保存するディレクトリを選択します。
ディレクトリが存在しない場合は、次の手順に従って [フォルダの作成] を行うことができます。
アイコンをクリックして、[フォルダの作成] ダイアログボックスを開きます。
[フォルダの作成] ダイアログで、フォルダの [名前] を入力し、必要に応じて [ディレクトリの選択] の場所を選択します。
[確認] をクリックします。
テンプレートの使用
コードテンプレートを使用するかどうかを決定するには、[テンプレートの使用] スイッチをクリックします。 有効 の場合は、[テンプレートの選択] に進み、適切な [テンプレートバージョン] を選択します。
効率的な開発のために、参照コードテンプレートを活用してください。 これらのテンプレートは読み取り専用であり、変更することはできません。 開発プロセスを完了するには、必要なテンプレートパラメーターを構成するだけです。 詳細については、「オフラインコンピューティングテンプレートを作成する方法」をご参照ください。
説明
タスクの簡単な説明を 1000 文字以内で入力します。
[確認] をクリックします。
現在の SPARK_SQL タスクタブのコード編集領域で、オフラインコンピューティングタスクの SPARK_SQL コードを記述します。 コーディング後、[プリコンパイル] をクリックして構文を確認します。
プリコンパイルが完了したら、[実行] をクリックしてコードを実行します。
右側のサイドバーから [属性] を選択します。 [属性] パネルで、[基本情報]、[ランタイムパラメーター]、[spark リソース設定]、および繰り返しタスクの [スケジューリングプロパティ] を設定します。 また、繰り返しタスクの [スケジュール依存関係] と、[ランタイム構成] および [リソース構成] も構成します。
基本情報
このセクションでは、スケジューリングタスクの名前の定義、担当者の割り当て、説明の提供、その他の重要な詳細情報の入力を行います。 構成のガイダンスについては、「基本的なタスク情報を構成する」をご参照ください。
ランタイムパラメーター
タスクでパラメーター変数を使用する場合、属性内でこれらのパラメーターの値を設定できます。 これにより、ノードのスケジューリング中にパラメーター変数がそれぞれの値に自動的に置き換えられます。 設定方法については、「パラメーターの構成とノード固有のパラメーターの使用」をご参照ください。
Spark リソース設定
プロジェクトのコンピューティングソースの Spark SQL サービス構成 で、本番と開発の両方で Kyuubi サービスタイプを使用している場合は、Spark リソース設定を構成できます。 ただし、これらの設定は本番環境でのみ有効です。
動的リソース割り当て: 有効または無効にすることができます。
有効: システムは Spark SQL タスクにリソースを動的に割り当てます。
無効: Spark リソースパラメーターを手動で設定します。 手順については、「Spark SQL タスクパラメーターを構成する」をご参照ください。
説明プロジェクトのコンピューティングソースが Thrift Server サービスタイプを使用して Spark SQL サービス で構成されている場合、Spark リソース設定は適用されません。
スケジューリングプロパティ (繰り返しタスク)
オフラインコンピューティングタスクが [繰り返しタスク] として設定されている場合は、[基本情報] を提供するだけでなく、スケジューリングプロパティも構成する必要があります。 構成のガイダンスについては、「スケジューリングプロパティを構成する」をご参照ください。
スケジュール依存関係 (繰り返しタスク)
オフラインコンピューティングタスクが [繰り返しタスク] として設定されている場合は、[基本情報] を提供するだけでなく、スケジュール依存関係も構成する必要があります。 この構成のガイダンスについては、「スケジュール依存関係を構成する」をご参照ください。
ランタイム構成
ビジネスシナリオに基づいて、タスクレベルのランタイムタイムアウトと、タスクが失敗した場合の再実行ポリシーをオフラインコンピューティングタスクに構成できます。 構成しない場合は、テナントレベルで設定されたデフォルト値が継承されます。 構成手順については、「コンピューティングタスクのランタイム構成」をご参照ください。
リソース構成: これは、タスクのスケジューリング中にインスタンスによって消費されるリソースの割り当てを指します。 リソースはそれぞれのリソースグループ専用であり、分離を確保し、異なるグループ間での干渉を防ぎます。 SPARK_SQL タスクは共有リソースを使用し、カスタムリソースグループの割り当てを許可しないことに注意してください。 リソースの構成については、「コンピューティングタスクのリソース構成」をご参照ください。
タスクによって生成されたインスタンスによって消費されるリソースを定義します。 リソースは異なるリソースグループ間で分離されています。 SPARK_SQL タスクは共有リソースであり、カスタムリソースグループの指定はサポートしていません。 手順については、 をご参照ください。
現在の SPARK_SQL タスクをそのタブに保存して送信します。
アイコンをクリックしてコードを保存します。
アイコンをクリックして、レビューのためにコードを送信します。
[ログの送信] ページで、[送信コンテンツ] と [事前チェック] の結果を確認し、備考を入力する必要があります。 詳細については、「オフラインコンピューティングタスクの送信手順」をご参照ください。
レビュー後、[確認して送信] をクリックして送信を完了します。
次の手順
開発モードが 開発-本番モード の場合、タスクが正常に送信された後、リリースリストに移動して タスクを本番環境に公開 する必要があります。 詳細については、「リリースタスクを管理する」をご参照ください。
開発モードが 基本モード の場合、正常に送信された Spark SQL タスクは本番環境のスケジューリングに参加できます。 オペレーションセンターに移動して、公開したタスクを表示できます。 詳細については、「スクリプトタスクを表示および管理する」、「ワンタイムタスクを表示および管理する」をご参照ください。