すべてのプロダクト
Search
ドキュメントセンター

Dataphin:Spark SQL タスクの作成

最終更新日:Feb 06, 2025

このトピックでは、Dataphin を使用してオフラインコンピューティング用の Spark SQL タスクを作成する方法について説明します。

前提条件

プロジェクトの Hadoop コンピューティングソースが Spark SQL タスクを有効にするように構成されていることを確認します。 詳細については、「Hadoop コンピューティングソースを作成する」をご参照ください。

手順

  1. Dataphin ホームページで、トップメニューバーに移動し、[開発] > [データ開発] を選択します。

  2. [開発] ページのトップメニューバーで、[プロジェクト] を選択します(開発-本番モードでは環境を選択する必要があります)。

  3. 左側のナビゲーションウィンドウで、[データ処理] > [スクリプトタスク] を選択します。 [スクリプトタスク] リストで、image アイコンをクリックし、[SPARK_SQL] を選択します。

  4. [新規 SPARK_SQL タスク] ダイアログボックスで、必須パラメーターを入力します。

    パラメーター

    説明

    タスク名

    オフラインコンピューティングタスクの名前を入力します。 256 文字を超えることはできません。 使用できない文字には、縦線(|)、スラッシュ(/)、バックスラッシュ(\)、コロン(:)、疑問符(?)、山かっこ(<>)、アスタリスク(*)、引用符(")などがあります。

    長さは 256 文字を超えてはいけません。使用できない文字には、縦線(|)、スラッシュ(/)、バックスラッシュ(\)、コロン(:)、疑問符(?)、山かっこ(<>)、アスタリスク(*)、引用符(")などがあります。

    スケジュールタイプ

    タスクの [スケジュールタイプ] を選択します。 次のようなものがあります。

    • 繰り返しタスク。システムの定期スケジュールに自動的に含まれます。

    • ワンタイムタスク。手動で開始する必要があります。

    ディレクトリの選択

    タスクを保存するディレクトリを選択します。

    ディレクトリが存在しない場合は、次の手順に従って [フォルダの作成] を行うことができます。

    1. image アイコンをクリックして、[フォルダの作成] ダイアログボックスを開きます。

    2. [フォルダの作成] ダイアログで、フォルダの [名前] を入力し、必要に応じて [ディレクトリの選択] の場所を選択します。

    3. [確認] をクリックします。

    テンプレートの使用

    コードテンプレートを使用するかどうかを決定するには、[テンプレートの使用] スイッチをクリックします。 有効 の場合は、[テンプレートの選択] に進み、適切な [テンプレートバージョン] を選択します。

    効率的な開発のために、参照コードテンプレートを活用してください。 これらのテンプレートは読み取り専用であり、変更することはできません。 開発プロセスを完了するには、必要なテンプレートパラメーターを構成するだけです。 詳細については、「オフラインコンピューティングテンプレートを作成する方法」をご参照ください。

    説明

    タスクの簡単な説明を 1000 文字以内で入力します。

  5. [確認] をクリックします。

  6. 現在の SPARK_SQL タスクタブのコード編集領域で、オフラインコンピューティングタスクの SPARK_SQL コードを記述します。 コーディング後、[プリコンパイル] をクリックして構文を確認します。

  7. プリコンパイルが完了したら、[実行] をクリックしてコードを実行します。

  8. 右側のサイドバーから [属性] を選択します。 [属性] パネルで、[基本情報][ランタイムパラメーター][spark リソース設定]、および繰り返しタスクの [スケジューリングプロパティ] を設定します。 また、繰り返しタスクの [スケジュール依存関係] と、[ランタイム構成] および [リソース構成] も構成します。

    • 基本情報

      このセクションでは、スケジューリングタスクの名前の定義、担当者の割り当て、説明の提供、その他の重要な詳細情報の入力を行います。 構成のガイダンスについては、「基本的なタスク情報を構成する」をご参照ください。

    • ランタイムパラメーター

      タスクでパラメーター変数を使用する場合、属性内でこれらのパラメーターの値を設定できます。 これにより、ノードのスケジューリング中にパラメーター変数がそれぞれの値に自動的に置き換えられます。 設定方法については、「パラメーターの構成とノード固有のパラメーターの使用」をご参照ください。

    • Spark リソース設定

      プロジェクトのコンピューティングソースの Spark SQL サービス構成 で、本番と開発の両方で Kyuubi サービスタイプを使用している場合は、Spark リソース設定を構成できます。 ただし、これらの設定は本番環境でのみ有効です。

      動的リソース割り当て: 有効または無効にすることができます。

      • 有効: システムは Spark SQL タスクにリソースを動的に割り当てます。

      • 無効: Spark リソースパラメーターを手動で設定します。 手順については、「Spark SQL タスクパラメーターを構成する」をご参照ください。

      説明

      プロジェクトのコンピューティングソースが Thrift Server サービスタイプを使用して Spark SQL サービス で構成されている場合、Spark リソース設定は適用されません。

    • スケジューリングプロパティ (繰り返しタスク)

      オフラインコンピューティングタスクが [繰り返しタスク] として設定されている場合は、[基本情報] を提供するだけでなく、スケジューリングプロパティも構成する必要があります。 構成のガイダンスについては、「スケジューリングプロパティを構成する」をご参照ください。

    • スケジュール依存関係 (繰り返しタスク)

      オフラインコンピューティングタスクが [繰り返しタスク] として設定されている場合は、[基本情報] を提供するだけでなく、スケジュール依存関係も構成する必要があります。 この構成のガイダンスについては、「スケジュール依存関係を構成する」をご参照ください。

    • ランタイム構成

      ビジネスシナリオに基づいて、タスクレベルのランタイムタイムアウトと、タスクが失敗した場合の再実行ポリシーをオフラインコンピューティングタスクに構成できます。 構成しない場合は、テナントレベルで設定されたデフォルト値が継承されます。 構成手順については、「コンピューティングタスクのランタイム構成」をご参照ください。

    • リソース構成: これは、タスクのスケジューリング中にインスタンスによって消費されるリソースの割り当てを指します。 リソースはそれぞれのリソースグループ専用であり、分離を確保し、異なるグループ間での干渉を防ぎます。 SPARK_SQL タスクは共有リソースを使用し、カスタムリソースグループの割り当てを許可しないことに注意してください。 リソースの構成については、「コンピューティングタスクのリソース構成」をご参照ください。

      タスクによって生成されたインスタンスによって消費されるリソースを定義します。 リソースは異なるリソースグループ間で分離されています。 SPARK_SQL タスクは共有リソースであり、カスタムリソースグループの指定はサポートしていません。 手順については、 をご参照ください。

  9. 現在の SPARK_SQL タスクをそのタブに保存して送信します。

    1. image アイコンをクリックしてコードを保存します。

    2. image アイコンをクリックして、レビューのためにコードを送信します。

  10. [ログの送信] ページで、[送信コンテンツ][事前チェック] の結果を確認し、備考を入力する必要があります。 詳細については、「オフラインコンピューティングタスクの送信手順」をご参照ください。

  11. レビュー後、[確認して送信] をクリックして送信を完了します。

次の手順

  • 開発モードが 開発-本番モード の場合、タスクが正常に送信された後、リリースリストに移動して タスクを本番環境に公開 する必要があります。 詳細については、「リリースタスクを管理する」をご参照ください。

  • 開発モードが 基本モード の場合、正常に送信された Spark SQL タスクは本番環境のスケジューリングに参加できます。 オペレーションセンターに移動して、公開したタスクを表示できます。 詳細については、「スクリプトタスクを表示および管理する」、「ワンタイムタスクを表示および管理する」をご参照ください。