すべてのプロダクト
Search
ドキュメントセンター

Dataphin:オフラインコンピューティングテンプレートの作成

最終更新日:Feb 06, 2025

Dataphin は、タスク開発を効率化するためのオフラインコンピューティングテンプレートの作成をサポートしています。このトピックでは、オフラインコンピューティングテンプレートを作成、構成、および送信する手順について説明します。

背景情報

複数のタスクで同様のコードロジックを共有する一方で、特定の設定項目や入力パラメーターが異なる場合、これらの構成と入力のための変数パラメーターを使用して、コードをオフラインコンピューティングテンプレートにカプセル化できます。後続のタスクでテンプレートを参照することにより、共通のコードロジックを簡単に維持および再利用でき、タスクコードの開発効率が向上します。

通常、タスクには専用のランタイムリソースがあります。多くのタスクが同時に実行されると、リソース消費量が高くなり、タスクの同時実行性に影響を与える可能性があります。 Dataphin では、同じオフラインコンピューティングテンプレートを参照する複数のタスクがランタイムリソースを共有できるため、効率的なリソース活用と他のタスクの途切れない操作が保証されます。この機能を有効にするには、オフラインコンピューティングテンプレートの共有ランタイムリソーススイッチをアクティブにします。

前提条件

オフラインコンピューティングテンプレートの共有ランタイムリソースを有効にする前に、グローバル共有リソーススイッチがアクティブになっていることを確認してください。詳細については、「ランタイム設定」をご参照ください。

制限事項

  • オフラインコンピューティング テンプレートの作成、構成、および送信は、スーパーユーザプロジェクト管理者、または プロジェクト開発者 ロールのユーザーに制限されています。

    プロジェクト管理者と開発者のロールを割り当てる方法については、「プロジェクトメンバーの追加」セクションを参照してください。

  • オフラインコンピューティングテンプレートの共有ランタイムリソーススイッチは、[スーパー管理者][システム管理者] のみ有効にできます。

手順

  1. Dataphin ホームページに移動し、トップメニューバーから [開発] > [データ開発] を選択します。

  2. [開発] ページで、トップメニューバーから [プロジェクト] を選択します(開発-本番モードでは環境を選択します)。

  3. 左側のナビゲーションウィンドウで、[データ処理] をクリックし、次に [テンプレート] をクリックします。 [テンプレート] リストから image アイコンを選択し、[オフラインコンピューティングテンプレート] を選択します。

  4. [オフラインコンピューティングの作成] [テンプレート] ダイアログボックスで、次のパラメーターを構成できます。

    パラメーター

    説明

    テンプレート名

    命名規則は次のとおりです。

    • 大文字と小文字の英字、数字、アンダースコア(_)、およびハイフン(-)が使用できます。

    • グローバルに一意です。

    • 64 文字を超えることはできません。

    ファイルタイプ

    Shell と Python をサポートし、異なるオフラインコンピューティングエンジンに基づいて、異なるオフラインコンピューティングテンプレートの作成をサポートします。

    説明

    [ファイルタイプ][SHELL] または [PYTHON] として選択されている場合、[python モジュール] を構成することを選択できます。

    Python サードパーティパッケージにサードパーティモジュールを追加した後、コードでモジュールをインポートする前に、タスクで参照を宣言する必要があります。 参照されるモジュールは、計算タスクのプロパティ > Python サードパーティパッケージの構成項目で設定および編集できます。

    • MaxCompute コンピューティングエンジン

      • MAX_COMPUTE_SQL

      • SPARK_JAR_ON_MAX_COMPUTE

      • MAX_COMPUTE_MR

    • Hadoop(Hive)コンピューティングエンジン

      • HIVE_SQL

      • IMPALA_SQL

        説明

        Impala を構成して有効にする必要があります。

      • SPARK_JAR_ON_HIVE

      • HADOOP_MR

    • TDH Inceptor コンピューティングエンジン

      • INCEPTOR_SQL

      • SPARK_JAR_ON_HIVE

      • HADOOP_MR

    • ADB for PostgreSQL コンピューティングエンジン

      • ADB_PG_SQL

    • StarRocks コンピューティングエンジン

      • STARROCKS_SQL

    • ArgoDB コンピューティングエンジン

      • ARGODB_SQL

    • GaussDB(DWS)コンピューティングエンジン

      • GAUSSDB_SQL

    ディレクトリの選択

    デフォルトの選択はオフラインコンピューティングテンプレートです。 [テンプレート] ページでターゲットフォルダを作成し、それをコンピューティングテンプレートのディレクトリとして選択することもできます。 新しいフォルダを作成する手順は次のとおりです。

    1. コンピューティングテンプレートリストの上にある image アイコンをクリックして、[フォルダの作成] ダイアログボックスを開きます。

    2. [フォルダの作成] ダイアログボックスで、フォルダの [名前] を入力し、[オフライン] [タイプ] を選択し、必要に応じて [ディレクトリの選択] の場所を選択します。

    3. [確認] をクリックします。

    説明

    オフラインコンピューティングテンプレートの簡単な説明を 1000 文字以内で入力します。

  5. [確認] をクリックします。

  6. コード開発ページでオフラインコンピューティングテンプレートコードを開発します。

    テンプレート変数パラメーターをフォーマットを使用して定義できます@@{テンプレート変数パラメーター名}. 名前は英字で始まり、英字、数字、およびアンダースコア(_)のみを含めることができます。例:@@{変数}.

    image.png

  7. コーディング後、ページの左上にある image ボタンをクリックし、[パラメーター入力] ダイアログボックスにパラメーター値を入力します。

  8. [確認] をクリックします。

  9. コード開発ページで、右側の [属性] をクリックします。

  10. [属性] パネルで、パラメーターを設定します。

    パラメーター

    説明

    基本情報

    説明

    オフラインコンピューティングテンプレートの簡単な説明を入力します。

    Python モジュール

    必要な Python サードパーティパッケージを選択します。 詳細については、「Python サードパーティパッケージのインストールと管理」をご参照ください。

    説明

    Python サードパーティパッケージにサードパーティモジュールを追加した後、コードでモジュールをインポートする前に、タスクで参照を宣言する必要があります

    ランタイム構成

    共有ランタイムリソース

    共有ランタイムリソースを有効にすると、このテンプレートを参照するタスクインスタンスは、リソースを節約するためにランタイムリソースを共有できます。 この操作は、スーパーユーザーの実行に制限されています。

    重要
    • テンプレートの [共有ランタイム リソース] 構成は、[グローバル共有リソース] を使用した操作 (メタデータウェアハウス) テナントで有効にする必要があります。有効にしない場合、構成はサポートされません。このテンプレートを参照して作成されたタスクは、排他的リソース タスクです。具体的な操作については、「ランタイム設定」をご参照ください。

    パラメーターチェック

    パラメーターの説明

    開発者が理解しやすいように、コードにパラメーターの説明を入力します。

    デフォルト値

    コードのパラメーターに値を割り当てます。 このテンプレートを参照するタスクのパラメーター値を変更でき、タスクの実行後に有効になります。

    パラメーターの暗号化

    パラメーターの暗号化を有効にすると、デフォルトのパラメーター値は機密データを保護するために暗号文で保存されます。 このテンプレートを参照する後続のタスクでは、デフォルトのパラメーター値をプレーンテキストで表示することはできません。 タスクの実行時に、Dataphin はデフォルトのパラメーター値を自動的に復号化します。

    パラメーターの暗号化を無効にすると、構成済みのデフォルトのパラメーター値は自動的にクリアされます。

    リソース構成

    リソースグループ

    • タスクのスケジューリングには、スケジューリングリソースの消費が必要です。 テンプレートを参照して生成された各タスクインスタンスが使用できるスケジューリングリソースグループを指定できます。 インスタンスのスケジューリング中に、指定されたリソースグループのクォータからリソースが占有されます。 指定されたリソースグループに使用可能なリソースがない場合、スケジュール リソースを待機しています ステータスになります。 異なるリソースグループ間のリソースは分離されており、相互に影響を与えないため、スケジューリングの安定性が確保されます。

    • 共有ランタイムリソース を有効にした後、カスタムリソースグループを指定することはできません。テンプレートを参照して作成されたタスクは、共有リソースタスクです。共有リソースタスクは、すべての共有リソースタスクのスケジューリングをサポートするために、デフォルトで共有スケジューリングリソースプールで構成されます。共有リソースプールでサポートされる最大同時実行制限を変更するには、メタデータウェアハウス システム管理者 に連絡して変更を依頼してください。

    • 共有ランタイムリソースをシャットダウンした後、カスタムリソースグループを指定できます。設定されたスケジュールリソースグループは、日次タスクスケジューリングのシナリオと、現在のタスクが属するプロジェクトとの関連を持つリソースグループのみをサポートします。具体的な操作については、「リソースグループ構成」をご参照ください。

    重要
    • テンプレートを参照して作成されたタスクは、テンプレートでのスケジューリングリソースグループの構成のみをサポートします。

    • プロジェクトのデフォルト リソース グループ が選択されている場合、プロジェクトのデフォルト リソース グループの構成に基づいて自動的に更新されます。

  11. [確認] をクリックして、オフラインコンピューティングテンプレートの構成を完了します。

  12. ページ上部にある image ボタンをクリックし、送信確認ダイアログボックスの [備考] に入力します。

  13. [確認して送信] をクリックします。

次の手順

新しいオフラインコンピューティングテンプレートを使用してタスクを作成します。 詳細な手順については、以下を参照してください。