Dataphin で Python コンピューティングタスクを作成する - Dataphin

Dataphin では、さまざまなアプリケーションシナリオに合わせて Python コンピューティングタスクを作成できます。このトピックでは、Dataphin で Python コンピューティングタスクを作成する方法について説明します。

背景情報

Python 3.7 は、多様なビッグデータ処理シナリオにより適しています。例えば、Python 3.7 は Python 2.7 では利用できない list.clear() メソッドをサポートしています。詳細については、Python をご参照ください。

制限事項

Python 3.7 は Python 2.7 との下位互換性がありません。既存の Python 2.7 タスクを直接アップグレードすることはできません。
バージョン 2.9.3 以降、Dataphin はコンピューティングタスクの開発にデフォルトで Python 3.7 を使用します。ドラフト状態の Python タスクのバージョンのみ変更できます。サポートされているバージョンは Python 2.7、Python 3.7、および Python 3.11 です。

タスク実行

Dataphin で Python タスクを実行すると、スケジューリングクラスターが組み込みのテンプレートイメージを複製してタスクを実行します。このイメージには、タスク開発に使用できる一般的な Python パッケージが含まれています。詳細については、付録：Python 組み込みリソースパッケージをご参照ください。
組み込みのリソースパッケージがニーズを満たさない場合は、管理センターの Python サードパーティパッケージ管理機能を使用して、追加のパッケージをインストールできます。実行時、システムは参照されるリソースパッケージをタスク実行のために実行環境に自動的に追加します。Dataphin はタスクごとに組み込みのテンプレートイメージを複製して実行されるため、pip install コマンドを使用してリソースパッケージをインストールすると、タスクが実行されるたびに pip install コマンドが再実行されます。このため、サードパーティの Python パッケージ管理機能を使用することをお勧めします。詳細については、「サードパーティライブラリを使用した Python コンピューティングタスクの開発」をご参照ください。

手順

Dataphin のホームページで、上部のメニューバーから開発 > データ開発 を選択します。
開発ページで、上部のメニューバーからプロジェクトを選択します。Dev-Prod モードを使用している場合は、環境も選択する必要があります。
左側のナビゲーションウィンドウで、データ処理 > スクリプトタスク を選択します。スクリプトタスク リストで、アイコンをクリックし、Python を選択します。

新しい Python タスク ダイアログボックスで、次のパラメーターを設定します。

パラメーター	説明
タスク名	コードタスクの名前を入力します。名前は 256 文字以内で、次の文字を含めることはできません：縦棒 (\|)、スラッシュ (/)、バックスラッシュ (\)、コロン (:)、疑問符 (?)、山括弧 (<>)、アスタリスク (*)、または二重引用符 (")。
スケジュールタイプ	タスクのスケジュールタイプを選択します。スケジュールタイプは、次のいずれかです：定期タスク：タスクはシステムの定期スケジューリングに自動的に含まれます。ワンタイムタスク：タスクは手動で実行する必要があります。
ディレクトリの選択	タスクを保存するフォルダを選択します。フォルダを作成していない場合は、次の手順で新しいフォルダを作成します：タスクリストの上にあるアイコンをクリックして、フォルダの作成ダイアログボックスを開きます。フォルダの作成ダイアログボックスで、フォルダの名前を入力し、必要に応じてディレクトリの選択で場所を選択します。 [確認] をクリックします。
テンプレートの使用	効率的な開発のためにコードテンプレートを参照します。テンプレートタスクのコードは読み取り専用です。テンプレートパラメーターを設定するだけで、コード開発を完了できます。
Python サードパーティパッケージ	サードパーティの Python パッケージを使用するには、Python バージョンを選択し、インポートする Python サードパーティパッケージを選択します。Python バージョンは、開発プラットフォーム設定 > デフォルトの Python バージョンで設定されたものがデフォルトになります。サポートされているバージョンには、Python 2.7、Python 3.7、および Python 3.11 が含まれます。複数のパッケージを選択した場合は、以下のリストでアップロード順序を調整します。 Python サードパーティパッケージの詳細については、「Python サードパーティパッケージのインストールと管理」をご参照ください。説明 Python サードパーティパッケージにサードパーティモジュールを追加した後、コードでインポートする前に、タスクでモジュールへの参照を宣言する必要があります。参照されるモジュールは、コンピューティングタスクのプロパティの Python サードパーティパッケージ設定項目で編集できます。
説明	タスクの簡単な説明を入力します。説明は 1,000 文字以内で入力してください。

[確認] をクリックします。
Python タスクタブで、コードエディタにコンピューティングタスクのコードを記述します。コードを記述した後、コードエディタの上にある実行をクリックします。
説明
- PYTHON コンピューティングタスクを開発する際、ビジネスシナリオに応じて特定のリソースパッケージが必要になる場合があります。Dataphin には、一般的なリソースパッケージがプリインストールされています。これらを使用するには、コードの先頭に import {package_name} のような文を追加します (例：import configparser)。詳細については、「付録：Python 組み込みリソースパッケージ」をご参照ください。
- PYTHON コンピューティングタスクを開発する際、コード実行中にシステムのデフォルトエンコーディングによって引き起こされる可能性のあるエラーを防ぐために、Python ファイルの最初の 2 行以内にコメントでファイルエンコーディングを明示的に宣言してください。
- Python でアップロードされたリソースファイルをインポートするには、「リソースのアップロードと参照」をご参照ください。
右側のサイドバーで プロパティ をクリックします。プロパティ パネルで、基本情報、実行リソース、Python サードパーティパッケージ、実行時パラメーター、スケジュールプロパティ (定期タスクの場合)、スケジュール依存関係 (定期タスクの場合)、実行設定、リソース設定 などのパラメーターを設定します。
- 基本情報
  タスク名、オーナー、説明など、タスクの基本情報を設定します。詳細については、「タスクの基本情報の設定」をご参照ください。
- 実行リソース
  タスクの実行に割り当てる CPU とメモリリソースを指定します。デフォルト値は 0.1 コア、256 MB です。詳細については、「オフラインタスクの実行リソースの設定」をご参照ください。
- Python サードパーティパッケージ
  インポートしたい Python サードパーティパッケージを選択します。詳細については、「Python モジュールのインストール」をご参照ください。
- ランタイムパラメーター
  タスクがパラメーター変数を使用する場合、ここで値を割り当てることができます。ノードがスケジュールされると、パラメーター変数は割り当てられた値に自動的に置き換えられます。詳細については、「ノードパラメーターの設定と使用」をご参照ください。
- スケジュールプロパティ (定期タスクの場合)
  オフラインコンピューティングタスクのスケジュールタイプが 定期タスク の場合、基本情報 に加えて、そのスケジュールプロパティを設定する必要があります。詳細については、「スケジュールプロパティの設定」をご参照ください。
- スケジュール依存関係 (定期タスクの場合)
  オフラインコンピューティングタスクのスケジュールタイプが 定期タスク の場合、基本情報 に加えて、そのスケジュール依存関係を設定する必要があります。詳細については、「スケジュール依存関係の設定」をご参照ください。
- 実行設定
  タスクレベルの実行タイムアウト期間と、失敗したタスクのリトライポリシーを設定できます。これらの設定を行わない場合、デフォルトのテナントレベルの設定が使用されます。詳細については、「コンピューティングタスクの実行設定」をご参照ください。
- リソース構成
  タスクをリソースグループに割り当てます。指定されたリソースグループのリソースが、実行時のタスクスケジューリングに使用されます。詳細については、「コンピューティングタスクのリソース設定」をご参照ください。
現在の Python タスクタブで、タスクを保存して送信します。
1. コードエディタの上にあるアイコンをクリックして、コードを保存します。
2. コードエディタの上にあるアイコンをクリックして、コードを送信します。
送信ログ ページで、送信内容 を確認し、事前チェック の結果を確認し、備考を入力します。詳細については、「オフラインコンピューティングタスクの送信手順」をご参照ください。
情報を確認した後、確認して送信 をクリックします。
説明
- データセキュリティを確保するため、Python タスクのコードに from dataphin import hivec または import dataphin が含まれている場合、タスクを送信するとコードレビューがトリガーされます。コードレビューチケットが自動的に作成され、コードが承認された後にのみタスクを送信できます。
- コードは、現在のプロジェクトのプロジェクト管理者によってレビューされる必要があります。複数のプロジェクト管理者がいる場合、いずれか 1 人の承認で十分です。

次の手順

Dev-Prod モード を使用する場合、タスクを送信した後、リリースリストからタスクを本番環境に公開する必要があります。詳細については、「リリースタスクの管理」をご参照ください。
Basic モード を使用する場合、Python タスクは送信後に本番環境でスケジュールできます。公開されたタスクはオペレーションセンターで表示できます。詳細については、「スクリプトタスクの表示と管理」、および「ワンタイムタスクの表示と管理」をご参照ください。