Dataphin では、さまざまなアプリケーションシナリオに合わせて Python コンピューティングタスクを作成できます。このトピックでは、Dataphin で Python コンピューティングタスクを作成する方法について説明します。
背景情報
Python 3.7 は、多様なビッグデータ処理シナリオにより適しています。例えば、Python 3.7 は Python 2.7 では利用できない list.clear() メソッドをサポートしています。詳細については、Python をご参照ください。
制限事項
Python 3.7 は Python 2.7 との下位互換性がありません。既存の Python 2.7 タスクを直接アップグレードすることはできません。
バージョン 2.9.3 以降、Dataphin はコンピューティングタスクの開発にデフォルトで Python 3.7 を使用します。ドラフト状態の Python タスクのバージョンのみ変更できます。サポートされているバージョンは Python 2.7、Python 3.7、および Python 3.11 です。
タスク実行
Dataphin で Python タスクを実行すると、スケジューリングクラスターが組み込みのテンプレートイメージを複製してタスクを実行します。このイメージには、タスク開発に使用できる一般的な Python パッケージが含まれています。詳細については、付録:Python 組み込みリソースパッケージをご参照ください。

組み込みのリソースパッケージがニーズを満たさない場合は、管理センターの Python サードパーティパッケージ管理機能を使用して、追加のパッケージをインストールできます。実行時、システムは参照されるリソースパッケージをタスク実行のために実行環境に自動的に追加します。Dataphin はタスクごとに組み込みのテンプレートイメージを複製して実行されるため、
pip installコマンドを使用してリソースパッケージをインストールすると、タスクが実行されるたびにpip installコマンドが再実行されます。このため、サードパーティの Python パッケージ管理機能を使用することをお勧めします。詳細については、「サードパーティライブラリを使用した Python コンピューティングタスクの開発」をご参照ください。
手順
Dataphin のホームページで、上部のメニューバーから 開発 > データ開発 を選択します。
開発 ページで、上部のメニューバーからプロジェクトを選択します。Dev-Prod モードを使用している場合は、環境も選択する必要があります。
左側のナビゲーションウィンドウで、データ処理 > スクリプトタスク を選択します。スクリプトタスク リストで、
アイコンをクリックし、Python を選択します。新しい Python タスク ダイアログボックスで、次のパラメーターを設定します。
パラメーター
説明
タスク名
コードタスクの名前を入力します。
名前は 256 文字以内で、次の文字を含めることはできません:縦棒 (|)、スラッシュ (/)、バックスラッシュ (\)、コロン (:)、疑問符 (?)、山括弧 (<>)、アスタリスク (*)、または二重引用符 (")。
スケジュールタイプ
タスクのスケジュールタイプを選択します。スケジュールタイプ は、次のいずれかです:
定期タスク:タスクはシステムの定期スケジューリングに自動的に含まれます。
ワンタイムタスク:タスクは手動で実行する必要があります。
ディレクトリの選択
タスクを保存するフォルダを選択します。
フォルダを作成していない場合は、次の手順で新しいフォルダを作成します:
タスクリストの上にある
アイコンをクリックして、フォルダの作成 ダイアログボックスを開きます。フォルダの作成 ダイアログボックスで、フォルダの 名前 を入力し、必要に応じて ディレクトリの選択 で場所を選択します。
[確認] をクリックします。
テンプレートの使用
効率的な開発のためにコードテンプレートを参照します。テンプレートタスクのコードは読み取り専用です。テンプレートパラメーターを設定するだけで、コード開発を完了できます。
Python サードパーティパッケージ
サードパーティの Python パッケージを使用するには、Python バージョン を選択し、インポートする Python サードパーティパッケージ を選択します。Python バージョンは、開発プラットフォーム設定 > デフォルトの Python バージョン で設定されたものがデフォルトになります。サポートされているバージョンには、Python 2.7、Python 3.7、および Python 3.11 が含まれます。複数のパッケージを選択した場合は、以下のリストでアップロード順序を調整します。
Python サードパーティパッケージの詳細については、「Python サードパーティパッケージのインストールと管理」をご参照ください。
説明Python サードパーティパッケージにサードパーティモジュールを追加した後、コードでインポートする前に、タスクでモジュールへの参照を宣言する必要があります。参照されるモジュールは、コンピューティングタスクのプロパティの Python サードパーティパッケージ設定項目で編集できます。
説明
タスクの簡単な説明を入力します。説明は 1,000 文字以内で入力してください。
[確認] をクリックします。
Python タスクタブで、コードエディタにコンピューティングタスクのコードを記述します。コードを記述した後、コードエディタの上にある 実行 をクリックします。
説明PYTHON コンピューティングタスクを開発する際、ビジネスシナリオに応じて特定のリソースパッケージが必要になる場合があります。Dataphin には、一般的なリソースパッケージがプリインストールされています。これらを使用するには、コードの先頭に
import {package_name}のような文を追加します (例:import configparser)。詳細については、「付録:Python 組み込みリソースパッケージ」をご参照ください。PYTHON コンピューティングタスクを開発する際、コード実行中にシステムのデフォルトエンコーディングによって引き起こされる可能性のあるエラーを防ぐために、Python ファイルの最初の 2 行以内にコメントでファイルエンコーディングを明示的に宣言してください。
Python でアップロードされたリソースファイルをインポートするには、「リソースのアップロードと参照」をご参照ください。
右側のサイドバーで プロパティ をクリックします。プロパティ パネルで、基本情報、実行リソース、Python サードパーティパッケージ、実行時パラメーター、スケジュールプロパティ (定期タスクの場合)、スケジュール依存関係 (定期タスクの場合)、実行設定、リソース設定 などのパラメーターを設定します。
基本情報
タスク名、オーナー、説明など、タスクの基本情報を設定します。詳細については、「タスクの基本情報の設定」をご参照ください。
実行リソース
タスクの実行に割り当てる CPU とメモリリソースを指定します。デフォルト値は 0.1 コア、256 MB です。詳細については、「オフラインタスクの実行リソースの設定」をご参照ください。
Python サードパーティパッケージ
インポートしたい Python サードパーティパッケージを選択します。詳細については、「Python モジュールのインストール」をご参照ください。
ランタイムパラメーター
タスクがパラメーター変数を使用する場合、ここで値を割り当てることができます。ノードがスケジュールされると、パラメーター変数は割り当てられた値に自動的に置き換えられます。詳細については、「ノードパラメーターの設定と使用」をご参照ください。
スケジュールプロパティ (定期タスクの場合)
オフラインコンピューティングタスクのスケジュールタイプが 定期タスク の場合、基本情報 に加えて、そのスケジュールプロパティを設定する必要があります。詳細については、「スケジュールプロパティの設定」をご参照ください。
スケジュール依存関係 (定期タスクの場合)
オフラインコンピューティングタスクのスケジュールタイプが 定期タスク の場合、基本情報 に加えて、そのスケジュール依存関係を設定する必要があります。詳細については、「スケジュール依存関係の設定」をご参照ください。
実行設定
タスクレベルの実行タイムアウト期間と、失敗したタスクのリトライポリシーを設定できます。これらの設定を行わない場合、デフォルトのテナントレベルの設定が使用されます。詳細については、「コンピューティングタスクの実行設定」をご参照ください。
リソース構成
タスクをリソースグループに割り当てます。指定されたリソースグループのリソースが、実行時のタスクスケジューリングに使用されます。詳細については、「コンピューティングタスクのリソース設定」をご参照ください。
現在の Python タスクタブで、タスクを保存して送信します。
コードエディタの上にある
アイコンをクリックして、コードを保存します。コードエディタの上にある
アイコンをクリックして、コードを送信します。
送信ログ ページで、送信内容 を確認し、事前チェック の結果を確認し、備考を入力します。詳細については、「オフラインコンピューティングタスクの送信手順」をご参照ください。
情報を確認した後、確認して送信 をクリックします。
説明データセキュリティを確保するため、Python タスクのコードに
from dataphin import hivecまたはimport dataphinが含まれている場合、タスクを送信するとコードレビューがトリガーされます。コードレビューチケットが自動的に作成され、コードが承認された後にのみタスクを送信できます。コードは、現在のプロジェクトのプロジェクト管理者によってレビューされる必要があります。複数のプロジェクト管理者がいる場合、いずれか 1 人の承認で十分です。
次の手順
Dev-Prod モード を使用する場合、タスクを送信した後、リリースリストからタスクを本番環境に公開する必要があります。詳細については、「リリースタスクの管理」をご参照ください。
Basic モード を使用する場合、Python タスクは送信後に本番環境でスケジュールできます。公開されたタスクはオペレーションセンターで表示できます。詳細については、「スクリプトタスクの表示と管理」、および「ワンタイムタスクの表示と管理」をご参照ください。