DataWorks では、データ開発におけるさまざまなタスクタイプをサポートするための公式イメージを提供しています。各イメージには、特定のノード向けに事前に構成済みのランタイム環境が含まれています。これらの公式イメージは、そのまま利用することも、独自のカスタムイメージを作成する際のベースとして利用することもできます。本トピックでは、DataWorks で利用可能な公式イメージについて説明します。
イメージの概要
データ開発において、ノードに対してランタイム環境のイメージを明示的に指定しない場合、システムはデフォルトの標準イメージを使用します。このデフォルトイメージは基本的なランタイム環境を提供しますが、特定のタスク要件を満たさない場合があります。一方、公式イメージは、さまざまなタスクタイプ向けに事前に構成・標準化された環境を提供します。これらはそのまま利用できるほか、追加の構成を施したカスタムイメージのベースとしても活用でき、より広範なユースケースに対応可能です。
利用可能なイメージ
対応バージョンおよび対応リージョンについては、DataWorks コンソールをご参照ください。イメージには複数のバージョンが存在する場合があります。以下の表では、最新バージョンのイメージのみの機能を記載しています。
DataWorks は以下のイメージを提供します。
イメージ名 | 説明 | タスクタイプ |
dataworks_pyodps_py311_task_pod | DataWorks PyODPS ノードの公式イメージ。このイメージは Python 3.11 を使用します。 | |
dataworks_pairec_task_pod | DataWorks PAI-Rec ノード向けの公式イメージです。PAI-Rec によって生成されたアルゴリズムを実行するために使用されます。feature_store SDK および pyfg の具体的なバージョンは、コンソールで指定されます。 | |
dataworks_pyodps_task_pod | DataWorks PyODPS ノードの公式イメージ。このイメージは Python 3.7 を使用します。 | |
dataworks_emr_base_task_pod | EMR クラスター向けのベースイメージです。EMR Serverless Spark、EMR on ECS DataLake、および EMR on ECS Custom のクラスタータイプをサポートします。
| |
dataworks_shell_jdk17_task_pod | DataWorks Shell ノード向けの公式イメージです。JDK 17 を使用します。 | |
dataworks_shell_task_pod | DataWorks Shell ノード向けの公式イメージです(JDK 7 使用)。サブプロセスパラメーター渡しをサポートするカスタムランタイム環境が必要な場合、このイメージをベースとしてカスタムイメージを構築できます。 | |
dataworks_python_task_pod | DataWorks Python ノード向けの公式イメージです。システム情報:py3.11-ubuntu22.04。 | |
dataworks_cdh_custom_task_pod | DataWorks CDH クラスター向けのベースイメージです。このイメージは直接使用できません。データ開発で使用する前に、 | |
dataworks_controller_task_pod | DataWorks 代入ノード向けの公式イメージです。カスタムランタイム環境が必要であり、代入ノードまたは代入パラメーターを用いて下流ノードへパラメーターを渡す必要がある場合、このイメージをベースとしてカスタムイメージを構築してください。 | |
dataworks-mcp | サードパーティクライアント向け DataWorks Agent のタスク開発に適用可能です。システム情報:py3.11-ubuntu22.04。 | |
dataworks-notebook | Notebook 開発 のタスク開発に適用可能です。システム情報:py3.11-ubuntu22.04。 | |
dataworks_notebook_task_pod | DataWorks Notebook ノード向けの公式イメージです。システム情報:py3.11-ubuntu22.04。Python 環境は、個人開発環境における | |
dataworks-maxcompute | 個人開発環境で MaxCompute カスタムイメージを構築する に適用可能です。システム情報:py3.11-ubuntu20.04。 |
イメージの使用方法
データ開発では、ワークスペースに紐付けられた公式イメージまたはカスタムイメージを利用できます。
新規 DataStudio でイメージを使用する:ノード開発ページ右側の **[プロパティ]** および **[スケジューリング構成]** パネルで、Run Configuration および スケジューリング構成 を設定します。
旧DataStudioでイメージを使用する: ノード開発ページで、リソースグループおよびイメージを、試行実行およびデプロイメント後の実行用に設定します。これは、[パラメーター付き実行] をクリックした後に表示されるダイアログボックス、または右側の[スケジュール設定] ページで行います。
個人開発環境でのイメージの使用: 個人開発環境用のインスタンスを作成する際、[イメージ構成] セクションでさまざまな公式イメージを選択できます。
リソースグループおよびイメージを設定する際は、以下の点にご注意ください:
スケジューリングリソースグループ: サーバーレスリソースグループを選択します。
イメージ: **[公式イメージ]** または **[公開済みカスタムイメージ]** を選択します。