すべてのプロダクト
Search
ドキュメントセンター

DataWorks:カスタムイメージ

最終更新日:Jun 23, 2026

pandas や jieba などの Python ライブラリをインストールする必要があるなど、デフォルトの DataWorks 実行環境が PyODPS または Shell タスクの依存関係を満たせない場合は、カスタムイメージを作成できます。すべての依存関係をパッケージングすることで、カスタムイメージは再利用可能で標準化された実行環境を提供し、一貫性を確保し、開発とデプロイの効率を大幅に向上させます。

制限事項

  • エディションの制限

    • すべてのエディションでカスタムイメージの作成と使用がサポートされています。

    • イメージビルドは、Professional Edition 以上でのみサポートされています。

  • リソースグループの制限:カスタムイメージ機能は、サーバーレスリソースグループのみをサポートします。

    レガシーリソースグループの場合は、クラウドアシスタントを使用して外部の依存関係をインストールしてください。
  • 権限の制限AliyunDataWorksFullAccess または ModifyResourceGroup 権限が必要です。

    権限付与の詳細については、「サービスおよびコンソールの権限に関する RAM ポリシー」をご参照ください。

クォータと制限

  • イメージ数:作成できるカスタムイメージの数は、DataWorks のエディションによって異なります。

    • Basic Edition および Standard Edition:10

    • Professional Edition:50

    • Enterprise Edition:100

  • ビルドの同時実行数:各リージョンで同時に最大 2 つのイメージをビルドできます。

  • ACR イメージの要件

    • インスタンスエディション:Alibaba Cloud Container Registry (ACR) の Enterprise Edition インスタンスのみがサポートされています。

    • インスタンスアーキテクチャAMD64 アーキテクチャのみがサポートされています。

    • イメージサイズ:単一のイメージは 5 GB を超えることはできません。

    • タイムゾーン設定:DataWorks とのタイムゾーンの不一致によるコンテナの障害を防ぐために、tzdata タイムゾーンパッケージをインストールする必要があります。

  • イメージビルド:永続ビルドは、DataWorks 公式イメージに基づいて作成されたカスタムイメージでのみ利用可能です。ACR イメージを参照するカスタムイメージは永続ビルドをサポートしておらず、タスクが実行されるたびに再プルおよびデプロイする必要があります。

  • サポートされるノードタイプとビルド方法:

    ノードタイプ

    公式イメージからのビルド

    ACR イメージからのビルド

    PyODPS2

    サポート

    非サポート

    PyODPS3

    サポート

    非サポート

    EMR Spark

    サポート

    非サポート

    EMR Spark SQL

    サポート

    非サポート

    EMR SHELL

    サポート

    非サポート

    Shell

    サポート

    サポート

    Python

    サポート

    サポート

    Notebook

    非サポート

    サポート

    CDH

    サポート

    非サポート

    Assignment Node

    サポート

    非サポート

操作手順

1. カスタムイメージの作成

DataWorks では、DataWorksの公式イメージ または Alibaba Cloud ACRイメージ に基づいてカスタムイメージを作成できます。設定パラメーターは、選択した参照タイプによって異なります。

DataWorks 公式イメージから

  1. DataWorks コンソールにログインします。左側のナビゲーションウィンドウで、イメージ管理 をクリックします。

  2. DataWorksの公式イメージ タブで、ベースとして使用するターゲットイメージを選択し、Operation 列の カスタムイメージを作成する をクリックします。表示されるダイアログボックスで、システムはターゲットイメージに関する情報を自動的に入力します。残りのパラメーターについては、次の表で説明します。

    参照タイプ:デフォルトで DataWorks 公式イメージが選択されます。イメージ名前空間:デフォルトで DataWorks Default が選択されます。イメージリポジトリ:デフォルトで DataWorks Default が選択されます。

    パラメーター

    説明

    イメージ名/ID

    デフォルトでターゲットの公式イメージが選択されます。必要に応じて別のイメージに切り替えることができます。

    目に見える範囲

    カスタムイメージの表示範囲を設定します。オプションは 作成者のみが表示されますすべてに見える です。

    サブ製品の使用

    現在、カスタムイメージは DataStudio でのみ使用できます。

    サポートタスクタイプ

    このイメージがサポートするタスクタイプを選択します。サポートされているタイプのタスクが DataStudio で実行されると、このイメージをランタイムイメージとして選択できます。

    インストールパッケージ

    必要に応じてサードパーティパッケージを追加します。複数のメソッドを使用し、単一の設定で複数のパッケージをインストールできます。次のインストールメソッドがサポートされています:

    • クイックインストールインストールパッケージ ドロップダウンリストから Python2Python3、または Yum を選択して、インストールしたい環境またはリソースを直接選択します。

      必要なサードパーティパッケージがドロップダウンリストにない場合は、スクリプトモードに切り替えて手動でインストールします。
    • 手動入力インストールパッケージ ドロップダウンリストから スクリプト を選択します。スクリプトボックスにインストールコマンドを入力します。次のコマンド例を使用してサードパーティパッケージをダウンロードできます。

      • pip のコマンド例:pip install xx。このコマンドは Python 2 用です。

      • pip3 のコマンド例:/home/tops/bin/pip3 install 'urllib3<2.0' 。このコマンドは Python 3 用です。

      • yum のコマンド例:yum install -y git

      • wget のコマンド例:wget git

        インストールコマンドの詳細については、「付録:インストールコマンドのリファレンス」をご参照ください。
    重要

    インターネットからサードパーティパッケージまたはその依存関係をインストールする必要がある場合、サーバーレスリソースグループにバインドされている VPC はパブリックインターネットアクセスが必要です。

  3. Determine をクリックしてイメージを作成します。

Alibaba Cloud Container Registry イメージから

ACR イメージに基づいてカスタムイメージを作成するには、Container Registry を有効化する必要があります。DataWorks イメージは、AMD64 アーキテクチャを使用する Enterprise Edition の ACR インスタンスからのみ作成できます。

  1. DataWorks コンソールにログインします。左側のナビゲーションウィンドウで、イメージ管理 をクリックします。

  2. カスタムイメージ タブで、ミラーの作成 をクリックします。表示されるダイアログボックスで、次の主要なパラメーターを設定します:

    パラメーター

    説明

    参照タイプ

    Alibaba Cloud ACRイメージ を選択します。

    イメージインスタンスID

    Container Registry で作成した Enterprise Edition インスタンスを選択します。

    ミラー名前空間

    イメージインスタンスの下にある名前空間を選択します。

    ミラー倉庫

    イメージインスタンスの下にあるイメージリポジトリを選択します。

    ミラーバージョン

    選択したイメージリポジトリからイメージバージョンを選択します。

    関連vpc

    イメージインスタンスにバインドされている VPC を選択します。VPC の設定方法の詳細については、「VPC 経由のアクセス制御の設定」をご参照ください。

    重要

    DataWorks では、ACR イメージインスタンスにアクセスするために 1 つの VPC のみを選択できます。

    MaxComputeへの同期

    デフォルトは No です。このオプションを [はい] に設定できるのは、以下の両方の前提条件を満たした場合のみです。それ以外の場合、オプションはデフォルトで無効になります。

    • 選択した[イメージインスタンス]インスタンス仕様は、標準アドバンスト、または Enterprise Edition です。

    • アクティブな MaxCompute コンピュートリソースがあること。

    前提条件を満たした後、異なる値の効果は次のようになります:

    • [はい] を選択:DataWorks カスタムイメージが生成されます。このイメージが公開されると、同時に MaxCompute イメージにも同期的にビルドされます。

      詳細については、「個人開発環境で MaxCompute イメージを作成する」をご参照ください。
    • [いいえ] を選択:DataWorks カスタムイメージのみが生成されます。MaxCompute イメージにはビルドされません。

    目に見える範囲

    カスタムイメージの表示範囲を設定します。オプションは 作成者のみが表示されますすべてに見える です。

    サブ製品の使用

    現在、カスタムイメージは DataStudio でのみ使用できます。

    サポートタスクタイプ

    ACR イメージは 起動コマンド + ユーザータスクコードファイルパス の形式で起動されます。異なるタスクタイプとそのデフォルトの起動コマンドは次のとおりです:

    • Shell

    • Python:Python タスクに ACR イメージから作成したカスタムイメージを使用するには、ACR イメージインスタンスに Python 環境が含まれていることを確認してください。そうでない場合、Python タスクはサポートされません。

    • Notebook

      • Notebook タスクに ACR イメージから作成したカスタムイメージを使用するには、ACR イメージのベースとして DataWorks が提供する Notebook ベースイメージを使用する必要があります。これにより、必要な実行環境が提供されます。DataWorks が提供する Notebook ベースイメージは dataworks-public-registry.cn-shanghai.cr.aliyuncs.com/public/dataworks-notebook:py3.11-ubuntu22.04-20241202 です。

      • DataWorks が提供する Notebook ベースイメージをプルするために、ビルド環境がパブリックインターネットにアクセスできることを確認してください。

  3. Determine をクリックしてイメージを作成します。

個人開発環境インスタンスから

新しいバージョンの DataStudio では、個人開発環境から新しいイメージを作成できます。詳細については、「個人開発環境から DataWorks イメージを作成する」をご参照ください。

2. カスタムイメージのテストと公開

DataWorks コンソールのイメージ管理 > カスタムイメージタブで、対象のイメージをPublishします。 テストに合格したイメージのみ公開できます。 テストが失敗した場合、対象のカスタムイメージのOperation列にあるimage > Modifyをクリックして構成を変更できます。

次の手順を実行します:

  1. イメージ管理 > カスタムイメージ タブで、ターゲットイメージの Operation 列にある Publish をクリックして、ミラーの発行 ダイアログボックスを開きます。

  2. テストパラメーターを設定し、テスト をクリックします。

    パラメーター

    説明

    テストリソースグループ

    テストに使用するサーバーレスリソースグループを選択します。

    テスト CU

    テストに割り当てるコンピュートリソース。デフォルト:0.5 CU。最小値:0.25 CU。イメージが大きい場合やテストに時間がかかる場合は、CU の値を増やして再試行できます。

  3. テスト結果テストログ を表示します。

    • テストが開始されると、テスト結果[テスト中] と表示されます。Refresh をクリックして最新のステータスを表示するか、テストをキャンセル をクリックして現在のテストを終了できます。テストをキャンセルした後、別のリソースグループまたは CU 割り当てを選択して再度テストできます。

    • テストログ セクションでは、イメージビルドプロセスのコマンドラインログがリアルタイムでストリーミングされ、[最大化] (長いログを全画面で表示)、[コピー] (ワンクリックで全ログをクリップボードにコピー)、[ダウンロード] (image-test-log-<imageID>.log としてダウンロード)、および [折りたたみ]/[展開] の操作が提供されます。

    • テストが失敗した場合、テスト結果[テスト失敗] と表示され、AI 診断パネルが自動的に表示されます。システムは、テストログとイメージレイヤー情報に基づいて障害分析と推奨ソリューションを提供します。診断に基づいてイメージ設定またはインストールコマンドを調整し、もう一度テスト をクリックします。

    • テストが成功すると、テスト結果[テスト成功] と表示されます。テスト条件を変更して再度検証する必要がある場合は、もう一度テスト をクリックします。

  4. テストに合格したら、ダイアログボックスの下部にある Publish をクリックします。公開されたイメージは、DataWorks タスクノードで使用できます。

    説明

    Publish ボタンは、[テスト結果][テスト成功] または [公開失敗] の場合にのみ有効になります。[テスト中][テスト失敗][公開済み] などの他の状態ではボタンは無効になります。

イメージをテストおよび公開する際には、次の点に注意してください:

  • カスタムイメージをテストする際は、サーバーレスリソースグループを選択してください。

  • Alibaba Cloud Container Registry イメージに基づいてイメージを作成する場合、または個人開発環境からイメージを作成する場合は、テスト用サーバーレスリソースグループにバインドされた VPC が、ACR イメージインスタンスにバインドされた VPC同じであることを確認してください。

  • 設定したカスタムイメージがインターネットからサードパーティパッケージを取得し、テストが長時間合格しない場合は、テストリソースグループ にバインドされた VPC がパブリックインターネットアクセスを持っているかどうかを確認してください。

  • イメージのテストまたは公開中にビルド失敗が発生した場合 (たとえば、公開ステータス公開済み (ビルド失敗) と表示される場合)、コンソールにはビルド失敗としか表示されず、詳細な理由が提供されないため、自己解決が困難な場合があります。一般的なシナリオは、ビルド環境のディスク領域不足です。ビルドフェーズで必要なディスク領域は、テストフェーズよりもわずかに多くなる可能性があります。その結果、テストは合格しても、イメージアーティファクトが公開または生成される際にプロセスが失敗することがあります。Calculate CU を増やす (たとえば、0.5 CU) ことを試み、再試行してください。問題が解決しない場合は、チケットを送信して、Alibaba Cloud テクニカルサポートに支援を依頼してください。

3. イメージをワークスペースにバインド

イメージが公開された後、それを別のワークスペースに割り当てて、そこで利用可能にすることができます。

  1. DataWorks コンソールの イメージ管理 > カスタムイメージ タブで、[公開済み] のカスタムイメージを見つけます。

  2. ターゲットイメージの Operation 列で、image > 所属ワークスペースの変更 をクリックして、カスタムイメージをワークスペースにバインドします。

4. タスクでイメージを使用

新しい DataStudio でイメージを使用

  1. DataStudio に移動: DataWorks ワークスペース ページに移動し、上部で目的のリージョンに切り替え、目的のワークスペースを見つけてから、Operation 列の ショートカット > DataStudio をクリックします。

  2. イメージの設定:DataStudio で、カスタムイメージをテストしたいタスクノードを見つけ、右側の Scheduling Settings をクリックし、リソースプロパティを設定します。

    • Resource Groupサーバーレスリソースグループを選択します。

      ターゲットのリソースグループが表示されない場合は、現在のワークスペースにバインドされているか確認してください。リソースグループページに移動し、ターゲットのリソースグループを見つけて、Operation 列の ホームスペースの変更 をクリックしてバインドを完了します。
      重要

      タスクノードが期待どおりに実行されるように、Resource Groupミラーの発行 時に選択した テストリソースグループ と同じであることを確認してください。

    • ミラー:公開されたカスタムイメージを選択します。

      イメージを切り替えた場合、変更を有効にするにはノードを再公開する必要があります。

      [スケジューリング構成] > [スケジューリングプロパティ] パネルで、[リソースグループ][計算 CU] (例:0.5) を設定し、[イメージ] ドロップダウンリストからイメージを選択します。

  3. ノードのデバッグ:ノードの右側にある Run Configuration パネルで、Computing ResourcesResource GroupCalculate CUミラー、および Script Parameters を設定し、上部のツールバーで Run をクリックします。

  4. ノードの公開:上部のツールバーで Publish をクリックして、ノードを本番環境に公開します。

以前の DataStudio でイメージを使用

  1. DataStudio への移動DataWorks コンソールにログインし、ターゲットリージョンに切り替え、左側のナビゲーションウィンドウで データ開発と О&М > DataStudio をクリックします。 ドロップダウンリストから目的のワークスペースを選択し、データ分析 をクリックします。

  2. イメージの設定:DataStudio で、カスタムイメージをテストしたいタスクノードを見つけ、右側の Scheduling Settings をクリックし、Scheduling Settings セクションでリソースプロパティを設定します。

    • Resource Group for Schedulingサーバーレスリソースグループを選択します。

      ターゲットのリソースグループが表示されない場合は、現在のワークスペースにバインドされているか確認してください。リソースグループページに移動し、ターゲットのリソースグループを見つけて、Operation 列の ホームスペースの変更 をクリックしてバインドを完了します。
      重要

      タスクノードが期待どおりに実行されるように、Resource Group for Schedulingミラーの発行 時に選択した テストリソースグループ と同じであることを確認してください。

    • ミラー:公開されたカスタムイメージを選択します。

      イメージを切り替えた場合、変更を有効にするにはノードを再公開する必要があります。
  3. ノードのデバッグ:上部のツールバーで、Run with Parameters (image) をクリックします。表示されるダイアログボックスで、リソースグループ名CUs for Node Running、および ミラー を設定し、Run をクリックします。

  4. ノードの公開:上部のツールバーで [保存][コミット] をクリックして、ノードを本番環境に公開します。

5. 永続イメージのビルド

重要

イメージが公開され、期待どおりに動作することが確認された後、イメージを永続化することを強く推奨します。この実践により、タスクが初期化中に予期しないパッケージバージョンをダウンロードすることで発生する可能性のあるランタイムエラーを防ぎます。このような問題は、改ざんされたソースライブラリや指定されていないバージョン依存関係から生じる可能性があります。

標準のカスタムイメージは、実行されるたびに再デプロイされます。これにより、ノードの実行時間が増加し、コンピューティングコストが高くなる可能性があります。DataWorks の永続イメージ機能は、1 回のビルドで無制限に再利用できます。これにより、タスクの実行効率が向上し、コンピューティングおよびトラフィックコストが削減され、一貫した環境が確保されます。永続イメージは、DataWorks 公式イメージから作成されたカスタムイメージに対してのみビルドできます。

  1. DataWorks コンソールの イメージ管理 > カスタムイメージ タブで、公開されたカスタムイメージを見つけます。

  2. ターゲットイメージの Operation 列で、image > ビルド をクリックして、カスタムイメージを永続イメージにビルドします。

  3. イメージをビルドするリソースグループを選択してください ダイアログボックスで、次のパラメーターを設定し、続行 をクリックします。

    • ビルドリソースグループ:このビルドに使用するサーバーレスリソースグループを選択します。

    • ビルド CU:ビルドに割り当てるコンピュートリソース。デフォルト値は 0.5 CU、最小値は 0.25 CU です。値は 0.25 の増分でなければなりません。イメージが大きい場合やビルドに時間がかかる場合は、この値を増やすことができます。

    重要

    ネットワークの問題によるビルドの失敗を避けるため、[ビルドリソースグループ] が、カスタムイメージを公開した際に使用した テストリソースグループ と同じであることを確認してください。

  4. イメージのビルドには、そのサイズに応じて約 5〜10 分かかります。ビルドが成功すると、イメージのステータスは [公開済み (ビルド成功)] に変わります。

6. その他の操作

イメージ管理 > カスタムイメージ タブでは、イメージに対して次の日常的な O&M 操作も実行できます:

アクション

説明

無効化 / 有効化

Operation 列で、無効化 をクリックします。イメージが無効化されると、モジュールで表示されたり参照されたりしなくなります。このイメージを使用している実行中のタスクは影響を受けません。その後、オプションは 有効化 に変わり、これをクリックしてイメージを再度有効にできます。イメージのステータスが [期限切れ] の場合、無効化 操作は利用できません。

Modify

Operation 列で、Modify をクリックして、イメージの説明、表示範囲、サポートされるモジュール、ノードタスクタイプ、インストールパッケージなどのプロパティを変更します。[公開中] または [ビルド中] 状態のイメージは変更できません。

バージョン表示

Operation 列で、バージョン表示 をクリックして、イメージのすべての履歴バージョンを表示します。これにより、追跡とロールバックが容易になります。

ミラーの削除

Operation 列で、ミラーの削除 をクリックします。

警告

削除は実行中のタスクに影響しませんが、削除されたイメージは復元できません。新しいタスクで利用できなくなり、イメージ管理ページにも表示されなくなります。

ラベル

カスタムイメージリストの ラベル 列で、タグを追加および管理して、ビジネスラインや環境などの基準でイメージをグループ化および検索できます。この列は DataWorks 公式イメージリストには表示されません。

課金

イメージビルドには、CU 数 × ビルド時間 として計算されるコンピューティングコストが発生します。システムはデフォルトで 0.5 CU を割り当てます。課金の詳細については、「サーバーレスリソースグループの課金基準」をご参照ください。

本番環境での使用

本番環境でカスタムイメージが安定し、効率的で、コスト効率が高いことを保証するために、以下の推奨事項に従ってください。

  • 永続イメージ:安定した設定を永続イメージにビルドします。これにより、各タスク実行時に依存関係を再インストールする必要がなくなり、起動時間が短縮され、コンピューティングコストが削減され、安定性が向上します。

  • 環境の一貫性:特にプライベート ACR リポジトリやパブリックネットワークにアクセスする場合、テスト、ビルド、および本番スケジューリングに使用されるサーバーレスリソースグループ間で VPC およびネットワーク設定が一貫していることを確認してください。

  • バージョン固定スクリプトメソッドを使用して依存関係をインストールする場合、正確なバージョン番号を指定することを強く推奨します (例:pip install pandas==1.5.3)。この実践により、上流のライブラリアップデートによる予期しない動作を防ぎます。

  • ロールバック計画:イメージの更新後に本番タスクが失敗した場合、タスクのデプロイ履歴を使用して以前のバージョンにロールバックするか、スケジュール設定でイメージを古い安定したバージョンに設定します。

ユースケース

このチュートリアルでは、PyODPS ノードでカスタムイメージを使用して中国語の単語分割を実行する方法を示します。MaxCompute テーブルの列から中国語のテキストを分割し、その結果をダウンストリームタスクのために別のテーブルに保存する必要があるとします。カスタムイメージに jieba 単語分割ツールキットを事前にインストールし、このイメージを使用して PyODPS タスクでテキストを処理できます。結果は新しいテーブルに保存され、ダウンストリームのスケジューリングワークフローにシームレスに統合されます。

  1. テストデータを作成します。

    1. DataWorks ワークスペースを作成し、MaxCompute コンピュートリソースに関連付けます。詳細については、「ワークスペースの作成」および「コンピュートリソースの管理」をご参照ください。

    2. Data Studio で、ODPS ノード (以前の Data Studio) または MaxCompute SQL ノード (新しい Data Studio) を作成して、テストテーブルを作成し、データを入力します。

      説明

      以下の例では、スケジューリングパラメーターを使用します。右側の Scheduling Settings で、パラメーター名を bday に、値を $[yyyymmdd] に設定します。

      テストテーブルを作成します。

      -- テストテーブルを作成します。
      CREATE TABLE IF NOT EXISTS custom_img_test_tb
      (
          c_customer_id BIGINT NOT NULL,
          c_customer_text STRING NOT NULL,
          PRIMARY KEY (c_customer_id)
      )
      COMMENT 'TABLE COMMENT'
      PARTITIONED BY (ds STRING COMMENT 'partition')
      LIFECYCLE 90;
      -- テストデータをテーブルに挿入します。
      INSERT INTO custom_img_test_tb PARTITION (ds='${bday}') (c_customer_id, c_customer_text) VALUES
      (1, '夜来雪の気配、一杯どうだい?'),
      (2, '月落ち烏啼きて霜天に満つ、江楓漁火愁眠に対す。'),
      (3, '山重水複路無きかと疑う、柳暗花明又一村。'),
      (4, '春眠暁を覚えず、処処啼鳥を聞く。'),
      (5, 'ベッドの前には明るい月の光、まるで地面に降りた霜のよう。'),
      (6, '海上に明月昇り、我ら天涯を隔てどもこの時を共にす。'),
      (7, '昔日の王謝堂前の燕、今は尋常の百姓の家に飛来す。'),
      (8, '一行の白鷺が青空に昇り、窓は西嶺の千年の雪を額縁のように切り取る。'),
      (9, '人生得意の時には須らく歓を尽くすべし、金樽をして空しく月に対せしむる莫れ。'),
      (10, '天の我を生ずるや必ず才あり、千金散じ尽くすも還た復た来らん。');
    3. ノードを保存してデプロイします。

  2. カスタムイメージを作成します。

    詳細については、「カスタムイメージの作成」をご参照ください。主要なパラメーターを次のように設定します:

    • イメージ名/ID:PyODPS ノード用の DataWorks 公式イメージである dataworks_pyodps_task_pod を選択します。

    • サポートされるタスクタイプPyODPS2PyODPS 3 を選択します。

    • インストールパッケージPython3jieba を選択します。

  3. カスタムイメージを公開し、ワークスペースに関連付けます。詳細については、「カスタムイメージを公開する」および「イメージのワークスペースとの関連付けを変更する」をご参照ください。

  4. 定期タスクでカスタムイメージを使用します。

    1. Data Studio で、PyODPS 3 ノードを作成し、次のコードを追加します:

      カスタムイメージを使用します。

      import jieba
      from odps import ODPS
      from odps.models import TableSchema as Schema, Column, Partition
      # テーブルからデータを読み取ります。
      table = o.get_table('custom_img_test_tb')
      partition_spec = f"ds={args['bday']}"
      with table.open_reader(partition=partition_spec) as reader:
          records = [record for record in reader]
      # 抽出したテキストを分割します。
      participles = [' | '.join(jieba.cut(record['c_customer_text'])) for record in records]
      # 送信先テーブルを作成します。
      if not o.exist_table("participle_tb"):
          schema = Schema(columns=[Column(name='word_segment', type='string', comment='単語分割結果')], partitions=[Column(name='ds', type='string', comment='パーティションフィールド')])
          o.create_table("participle_tb", schema)
      # 分割結果を送信先テーブルに書き込みます。
      # 出力パーティションとテーブルを定義します。
      output_partition = f"ds={args['bday']}"
      output_table = o.get_table("participle_tb")
      # パーティションが存在しない場合は作成します。
      if not output_table.exist_partition(output_partition):
          output_table.create_partition(output_partition)
      # 分割結果をテーブルに書き込みます。
      record = output_table.new_record()
      with output_table.open_writer(partition=output_partition, create_partition=True) as writer:
          for participle in participles:
              record['word_segment'] = participle
              writer.write(record)
    2. 右側のスケジューリング設定で、次の主要なパラメーターを設定します:

      • スケジューリングパラメーター:パラメーター名を bday に、値を $[yyyymmdd] に設定します。

      • スケジューリング用リソースグループミラーの発行 時に テストリソースグループ で指定したのと同じサーバーレスリソースグループを選択します。

      • イメージ:現在のワークスペースに関連付けられている公開済みのカスタムイメージを選択します。

    3. ノードをデバッグします。

      • 以前の Data Studio を使用している場合は、ノードツールバーの Run with Parameters (image) をクリックします。リソースグループ名CUs for Node Runningミラー、および Custom Parameters を設定し、Run をクリックします。

      • 新しい Data Studio を使用している場合は、右側の Run Configuration パネルで、Computing ResourcesResource GroupCalculate CUミラー、および Script Parameters を設定します。その後、ノードツールバーの Run をクリックします。

    4. (オプション) アドホッククエリ (以前の Data Studio) または個人ディレクトリ内の SQL ファイル (新しい Data Studio) を作成し、次の SQL ステートメントを実行して出力テーブルのデータを確認します。

      -- <partition_date> を実際のパーティション日付に置き換えます。
      SELECT * FROM participle_tb WHERE ds=<partition_date>;

      クエリがデータを返した場合、結果には word_segment 列 (分割結果、単語は縦棒 | で区切られる) と ds 列 (パーティション日付) が含まれます。

    5. PyODPS ノードを本番環境にデプロイします。

      説明

      Data Studio で行われたイメージの変更は、本番環境に自動的に同期されません。変更を有効にするには、タスクをデプロイする必要があります。詳細については、「タスクのデプロイ (以前の Data Studio)」または「ノード/ワークフローのデプロイ (新しい Data Studio)」をご参照ください。

  5. カスタムイメージから永続イメージをビルドします。詳細については、「永続イメージのビルド」をご参照ください。

よくある質問

Q:Python タスクで「urllib3 v2.0 only supports OpenSSL 1.1.1+」というエラーが報告されます。

A:urllib3 v2.0 パッケージには OpenSSL 1.1.1 以降が必要です。これを解決するには、urllib3 を互換性のあるバージョンにダウングレードします。例:/home/tops/bin/pip3 install urllib3==1.26.16

関連ドキュメント

付録:インストールコマンド

script メソッドを使用してカスタムイメージにパッケージをインストールするには、次のコマンドを使用します。

  • PyODPS 2 ノードの場合は、次のコマンドを実行します。

    pip install <package-name> -i  https://pypi.tuna.tsinghua.edu.cn/simple
    pip install <package-name>
    説明

    PIP のアップグレードを促された場合は、次のコマンドを実行します:pip install --upgrade pip

  • PyODPS 3 ノードの場合は、次のコマンドを実行します。

    /home/tops/bin/pip3 install <package-name> -i https://pypi.tuna.tsinghua.edu.cn/simple
    /home/tops/bin/pip3 install <package-name>
    説明
    • PIP のアップグレードを促された場合は、次のコマンドを実行します:/home/tops/bin/pip3 install --upgrade pip

    • エラー /home/admin/usertools/tools/cmd-0.sh: line 3: /home/tops/bin/python3: No such file or directory が発生した場合は、チケットを送信して必要な権限をリクエストしてください。

    次の表に、パブリック Python ミラーソースをリストします。

    組織

    ミラー URL

    Alibaba Cloud

    https://mirrors.aliyun.com/pypi/simple/

    重要

    インターネットアクセスを有効にせずに Alibaba Cloud から Python パッケージを取得できます。

    清華大学

    https://pypi.tuna.tsinghua.edu.cn/simple

    中国科学技術大学 (USTC)

    https://pypi.mirrors.ustc.edu.cn/simple/