Data Studio の新しいバージョンでは、個人開発環境からカスタムイメージを作成できます。このイメージは、他の個人開発環境の Data Studio で使用できます。このトピックでは、個人開発環境インスタンスからイメージを作成する方法について説明します。
背景情報
個人開発環境で開発およびテストを行う際、さまざまなサードパーティの依存関係を使用する必要がある場合があります。これらの依存関係は現在の環境にインストールおよび構成できます。また、現在の環境のカスタムイメージを作成して、他の個人開発環境やワークスペースと依存関係を共有することもできます。
個人開発環境から作成されたイメージは、Notebook、Python、および Shell のタスクタイプをサポートしています。イメージ作成後、タスクタイプやその他の構成を変更することはできません。
前提条件
VPC が作成されます。
個人開発環境インスタンスが作成され、VPC にアタッチされます。
Alibaba Cloud Container Registry (ACR) サービスがアクティブ化されていること。
エンタープライズインスタンス、名前空間、およびイメージリポジトリが作成され、VPC のアクセスの制御が設定されます。
Cloud DNS PrivateZone が有効化されます。課金の詳細については、「製品の課金」をご参照ください。
個人開発環境インスタンスにアタッチされている VPC、Alibaba Cloud Container Registry にアタッチされている VPC、およびイメージ公開時にテストリソースグループにアタッチされている VPC は同じである必要があります。
個人開発環境のプログラムがインターネットからサードパーティの依存関係を取得する必要がある場合、VPC のインターネットアクセスを構成する必要があります。詳細については、「Internet NAT Gateway の SNAT 機能を使用してインターネットにアクセス」をご参照ください。
ステップ 1: 個人開発環境へのアクセス
DataWorks コンソールの ワークスペース ページに移動します。トップナビゲーションバーで目的のリージョンを選択します。目的のワークスペースを見つけ、[操作] 列で を選択します。
ページ上部で、[個人開発環境] をクリックして、既存の個人開発環境インスタンスを選択します。
ステップ 2: 個人開発環境インスタンスのイメージ作成
個人開発環境インスタンスからイメージを作成する前に、個人開発環境を強化する必要があります。
重要個人開発環境を強化すると、ビジネス要件を満たすために、個人開発環境を強化する、オープンソースの依存関係をインストールする、または サードパーティの依存関係をインストールする ことができます。
個人開発環境を設定した後、ページ上部の [個人開発環境] ドロップダウンリストをクリックします。[管理環境] を選択すると、個人開発環境のインスタンスリストパネルが開きます。
カスタムイメージを作成します。
個人開発環境インスタンスのリストで対象のインスタンスを見つけ、[アクション] 列の [イメージの作成] をクリックします。前提条件セクションの指定に従って、[イメージインスタンス]、[名前空間]、[イメージリポジトリ]、[イメージバージョン]、および[タスクタイプ] の各パラメーターを設定します。
パラメーター
説明
イメージ名
DataWorks イメージのカスタム名。
イメージインスタンス
ACR インスタンスを選択します。ACR インスタンスの作成方法の詳細については、「Enterprise instance の作成」をご参照ください。
名前空間
ACR インスタンスの名前空間を選択します。名前空間の作成方法の詳細については、「名前空間の作成」をご参照ください。
イメージリポジトリ
ACR インスタンスのイメージリポジトリを選択します。イメージリポジトリの作成方法の詳細については、「イメージリポジトリの作成」をご参照ください。
イメージバージョン
イメージのカスタムバージョン。
MaxCompute に同期
デフォルト値は [いいえ] です。
説明このオプションは、選択した [イメージインスタンス] によって異なります。このオプションは、Standard Edition 以降の ACR イメージインスタンスで利用できます。他のインスタンスタイプの場合、このオプションはデフォルトでは利用できません。
[はい] を選択すると、DataWorks カスタムイメージがデフォルトで生成されます。DataWorks イメージが公開されると、MaxCompute イメージとしても構築されます。詳細については、「個人開発環境から MaxCompute イメージを作成」をご参照ください。
[いいえ] を選択すると、DataWorks カスタムイメージのみが生成されます。MaxCompute イメージとしては構築されません。
タスクタイプ
作成中の DataWorks イメージを使用できるタスクタイプを選択します。
Notebook
Python
Shell
構成が完了したら、[確認] をクリックしてイメージを作成します。
重要イメージを作成する際は、個人開発環境インスタンスにアタッチされている VPC と Alibaba Cloud Container Registry にアタッチされている VPC が同じであることを確認してください。
イメージ作成プロセスは、イメージサイズとネットワークの状態によって 1 ~ 5 分かかる場合があります。
イメージ作成後、イメージ管理でイメージを変更することはできません。
イメージが作成されるまで待ちます。
ステップ 3: カスタムイメージの公開
カスタムイメージの作成後、[DataWorks コンソール]に移動し、 タブに移動します。次に、対象のイメージを[テスト]し、[公開]します。テストと公開時には、次の点にご注意ください。
カスタムイメージをテストする際は、Serverless リソースグループを選択します。
テストおよび公開用に選択する Serverless リソースグループにアタッチされている VPC は、Alibaba Cloud Container Registry (ACR) で構成されている VPC と同じである必要があります。
テストに合格したイメージのみが公開できます。
カスタムイメージがインターネットからサードパーティパッケージをダウンロードできず、テストがタイムアウトする場合、[テストリソースグループ] にアタッチされている VPC がインターネットにアクセスできることを確認してください。 VPC のインターネットアクセスを有効にする方法の詳細については、インターネット NAT ゲートウェイの SNAT 機能を使用してインターネットにアクセスするをご参照ください。
ステップ 4: イメージが属するワークスペースの変更
イメージが属するワークスペースを変更できます。
DataWorks コンソールの タブで、公開済みのカスタムイメージを見つけます。
カスタムイメージをワークスペースに関連付けるには、[操作] 列の をクリックします。
ステップ 5: カスタムイメージの使用
イメージが属するワークスペースを変更した後、そのワークスペースに移動できます。ワークスペースで Notebook、Python、または Shell ノードを開発する際、ノードにカスタムイメージを構成できます。以下の手順では、Python ノードを例として使用します。
DataStudio ページの左側にある [ワークスペース ディレクトリ] ペインで、
アイコンをクリックし、 を選択します。ノードを開発した後、右側の Run Configuration をクリックします。[リソースグループ] を設定し、Python コードに必要なツール環境の [イメージ] を選択します。

アイコンをクリックして Python コードをテストします。テストが成功した後、[スケジュール] をクリックします。スケジュール戦略タブで、Python ノードの定期実行スケジュール用の [イメージ] を設定します。
説明[スケジューリング] で指定されたイメージは、Run Configuration のものと一致する必要があります。
Notebook ノードのイメージは、[スケジューリング]でのみ設定できます。
スケジューリング構成の設定を完了した後、Python ノードを [保存] および [公開] します。
次のステップ
永続イメージ: DataWorks では、カスタムイメージを永続イメージとして構築できます。これにより、実行ごとにイメージ環境を再デプロイする必要がなくなります。タスクノードが実行されるたびに同じイメージ環境が使用されます。これにより、一貫した実行時環境が確保され、タスク実行時間、コンピューティングコスト、およびトラフィックコストが削減されます。詳細については、「5. 永続イメージの構築」をご参照ください。
付録: 個人開発環境の強化
DataWorks が作成するデフォルトの個人開発環境の依存関係は、コード開発要件を満たさない場合があります。依存関係をインストールして、個人開発環境を強化できます。
オープンソースの依存関係のインストール
個人開発環境インスタンスに必要なオープンソースの依存関係をインストールできます。以下の手順では、jieba 依存関係を例として使用します。
DataStudio ページの左下の隅にある
アイコンをクリックして、[TERMINAL] タブに移動します。ターミナルで、次のコマンドを実行して jieba ライブラリをインストールします。
pip install jieba
jieba ライブラリのインストール後、 ディレクトリに
.pyファイルを作成し、ファイルに次のコードを追加して保存します。import sys import jieba '''Get the system input parameter arg''' for arg in sys.argv: print(f"argv: {arg}") '''Call the jieba class to tokenize the input data and print the output''' seg_list = jieba.cut(sys.argv[1], cut_all=False) print("Default Mode: " + "/ ".join(seg_list)) print('finish')編集が完了したら
をクリックして Python コードを保存します。ターミナルで、次のコマンドを実行して Python ファイルを実行します。
python file_name.py "I am the big data governance platform document"
実行が成功すると、jieba ライブラリが個人開発環境にインストールされていることを示します。
サードパーティの依存関係のインストール
Git を使用した Python プロジェクトのクローンによるインストール
git clone コマンドを使用して Python プロジェクトをクローンするには、VPC のインターネットアクセスを構成する必要があります。詳細については、「Internet NAT Gateway の構成」をご参照ください。
Data Studio ページの左下隅にある
アイコンをクリックして、[TERMINAL] タブに移動します。ターミナルで、次のコマンドを実行してワークスペースフォルダーに移動します。
cd /mnt/workspace`git clone` コマンドを使用して、Git から Python プロジェクトをワークスペースフォルダーにクローンします。
# Git コードをクローンする際は、URL をご自身のものに置き換えてください。 git clone https://github.com/example/Example-Python.git
クローンした Python プロジェクトをインストールします。
クローンした Python ディレクトリに移動します。
cd Example-PythonPython プロジェクトをインストールします。
pip install .
コンピューターからの Python プロジェクトのアップロードによるインストール
コンピューターから Python プロジェクトを ディレクトリにアップロードします。次に、ターミナルで Python プロジェクトフォルダーに移動します。
cd /mnt/workspace/"Python_code_folder"次のコマンドを実行して Python プロジェクトをインストールします。
pip install .
コンピューターからの Python プログラムのアップロードによるインストール
個人開発環境に Python プログラムをインストールするには、次の手順を実行します。
コンピューターから圧縮された Python プログラムパッケージを、 ディレクトリにアップロードし、その後ターミナルを使用してパッケージを解凍し、Python のコンパイルパスを表示できます。
cat 'decompressed_python_project_name' /bin/pipPython コンパイルパスを作成します。
# 見つかった Python コンパイルパスを作成します。 mkdir -p 'The Python compile path that you found'解凍したフォルダーを Python コンパイルパスに移動します。
mv 'decompressed_python_project_name' /'python_compile_path_found'Python パッケージを Python プログラムに置き換えることができます。
for src in idle3 pydoc3 python3 python3-config pip3; do \ dst="$(echo "$src" | tr -d 3)"; \ [ -s "/usr/local/bin/$src" ]; \ [ ! -e "/usr/local/bin/$dst" ]; \ mv /usr/local/bin/$dst /usr/local/bin/${dst}_bak ln -svT "your_python_compilation_path/bin/$src" "/usr/local/bin/$dst"; \ done
インストールが完了したら、個人開発環境でサードパーティの依存関係をテストおよび実行して、インストールを検証します。
> [ワークスペースの変更]