Data Studio新版資料開發支援將個人開發環境製作成鏡像,以供資料開發與其他個人開發環境使用。本文將介紹如何在個人開發環境製作個人開發執行個體鏡像。
背景介紹
在個人開發環境開發測試時,若您想要使用不同的三方依賴,您不僅可以在個人開發環境安裝完善當前環境中的三方依賴,還可以將當前環境製作為自訂鏡像,為其他個人開發環境與工作空間提供依賴服務。
通過個人開發環境建立的鏡像支援Notebook、Python、以及Shell任務類型,但將鏡像建立成功後,則不無法修改鏡像的任務類型以及其他配置。
前提條件
Virtual Private Cloud側:已建立專用網路。
DataWorks側:已建立個人開發環境執行個體並綁定VPC。
阿里雲鏡像Container Service側:
需完成阿里雲鏡像Container Service建立,確保已建立企業版執行個體、建立命名空間、建立鏡像倉庫,以及配置專用網路的存取控制。
已開通雲解析PrivateZone,計費詳情請參見產品計費。
個人開發環境執行個體綁定的VPC、阿里雲鏡像容器內綁定的VPC以及發布鏡像時測試資源群組綁定的VPC需保持一致。
如果您個人開發環境運行程式,需從公網擷取第三方依賴,為VPC配置公網,請參見使用公網NAT GatewaySNAT功能訪問互連網。
步驟一:進入個人開發環境
進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的,進入Data Studio。
單擊頂部個人開發環境·請選擇,按需選擇已有個人開發環境執行個體。
步驟二:製作個人開發環境執行個體鏡像
在通過個人開發環境執行個體建立鏡像前,必須完成個人開發環境的完善。
在完成個人開發環境配置後,即可單擊下拉頂部個人開發環境·請選擇,選中執行個體管理,開啟個人開發環境執行個體列表面板。
製作自訂鏡像。
在個人開發環境執行個體列表內,單擊目標執行個體操作列中的製作鏡像按鈕,配置在前提條件中已準備好的鏡像執行個體、命名空間、鏡像倉庫、鏡像版本以及任務類型。
參數
說明
鏡像名稱
自訂DataWorks鏡像名稱。
鏡像執行個體
請選擇ACR執行個體,建立ACR執行個體詳情請參見建立企業版執行個體。
命名空間
請選擇ACR執行個體的命名空間,建立詳情請參見建立命名空間。
鏡像倉庫
請選擇ACR執行個體的鏡像倉庫,建立詳情請參見建立鏡像倉庫。
鏡像版本
自訂鏡像版本。
同步至MaxCompute
預設為否。
說明選項與您選擇的鏡像執行個體有關,執行個體規格為標準版及以上版本的ACR鏡像執行個體是可選擇的,其他預設不可選。
選擇是的話,會預設產生DataWorks自訂鏡像,在DataWorks鏡像發布時,會同步構建為MaxCompute鏡像。詳情請參見個人開發環境製作MaxCompute鏡像。
選擇否的話,僅產生DataWorks自訂鏡像,不會同步構建為MaxCompute鏡像。
任務類型
請選擇當前建立的DataWorks鏡像可用的任務類型。
Notebook
Python
Shell
完成配置後單擊確認,開始製作鏡像。
重要製作鏡像時,需確保個人開發環境執行個體綁定的VPC、阿里雲鏡像容器內綁定的VPC需保持一致。
鏡像製作時間可能因鏡像大小和網路原因,時間約為1~5分鐘,請耐心等待。
鏡像製作成功後,在鏡像管理中無法修改通過個人開發環境執行個體建立的鏡像。
等待鏡像製作完成。
步驟三:發布自訂鏡像
完成自訂鏡像建立後,進入DataWorks控制台單擊進入頁簽,對目標鏡像進行測試並發布。測試與發布時,需注意以下內容:
測試自訂鏡像時,資源群組請選擇Serverless資源群組。
測試發布選擇的Serverless資源群組綁定的VPC需與阿里雲鏡像Container Service中配置的VPC一致。
只有測試成功的鏡像才發行就緒。
如果您配置的自訂鏡像是從公網擷取第三方包,且長時間測試不通過,請檢查測試資源群組綁定的VPC是否具備公網訪問能力,為VPC配置公網,請參見使用公網NAT GatewaySNAT功能訪問互連網。
步驟四:修改鏡像歸屬空間
您可通過以下操作為鏡像修改歸屬的工作空間。
在DataWorks控制台的頁簽下,查看並找到發行的自訂鏡像。
在目標鏡像操作列單擊,為自訂鏡像綁定歸屬工作空間。
步驟五:使用自訂鏡像
完成修改鏡像歸屬空間後,當您可進入自訂鏡像綁定的工作空間,在該空間進行資料開發中開發Notebook、Python以及Shell節點時,即可為節點配置該自訂鏡像,以下將以Python節點為主為您展示如何使用鏡像。
在資料開發頁面左側專案目錄中單擊
按鈕選擇 建立Python節點進行開發。節點開發完成後,單擊右側調試配置,配置相應的資源群組,以及選擇Python代碼需要使用到的工具環境鏡像。

單擊
按鈕,對Python代碼進行調試。調試成功後,即可單擊調度配置,進入調度策略頁簽內,為該Python節點配置周期調度時所使用的鏡像。
說明調度配置中配置的鏡像須與調試配置中的鏡像為同一鏡像。
Notebook節點僅支援在調度配置中配置鏡像。
完成調度配置後,即可對Python節點儲存並發布。
後續步驟
持久化鏡像:DataWorks支援將自訂鏡像構建為持久化鏡像,無需每次都重新部署鏡像環境,每次運行任務節點時使用同一個鏡像環境,不僅確保了運行環境的一致性,還有效節省了任務已耗用時間、計算成本和流量成本。詳情可參見:構建持久化鏡像。
附錄:完善個人開發環境
DataWorks預設建立的個人開發環境中的依賴可能並不能滿足您代碼開發的需求,您可通過安裝依賴的方式來完善您的個人開發環境。
安裝開源依賴
您可在個人開發環境執行個體中安裝所需的開源依賴,以下將以安裝jieba依賴為樣本,為您展示如何安裝開源依賴。
進入個人開發環境後,可在資料開發頁面單擊左下側邊欄左側的
按鈕,進入終端。在終端內輸入以下命令,安裝jieba庫。
pip install jieba
jieba庫安裝成功後,即可在目錄下建立
.py檔案,在Python檔案內編輯並儲存以下代碼。import sys import jieba '''擷取系統輸入參數arg''' for arg in sys.argv: print(f"argv: {arg}") '''調用jieba類對輸入資料進行分詞並輸出''' seg_list = jieba.cut(sys.argv[1], cut_all=False) print("Default Mode: " + "/ ".join(seg_list)) print('finish')編輯完成後,單擊
儲存Python代碼。在終端內輸入以下命令,運行Python檔案。
python 檔案名稱.py "我是巨量資料治理開發平台文檔"
Python檔案運行成功後,即代表jieba類在個人開發環境安裝成功。
安裝三方依賴
通過Git clone 複製Python專案安裝
通過git clone 複製Python專案,需為VPC配置公網,請參見配置公網NAT Gateway。
進入個人開發環境後,可在資料開發頁面單擊左下側邊欄左側的
按鈕,進入終端。在終端內輸入以下命令,進入workspace檔案夾內。
cd /mnt/workspace通過Git clone 複製Git中的Python類到workspace檔案夾下。
# 複製Git代碼時,需將URL替換為您自己的URL。 git clone https://github.com/example/Example-Python.git
安裝複製的Python類。
進入複製的Python目錄下。
cd Example-Python安裝Python類。
pip install .
通過本地上傳Python專案安裝
上傳本地Python代碼專案至目錄下,並通過終端控制台進入Python專案檔夾內。
cd /mnt/workspace/"Python代碼檔案夾"通過以下命令對該Python代碼進行安裝。
pip install .
通過本地上傳Python程式安裝
若您需在個人開發環境中安裝Python程式,則可按照以下操作進行。
上傳本地Python程式壓縮包至目錄下,並通過終端解壓並查看Python編譯路徑。
cat '解壓後的Python專案名' /bin/pip建立Python編譯路徑。
#建立查看到的Python編譯路徑。 mkdir -p '查看到的Python編譯路徑'將解壓的檔案夾移動到python當時編譯的路徑。
mv '解壓後的Python專案名' /'查看到的Python編譯路徑'將python相關包替換為自己Python程式
for src in idle3 pydoc3 python3 python3-config pip3; do \ dst="$(echo "$src" | tr -d 3)"; \ [ -s "/usr/local/bin/$src" ]; \ [ ! -e "/usr/local/bin/$dst" ]; \ mv /usr/local/bin/$dst /usr/local/bin/${dst}_bak ln -svT "查看到的Python編譯路徑/bin/$src" "/usr/local/bin/$dst"; \ done
安裝成功後,在個人開發環境對安裝的第三方依賴進行調試運行,確認是否安裝成功。
> 修改歸屬工作空間