全部產品
Search
文件中心

Platform For AI:周期性調度

更新時間:Jul 16, 2025

當測試資料或超參數更新需要持續進行增量訓練和模型調優時,您可以通過周期性調度功能,定期提交分布式訓練(DLC)任務。DLC與DataWorks互連,您可以通過DataWorks的調度配置實現DLC任務的定時提交。本文為您介紹如何配置和定時提交DLC任務。

背景資訊

目前支援以下兩種方式配置任務周期性調度:

前提條件

  • DLC授權,詳情請參見雲產品依賴與授權:DLC

  • 已授權DataWorks可訪問人工智慧平台PAI。

    您可進入授權介面進行一鍵授權,權限原則詳情請參見AliyunServiceRoleForDataWorksEngine。僅阿里雲主帳號或擁有AliyunDataWorksFullAccess權限原則的RAM使用者可執行一鍵授權操作。

  • 已建立商務程序。

    資料開發(DataStudio)基於商務程序對不同開發引擎進行具體開發操作,因此,建立節點前需先建立商務程序,操作詳情請參見建立商務程序

注意事項

  • PAI DLC節點每次運行完成,均會在人工智慧平台PAI的分布式訓練(DLC)平台產生一個新的DLC任務。為避免使用DataWorks周期性調度DLC節點在PAI產生較多不易區分的同名任務,建議在DataWorks開發DLC任務時根據實際需要合理設定調度周期。同時,建議在任務名稱中增加日期時間變數,並通過調度配置為該變數賦值時間調度參數,實現任務命名增加日期時間。詳情請參見步驟二:開發PAI DLC任務

  • DataWorks不支援使用公用調度資源群組執行PAI DLC任務。

說明

本文以下樣本操作以華東2(上海)地區為例,其它地區請以具體介面為準。

方式一:使用PAI DLC節點載入DLC任務並配置調度依賴

步驟一:建立DLC任務

登入PAI控制台,進入分布式訓練任務頁面並建立DLC任務。以提交PyTorch架構類型的DLC任務為例,操作詳情,請參見快速提交單機PyTorch遷移學習任務

步驟二:建立PAI DLC節點

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與營運 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 按右鍵目標商務程序,選擇建立節點 > 演算法 > PAI DLC

  3. 建立節點對話方塊輸入節點名稱,單擊確認,完成節點建立。後續您可在節點中進行對應任務的開發與配置。

  4. 在節點的編輯頁面,通過名稱搜尋,載入已建立的DLC任務。

    任務載入後,DLC節點編輯器會根據PAI中該任務的配置產生相應節點代碼,您可基於該代碼編輯修改任務。更多詳細內容,請參見步驟二:開發PAI DLC任務

步驟三:配置任務調度

單擊節點編輯地區右側的調度配置,在調度配置面板中,包含基礎屬性調度參數時間屬性資源屬性調度依賴等配置項。您可以在時間屬性地區配置調度周期,後續DataWorks會根據配置的調度周期自動調度運行節點任務。配置詳情請參見任務調度屬性配置概述

說明
  • 您需設定節點的重跑屬性依賴的上遊節點,才可提交節點。

  • 為避免使用DataWorks周期性調度DLC節點在PAI產生較多不易區分的同名任務,建議在DataWorks開發DLC任務時根據實際需要合理設定調度周期。詳情請參見步驟二:開發PAI DLC任務

步驟四:調試任務代碼

您可根據需要執行如下調試操作,查看任務是否符合預期。

  1. (可選)選擇運行資源群組、賦值自訂參數取值。

  2. 儲存並運行SQL語句。

    單擊工具列的儲存表徵圖,儲存編寫的SQL語句,單擊運行表徵圖,運行建立的SQL任務。

  3. (可選)煙霧測試 (Smoke Test)。

    如您希望在開發環境進行煙霧測試 (Smoke Test),查看調度節點任務的執行是否符合預期,則可在節點提交時,或節點提交後執行煙霧測試 (Smoke Test),操作詳情請參見執行煙霧測試 (Smoke Test)

步驟五:提交發布任務

節點任務配置完成後,需執行提交發佈動作,提交發布後節點將根據調度配置內容進行周期性運行。

  1. 單擊工具列中的儲存表徵圖,儲存節點。

  2. 單擊工具列中的提交表徵圖,提交節點任務。

    提交時需在提交新版本對話方塊中輸入變更描述,並根據需要選擇是否在節點提交後執行程式碼檢閱。

    說明
    • 您需設定節點的重跑屬性依賴的上遊節點,才可提交節點。

    • 程式碼檢閱可對任務的代碼品質進行把控,防止由於任務代碼有誤,未經審核直接發布上線後出現任務報錯。如進行程式碼檢閱,則提交的節點代碼必須通過評審人員的審核才可發布,詳情請參見程式碼檢閱

如您使用的是標準模式的工作空間,任務提交成功後,需單擊節點編輯頁面右上方的發布,將該任務發布至生產環境執行,操作請參見發布任務

步驟六:查看動作記錄

任務提交發布後,會基於節點的配置周期性運行,您可單擊編輯介面右上方的營運,進入營運中心查看周期任務的調度運行情況。詳情請參見管理周期任務

方式二:建立指令碼任務並配置調度依賴

步驟一:建立獨享調度資源群組

在DataWorks控制台建立獨享調度資源群組,詳情請參見新增和使用獨享調度資源群組

步驟二:綁定歸屬的工作空間

獨享調度資源群組需要綁定歸屬的工作空間,才可以在對應的工作空間下選擇該資源群組,詳情請參見步驟二:綁定歸屬工作空間

步驟三:安裝部署工具包DLC

安裝DLC工具包,需要聯絡管理員授權。

  1. 建立命令。

    1. 登入DataWorks控制台,單擊左側導覽列中的資源群組,預設進入獨享資源群組頁面。

    2. 找到用途資料調度的獨享資源群組,單擊操作列下的表徵圖image.png,並選擇營運助手

    3. 在營運助手頁面,單擊建立命令,並配置以下關鍵參數,然後單擊確定

      參數

      描述

      命令類型

      選擇手動輸入

      命令內容

      輸入如下命令。

      wget -P  /home/admin/usertools/tools/ https://dlc-release.oss-cn-zhangjiakou.aliyuncs.com/console/public/latest/dlc --no-check-certificate
      chmod +x /home/admin/usertools/tools/dlc

      安裝目錄

      安裝至/home/admin/usertools/tools/目錄。

      逾時時間

      命令執行的逾時時間,單位為秒。如果命令執行逾時,則系統強制結束命令。建議配置為60秒。

  2. 執行命令。

    1. 在營運助手頁面,單擊上一步已建立命令操作列下的運行命令image.png

    2. 運行命令面板,單擊運行

  3. 查看命令執行情況。

    1. 在營運助手頁面下方的列表,單擊相應命令後的查看結果image.png

    2. 命令執行結果對話方塊,查看命令執行情況。如果執行進度為100%,則DLC工具包安裝成功。image.png

步驟四:建立工作流程

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與治理 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 滑鼠移至上方至建立表徵圖,單擊建立節點 > 通用 > Shell,在建立節點對話方塊輸入節點名稱及路徑。

  3. 單擊確認,完成節點的建立。

步驟五:提交任務測試

因為定時提交任務基於原有任務節點,所以定時提交之前,需要進行煙霧測試 (Smoke Test),建立初始任務節點。如果已經存在初始節點,則直接執行步驟六。

  1. 編輯部署指令碼。

    1. 在商務程序頁面,雙擊已建立的Shell節點(部署節點)。

    2. 在Shell節點頁面,輸入如下命令。

      # 產生任務描述檔案。
      cat << EOF > jobfile
      name=dataworks-job
      workers=1
      worker_spec=ecs.g6.large
      worker_image=registry-vpc.cn-hangzhou.aliyuncs.com/pai-dlc/pytorch-training:1.7.1-gpu-py37-cu110-ubuntu18.04
      command=echo $(date)
      EOF
      
      # 提交任務。
      /home/admin/usertools/tools/dlc submit pytorchjob\
          --access_id=<access_id> \
          --access_key=<access_key> \
          --endpoint=pai-dlc.cn-hangzhou.aliyuncs.com \
          --region=cn-hangzhou \
          --job_file=./jobfile \
          --interactive

      jobfile是描述任務相關資訊的檔案,具體配置細節請參見提交命令endpoint參數與地區的對應關係如下。

      地區

      Endpoint

      華東2(上海)

      pai-dlc.cn-shanghai.aliyuncs.com

      華北2(北京)

      pai-dlc.cn-beijing.aliyuncs.com

      華東1(杭州)

      pai-dlc.cn-hangzhou.aliyuncs.com

      華南1(深圳)

      pai-dlc.cn-shenzhen.aliyuncs.com

      中國(香港)

      pai-dlc.cn-hongkong.aliyuncs.com

      新加坡

      pai-dlc.ap-southeast-1.aliyuncs.com

      馬來西亞(吉隆坡)

      pai-dlc.ap-southeast-3.aliyuncs.com

      德國(法蘭克福)

      pai-dlc.eu-central-1.aliyun.cs.com

  2. 運行指令碼。

    1. 在Shell節點頁面,單擊頁面上方的2表徵圖。然後在警告對話方塊,單擊繼續運行

    2. 運行參數頁面,選擇調度資源群組為已建立的獨享資源群組。完成後,單擊確定

    運行完成後,即可產生一個任務。您可以前往PAI預設工作空間的分布式訓練(DLC)頁面,查看任務。

步驟六:執行定時調度

  1. 執行調度任務。

    1. 在Shell節點頁面,單擊頁面右側的調度配置

    2. 調度配置頁面的時間屬性地區,選擇調度周期重跑屬性

    3. 調度依賴地區,單擊依賴的上遊節點後的使用工作空間根節點

    4. 配置依賴關係,詳情請參見配置同周期調度依賴

    5. 單擊Shell節點頁面上方的儲存表徵圖,儲存配置。

    6. 單擊Shell節點頁面上方的提交表徵圖,提交調度任務。

  2. 查看定時調度的運行執行個體。

    1. 在Shell節點頁面,單擊右上方的營運。然後在營運中心頁面,選擇周期任務營運 > 周期執行個體

    2. 在執行個體詳情頁面,查看自動認可任務的定時時間。並選擇操作列下的更多 > 查看作業記錄,查看每次定時提交任務的作業記錄。

相關文檔

您可以在PAI控制台查看並管理已定時提交的DLC任務: