DataWorks的Serverless Ray節點支援在EMR Serverless Ray計算資源上,使用Ray分布式架構進行Python作業開發與周期性調度。本文介紹使用Serverless Ray節點的主要流程。
節點介紹
EMR Serverless Ray在Spark工作空間之上提供託管Ray計算能力,相容開源Ray介面,支援Python編程模型,適用於分散式運算、機器學習與資料處理等情境。通過DataWorks的Serverless Ray節點,您可線上編寫Python代碼並配置ray job submit提交命令,完成作業開發、調試與調度。
使用限制
計算資源限制:僅支援選擇已綁定EMR Serverless Ray計算資源,並確保Serverless資源群組與該計算資源網路連通。
語言限制:僅支援Python語言。
運行限制:不支援單行或代碼塊單獨運行,僅支援整體提交運行。
準備工作
已在目標DataWorks工作空間完成綁定EMR Serverless Ray計算資源,並確保Ray叢集處於可用狀態。
(可選,RAM帳號需要)進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發或空間管理員(許可權較大,謹慎添加)角色許可權,新增成員的操作詳情請參見為工作空間增加空間成員。
說明如果您使用的是主帳號,則忽略該添加操作。
建立Serverless Ray節點
建立入口與在資料開發中建立其他節點一致,請參見節點。
開發Serverless Ray節點
Serverless Ray節點的開發包含兩部分:在代碼編輯區編寫Python代碼,並在Submit命令地區配置作業提交命令。使用者建立檔案後,系統自動產生提交命令,檔案名稱為節點名稱加.py尾碼。
節點內容配置說明
您可參照以下參數配置資訊,配置Serverless Ray節點內容。
配置地區 | 參數名稱 | 參數描述 |
Python代碼 | Python代碼 | 編寫使用Ray架構的Python代碼。支援 |
Submit命令 | 提交命令 | 配置Ray作業的提交命令。命令格式為 |
runtime-env-json | 可選。配置運行時環境。例如通過 | |
參數 | 填寫您所需傳入代碼的參數資訊。您可將該參數配置為動態參數 |
若作業依賴多個Python檔案,可將依賴檔案建立為DataWorks Ray File類型資源並在代碼中使用##@resource_reference引用,再在--working-dir指向工作目錄的前提下組織ray job submit命令。資源建立請參見EMR資源與函數。
調試Serverless Ray節點
配置回合組態。
在節點右側回合組態中,配置以下參數資訊。
參數名稱
描述
計算資源
選擇您所綁定的Serverless Ray計算資源。
資源組
選擇已通過網路連通性測試的Serverless資源群組。Serverless Ray節點僅支援Serverless資源群組。
指令碼參數
在配置節點內容時,通過${參數名}的方式定義變數,需要在腳本參數處配置參數名、參數值資訊,任務運行時會將它動態替換為真實的取值。詳情請參見調度參數來源及其運算式。
調試運行節點。
單擊保存並運行執行調試。
後續步驟
相關文檔
引用Ray File操作可參見Lindorm Ray節點。
表徵圖喚起發布流程,通過該流程將任務發布至生產環境。專案目錄下的節點只有在發布至生產環境後,才會進行周期性調度。