PAI Flow提供端到端機器學習流程開發能力,可實現與人工智慧平台 PAI 的可視化建模 Desiger相同的工作流程功能,並能周期性調度工作流程。
使用限制
產品限制:
PAI Flow僅支援DataWorks工作空間(新版)。
PAI Flow目前僅支援源/目標與RAG資料處理節點。
PAI Flow僅支援Serverless資源群組。
地區限制:支援華東1(杭州)、華東2(上海)、華北2(北京)、華北6(烏蘭察布)、華南1(深圳)、中國香港、新加坡、印尼(雅加達)、日本(東京)、德國(法蘭克福)、美國(矽谷)、美國(維吉尼亞)。
前提條件
已建立DataWorks資料開發(Data Studio)(新版)工作空間與人工智慧平台 PAI工作空間。
建立工作空間時,需勾選建立同名AI工作空間,系統將自動建立與DataWorks同名的PAI工作空間並綁定。
已有空間若要開啟調度PAI演算法任務,需在管理中心開啟。此操作將同步建立與DataWorks空間同名的PAI工作空間。
建立PAI Flow
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
在資料開發的專案目錄模組單擊
,選擇,建立並進入PAI Flow流程編排頁面,建立節點。
開發PAI Flow
PAI Flow支援多種可視化建模節點,您可根據不同節點,進行流程設計與節點開發。
在PAI Flow內,在左側選擇需要節點,拖拽至畫布中,通過手動連線的方式進行流程設計。
完成流程設計後,單擊節點,即可在右側面板內配置節點。
節點類型
節點
節點說明
源/目標
讀資料表組件用於讀取MaxCompute表資料,預設讀取本專案的表資料。
該組件用來讀取Object Storage Service
OSS Bucket路徑下的檔案或檔案夾。組件支援從
OSS、HTTP、HDFS讀取CSV類型的檔案資料。該組件支援將上遊資料寫入
MaxCompute中。RAG資料處理
RAG文本解析分塊
讀取並解析輸入目錄下的文字檔(
HTML,PDF,Markdown,Text等),產生不大於指定塊大小的連續文字區塊,以JSONline格式儲存到指定輸出路徑中。RAG向量產生
載入指定目錄下的所有解析分塊的文檔檔案(
JSONline格式),然後使用Embedding模型產生文本向量。RAG知識庫索引同步
同步輸入資料到目標知識庫索引。
說明設定檔路徑時,可在路徑中配置變數,例如:
https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${變數}/example.csv。在組態變數時,可將調度參數作為變數,實現周期調度時讀取或寫入不同儲存路徑。完成節點開發後,在流程編排頁面右側工具列為PAI Flow配置調度配置,確保發布至生產環境後周期調度。
說明進行調度配置時,調度資源群組僅支援Serverless資源群組。
發布PAI Flow
完成PAI Flow的調試運行和調度配置後,只有提交發布PAI Flow流程後,節點後才會根據調度配置內容進行周期性運行。
單擊上方工具列中的儲存按鈕,儲存PAI Flow。
完成儲存後,單擊上方工具列中的
按鈕,喚起發布面板發布任務,單擊開始發布生產,任務將按照發布檢查流程執行發佈動作。
後續步驟
PAI Flow發布成功後,即可在發布面板中單擊去營運按鈕,跳轉至周期任務頁面,查看PAI Flow的調度運行情況。
在DAG圖中只有開啟PAI Flow後,才可查看內部任務。