全部產品
Search
文件中心

DataWorks:PAI Flow節點

更新時間:Jun 14, 2025

PAI Flow提供端到端機器學習流程開發能力,可實現與人工智慧平台 PAI 的可視化建模 Desiger相同的工作流程功能,並能周期性調度工作流程。

使用限制

  • 產品限制

    • PAI Flow僅支援DataWorks工作空間(新版)

    • PAI Flow目前僅支援源/目標RAG資料處理節點。

    • PAI Flow僅支援Serverless資源群組

  • 地區限制:支援華東1(杭州)、華東2(上海)、華北2(北京)、華北6(烏蘭察布)、華南1(深圳)、中國香港、新加坡、印尼(雅加達)、日本(東京)、德國(法蘭克福)、美國(矽谷)、美國(維吉尼亞)。

前提條件

已建立DataWorks資料開發(Data Studio)(新版)工作空間人工智慧平台 PAI工作空間

  • 建立工作空間時,需勾選建立同名AI工作空間,系統將自動建立與DataWorks同名的PAI工作空間並綁定。

  • 已有空間若要開啟調度PAI演算法任務,需在管理中心開啟。此操作將同步建立與DataWorks空間同名的PAI工作空間。

建立PAI Flow

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與營運 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 在資料開發的專案目錄模組單擊image,選擇建立節點 > 演算法 > PAI Flow,建立並進入PAI Flow流程編排頁面,建立節點。

開發PAI Flow

PAI Flow支援多種可視化建模節點,您可根據不同節點,進行流程設計與節點開發。

  1. PAI Flow內,在左側選擇需要節點,拖拽至畫布中,通過手動連線的方式進行流程設計。

  2. 完成流程設計後,單擊節點,即可在右側面板內配置節點。

    節點類型

    節點

    節點說明

    源/目標

    讀資料表

    讀資料表組件用於讀取MaxCompute表資料,預設讀取本專案的表資料。

    讀OSS資料

    該組件用來讀取Object Storage ServiceOSS Bucket路徑下的檔案或檔案夾。

    讀CSV檔案

    組件支援從OSSHTTPHDFS讀取CSV類型的檔案資料。

    寫資料表

    該組件支援將上遊資料寫入MaxCompute中。

    RAG資料處理

    RAG文本解析分塊

    讀取並解析輸入目錄下的文字檔(HTML, PDF, Markdown, Text等),產生不大於指定塊大小的連續文字區塊,以JSONline格式儲存到指定輸出路徑中。

    RAG向量產生

    載入指定目錄下的所有解析分塊的文檔檔案(JSONline格式),然後使用Embedding模型產生文本向量。

    RAG知識庫索引同步

    同步輸入資料到目標知識庫索引。

    說明

    設定檔路徑時,可在路徑中配置變數,例如:https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${變數}/example.csv。在組態變數時,可將調度參數作為變數,實現周期調度時讀取或寫入不同儲存路徑。

  3. 完成節點開發後,在流程編排頁面右側工具列為PAI Flow配置調度配置,確保發布至生產環境後周期調度。

    說明

    進行調度配置時,調度資源群組僅支援Serverless資源群組

發布PAI Flow

完成PAI Flow的調試運行和調度配置後,只有提交發布PAI Flow流程後,節點後才會根據調度配置內容進行周期性運行。

  1. 單擊上方工具列中的儲存按鈕,儲存PAI Flow

  2. 完成儲存後,單擊上方工具列中的image按鈕,喚起發布面板發布任務,單擊開始發布生產,任務將按照發布檢查流程執行發佈動作。

後續步驟

PAI Flow發布成功後,即可在發布面板中單擊去營運按鈕,跳轉至周期任務頁面,查看PAI Flow的調度運行情況。

說明

在DAG圖中只有開啟PAI Flow後,才可查看內部任務。