PAI Flow的配置與營運 - DataWorks

使用限制

產品限制：
- PAI Flow僅支援DataWorks工作空間（新版）。
- PAI Flow目前僅支援源/目標與RAG資料處理節點。
- PAI Flow僅支援Serverless資源群組。
地區限制：支援華東1（杭州）、華東2（上海）、華北2（北京）、華北6（烏蘭察布）、華南1（深圳）、中國香港、新加坡、印尼（雅加達）、日本（東京）、德國（法蘭克福）、美國（矽谷）、美國（維吉尼亞）。

已建立DataWorks資料開發（Data Studio）（新版）工作空間與人工智慧平台 PAI工作空間。

進入資料開發頁面。
登入DataWorks控制台，切換至目標地區後，單擊左側導覽列的數據開發與營運 > 資料開發，在下拉框中選擇對應工作空間後單擊進入資料開發。
在資料開發的專案目錄模組單擊，選擇新建节点 > 算法 > PAI Flow，建立並進入PAI Flow流程編排頁面，建立節點。

PAI Flow支援多種可視化建模節點，您可根據不同節點，進行流程設計與節點開發。

完成流程設計後，單擊節點，即可在右側面板內配置節點。

節點類型	節點	節點說明
源/目標	讀資料表	讀資料表組件用於讀取MaxCompute表資料，預設讀取本專案的表資料。
	讀OSS資料	該組件用來讀取Object Storage Service`OSS Bucket`路徑下的檔案或檔案夾。
	讀CSV檔案	組件支援從`OSS`、`HTTP`、`HDFS`讀取`CSV`類型的檔案資料。
	寫資料表	該組件支援將上遊資料寫入`MaxCompute`中。
RAG資料處理	RAG文本解析分塊	讀取並解析輸入目錄下的文字檔（`HTML`, `PDF`, `Markdown`, `Text`等），產生不大於指定塊大小的連續文字區塊，以`JSONline`格式儲存到指定輸出路徑中。
	RAG向量產生	載入指定目錄下的所有解析分塊的文檔檔案（`JSONline`格式），然後使用`Embedding`模型產生文本向量。
	RAG知識庫索引同步	同步輸入資料到目標知識庫索引。

說明

設定檔路徑時，可在路徑中配置變數，例如：https://examplebucket.oss-cn-hangzhou.aliyuncs.com/${變數}/example.csv。在組態變數時，可將調度參數作為變數，實現周期調度時讀取或寫入不同儲存路徑。

完成節點開發後，在流程編排頁面右側工具列為PAI Flow配置調度配置，確保發布至生產環境後周期調度。

說明
進行調度配置時，調度資源群組僅支援Serverless資源群組。

完成PAI Flow的調試運行和調度配置後，只有提交發布PAI Flow流程後，節點後才會根據調度配置內容進行周期性運行。

PAI Flow發布成功後，即可在發布面板中單擊去运维按鈕，跳轉至周期任務頁面，查看PAI Flow的調度運行情況。

說明

在DAG圖中只有開啟PAI Flow後，才可查看內部任務。