DataWorks的Data Studio模組提供多種節點以滿足不同資料處理需求:Data Integration節點用於同步,引擎計算節點(如MaxCompute SQL、Hologres SQL、EMR Hive)用於資料清洗,通用節點(如虛擬節點和do-while迴圈節點)用於複雜邏輯處理。各節點協同工作,有效應對各種資料處理挑戰。
支援的節點類型
以下為周期調度支援的節點類型,手動任務或手動商務程序支援的節點類型可能存在差異,請以實際介面為準。
各節點在不同版本、不同地區支援情況存在差異,實際請以介面為準。
節點類型 | 節點名稱 | 節點說明 | 節點編碼 | TaskType |
Data Integration | 用於離線(批量)資料周期性同步情境,並且支援複雜情境下多種異構資料來源間資料同步。 離線同步支援的資料來源詳情,請參見支援的資料來源及同步方案。 | 23 | DI | |
DataWorks提供的即時資料同步功能,支援您通過單表或整庫方式,將來源資料庫的資料變化即時同步到目標資料庫,確保兩者資料一致。 即時同步支援的資料來源詳情,請參見支援的資料來源及同步方案。 | 900 | RI | ||
Notebook | Notebook提供了一個互動式且靈活的資料處理與分析平台,它通過增強直觀性、模組化及互動體驗,使資料處理、探索、可視化和模型構建變得更加高效便捷。 | 1323 | NOTEBOOK | |
MaxCompute | 支援周期性調度MaxCompute的SQL任務。MaxCompute SQL任務採用類似SQL的文法,適用于海量資料(TB級)但即時性要求不高的分散式處理情境。 | 10 | ODPS_SQL | |
SQL組件是一種包含多輸入輸出參數的SQL代碼模板,能夠通過過濾、串連和彙總資料來源表來處理資料並產生結果表。在資料開發過程中,可以建立SQL元件節點,利用這些預定義組件快速搭建資料處理流程,從而顯著提升開發效率。 | 1010 | COMPONENT_SQL | ||
可以將多條SQL語句整合成一個指令碼進行整體編譯和執行,這非常適合處理複雜的查詢情境,如嵌套子查詢或需要分步操作的情況。通過一次性提交整個指令碼並產生統一的執行計畫,作業僅需排隊和執行一次,從而更加高效地利用資源。 | 24 | ODPS_SQL_SCRIPT | ||
通過整合MaxCompute的Python SDK,能夠在PyODPS 2節點上直接編寫和編輯Python代碼,從而便捷地進行MaxCompute的資料處理與分析任務。 | 221 | PY_ODPS | ||
通過PyODPS 3節點,可以直接使用Python代碼編寫MaxCompute作業,並配置這些作業進行周期性調度。 | 1221 | PYODPS3 | ||
在DataWorks平台上,支援運行基於MaxCompute的Spark離線作業(Cluster模式)。 | 225 | ODPS_SPARK | ||
通過建立MaxCompute MR類型節點並提交任務調度,可以使用MapReduce Java API編寫MapReduce程式來處理MaxCompute中的大規模資料集。 | 11 | ODPS_MR | ||
當您在Hologres需要加速查詢MaxCompute資料時,可以使用資料目錄的MaxCompute中繼資料映射功能,將MaxCompute表中繼資料映射至Hologres,通過Hologres外表實現對MaxCompute資料的加速查詢。 | - | - | ||
支援將MaxCompute單表資料同步至Hologres,助力高效巨量資料分析與即時查詢。 | - | - | ||
Hologres | Hologres SQL節點不僅支援查詢Hologres執行個體中的資料,而且Hologres與MaxCompute在底層實現了無縫串連,使您無需遷移資料,即可通過Hologres SQL節點直接使用標準的PostgreSQL語句來查詢和分析MaxCompute中的大規模資料,從而快速獲得查詢結果。 | 1093 | HOLOGRES_SQL | |
支援將Hologres單表資料移轉至MaxCompute。 | 1070 | HOLOGRES_SYNC_DATA_TO_MC | ||
提供的一鍵匯入表結構功能,能夠快速大量建立與MaxCompute表結構一致的Hologres外部表格。 | 1094 | HOLOGRES_SYNC_DDL | ||
提供了一鍵MaxCompute資料同步節點功能,能夠快速完成從MaxCompute到Hologres資料庫的資料同步。 | 1095 | HOLOGRES_SYNC_DATA | ||
Serverless Spark | 基於Serverless Spark的Spark節點,適用於大規模資料處理。 | 2100 | SERVERLESS_SPARK_BATCH | |
基於Serverless Spark的SQL查詢節點,支援標準SQL文法,提供高效能資料分析能力。 | 2101 | SERVERLESS_SPARK_SQL | ||
通過Kyuubi JDBC/ODBC介面串連Serverless Spark,提供多租戶Spark SQL服務。 | 2103 | SERVERLESS_KYUUBI | ||
Severless StarRocks | 基於EMR Serverless StarRocks的SQL節點,相容開源StarRocks的SQL文法,提供極速OLAP查詢分析、LakeHouse湖倉查詢分析。 | 2104 | SERVERLESS_STARROCKS | |
大模型 | 內建強大的資料處理與分析挖掘引擎,支援根據您的自然語言指令,智能完成資料清洗與挖掘。 | 2200 | LLM_NODE | |
Flink | 支援使用標準SQL語句定義即時任務處理邏輯。它具有易用性、豐富的SQL支援、強大的狀態管理及容錯能力,相容事件時間和處理時間,並可靈活擴充。該節點易於與Kafka、HDFS等系統整合,提供詳盡的日誌和效能監控工具。 | 2012 | FLINK_SQL_STREAM | |
能夠使用標準SQL語句定義和執行資料處理任務,適用於巨量資料集的分析與轉換,包括資料清洗和彙總。該節點支援可視化配置,提供高效且靈活的大規模資料批處理方案。 | 2011 | FLINK_SQL_BATCH | ||
EMR | 可以使用類SQL語句讀取、寫入和管理巨量資料集,從而高效地完成海量日誌資料的分析和開發工作。 | 227 | EMR_HIVE | |
PB級巨量資料的快速、即時互動式SQL查詢引擎。 | 260 | EMR_IMPALA | ||
可以將大規模資料集分解為多個平行處理的Map任務,從而顯著提高資料處理效率。 | 230 | EMR_MR | ||
靈活、可擴充的分布式SQL查詢引擎,支援使用標準的SQL查詢語言進行巨量資料的互動式分析查詢。 | 259 | EMR_PRESTO | ||
可以編輯自訂Shell指令碼,對資料處理、調用Hadoop組件、操作檔案等進階功能進行使用。 | 257 | EMR_SHELL | ||
是一個通用的巨量資料分析引擎,以其高效能、易用性和廣泛的適用性而著稱。它支援複雜的記憶體計算,非常適合構建大規模且低延遲的資料分析應用。 | 228 | EMR_SPARK | ||
實現分布式SQL查詢引擎處理結構化資料,提高作業的執行效率。 | 229 | EMR_SPARK_SQL | ||
用於處理高輸送量的即時資料流資料,並具備容錯機制,可以快速恢複出錯的資料流。 | 264 | EMR_SPARK_STREAMING | ||
分布式SQL查詢引擎,適用於多資料來源互動式分析查詢。 | 267 | EMR_TRINO | ||
分布式和多租戶網關,為資料湖查詢引擎(例如Spark、Flink或Trino等)提供SQL等查詢服務。 | 268 | EMR_KYUUBI | ||
ADB | 可進行AnalyticDB for PostgreSQL任務的開發和周期性調度。 | 1000090 | - | |
可進行AnalyticDB for MySQL任務的開發和周期性調度。 | 1000126 | - | ||
可進行AnalyticDB Spark任務的開發和周期性調度。 | 1990 | ADB_SPARK | ||
可進行AnalyticDB Spark SQL任務的開發和周期性調度。 | 1991 | ADB_SPARK_SQL | ||
CDH | 已部署CDH叢集並希望藉助DataWorks執行Hive任務。 | 270 | CDH_HIVE | |
通用的巨量資料分析引擎,具有高效能、易用和普遍性等特點,可用於進行複雜的記憶體分析,構建大型、低延遲的資料分析應用。 | 271 | CDH_SPARK | ||
可實現分布式SQL查詢引擎對結構化資料的處理,提高作業的執行效率。 | 272 | CDH_SPARK_SQL | ||
處理超大規模的資料集。 | 273 | CDH_MR | ||
該節點提供了分布式SQL查詢引擎,進一步增強了CDH環境的資料分析能力。 | 278 | CDH_PRESTO | ||
CDH Impala節點可以編寫並執行Impala SQL指令碼,為您提供了更快速的查詢效能。 | 279 | CDH_IMPALA | ||
Lindorm | 可進行Lindorm Spark任務的開發和周期性調度。 | 1800 | LINDORM_SPARK | |
可進行Lindorm Spark SQL任務的開發和周期性調度。 | 1801 | LINDORM_SPARK_SQL | ||
Click House | 可實現分布式SQL查詢及處理結構化資料,提高作業的執行效率。 | 1301 | CLICK_SQL | |
資料品質 | 可通過配置資料品質監控規則,監控相關資料來源表的資料品質(例如,是否存在髒資料)。同時,支援您自訂調度策略,周期性執行監控任務進行資料校正。 | 1333 | DATA_QUALITY_MONITOR | |
對比節點可實現對不同表資料進行多種方式的對比。 | 1331 | DATA_SYNCHRONIZATION_QUALITY_CHECK | ||
通用 | 虛擬節點屬於控制類型節點,它是不產生任何資料的空跑節點,通常作為商務程序統籌節點的根節點,方便您管理節點及商務程序。 | 99 | VIRTUAL | |
用於參數傳遞,通過內建的output輸出將賦值節點最後一條查詢或輸出結果通過節點上下文功能傳遞到下遊,實現參數跨節點傳遞。 | 1100 | CONTROLLER_ASSIGNMENT | ||
Shell節點支援標準Shell文法,但不支援互動性文法。 | 6 | DIDE_SHELL | ||
用於上遊節點將參數匯總並向下分發傳遞。 | 1115 | PARAM_HUB | ||
通過監控OSS對象來觸發下遊節點執行。 | 239 | OSS_INSPECT | ||
支援Python3.0語言,支援通過調度配置中的調度參數擷取到上遊參數以及配置自訂參數進行應用,以及將自身的輸出作為參數輸出至下遊節點。 | 1322 | PYTHON | ||
用於對上遊節點的運行狀態進行歸併,解決分支節點下遊節點的依賴掛載和運行觸發問題。 | 1102 | CONTROLLER_JOIN | ||
用於對上遊結果進行判斷,決定不同結果走不同的分支邏輯,您可結合賦值節點一起使用。 | 1101 | CONTROLLER_BRANCH | ||
用於遍曆賦值節點傳遞的結果集。 | 1106 | CONTROLLER_TRAVERSE | ||
用於迴圈執行部分節點邏輯,同時您也可結合賦值節點來迴圈輸出賦值節點傳遞的結果。 | 1103 | CONTROLLER_CYCLE | ||
用於檢查目標對象(MaxCompute分區表、FTP檔案或OSS檔案)是否可用,當Check節點滿足檢查策略後會返回運行成功狀態。若存在下遊依賴,便會運行成功並觸發下遊任務執行。支援檢查的目標對象:
| 241 | CHECK_NODE | ||
用於周期性調度處理事件函數。 | 1330 | FUNCTION_COMPUTE | ||
如果您希望其他調度系統的任務完成後觸發DataWorks上的任務運行,可以使用此節點。 說明 DataWorks已不再支援建立跨租戶節點,如果您使用跨租戶節點,建議更換為HTTP觸發器節點,該節點與跨租戶節點能力相同。 | 1114 | SCHEDULER_TRIGGER | ||
可通過指定SSH資料來源的方式,在DataWorks遠端存取該資料來源串連的主機,並觸發指令碼在遠程主機執行。 | 1321 | SSH | ||
資料推送節點可將Data Studio商務程序中其他節點產生的資料查詢結果,通過建立資料推送目標,將資料推送至DingTalk群、飛書群、企業微信群、Teams以及郵箱。 | 1332 | DATA_PUSH | ||
MySQL節點 | MySQL節點可以進行MySQL任務的開發和周期性調度。 | 1000125 | - | |
SQL Server | SQL Server節點可以進行SQL Server任務的開發和周期性調度。 | 10001 | - | |
Oracle節點 | Oracle節點可進行Oracle任務的開發和周期性調度。 | 10002 | - | |
PostgreSQL節點 | PostgreSQL節點可進行PostgreSQL任務的開發和周期性調度。 | 10003 | - | |
StarRocks節點 | 可進行StarRocks任務的開發和周期性調度。 | 10004 | - | |
DRDS節點 | 可進行DRDS任務的開發和周期性調度。 | 10005 | - | |
PolarDB MySQL節點 | 可進行PolarDB MySQL任務的開發和周期性調度。 | 10006 | - | |
PolarDB PostgreSQL節點 | PolarDB PostgreSQL節點可進行PolarDB PostgreSQL任務的開發和周期性調度。 | 10007 | - | |
Doris節點 | Doris節點可進行Doris任務的開發和周期性調度。 | 10008 | - | |
MariaDB節點 | MariaDB節點可進行MariaDB任務的開發和周期性調度。 | 10009 | - | |
SelectDB節點 | SelectDB節點可進行SelectDB任務的開發和周期性調度。 | 10010 | - | |
Redshift節點 | Redshift節點可以進行Redshift任務的開發和周期性調度。 | 10011 | - | |
Saphana節點 | Saphana節點可進行SAP HANA任務的開發和周期性調度。 | 10012 | - | |
Vertica節點 | Vertica節點可進行Vertica任務的開發和周期性調度。 | 10013 | - | |
DM(達夢)節點 | DM節點可進行DM任務的開發和周期性調度。 | 10014 | - | |
KingbaseES(人大金倉)節點 | KingbaseES節點可進行KingbaseES任務的開發和周期性調度。 | 10015 | - | |
OceanBase節點 | OceanBase節點可進行OceanBase任務的開發和周期性調度。 | 10016 | - | |
DB2節點 | DB2節點可進行DB2任務的開發和周期性調度。 | 10017 | - | |
GBase 8a 節點 | GBase 8a節點可進行GBase 8a任務的開發和周期性調度。 | 10018 | - | |
演算法 | PAI的可視化建模Designer,用於實現端到端的機器學習開發流程的可視化建模工具。 | 1117 | PAI_STUDIO | |
PAI的容器訓練DLC,用於分布式執行訓練任務。 | 1119 | PAI_DLC | ||
PAI知識庫索引工作流程/在DataWorks側產生PAIFlow節點。 | 1250 | PAI_FLOW | ||
邏輯節點 | SUB_PROCESS節點通過整合多個商務程序為一個統一的整體進行管理和調度 | 1122 | SUB_PROCESS |
建立節點
建立調度工作流程的節點
如果您的任務需要在指定時間定期自動執行(如按小時、天、周等周期運行),可以通過以下方式建立周期任務節點:建立周期任務節點、在周期工作流程中添加內部節點,或通過複製現有節點建立新節點。
進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的,進入Data Studio。
在左側導覽列單擊
,進入資料開發頁面。
建立周期任務節點
單擊專案目錄右側的
,選擇建立節點,選擇需要的節點類型。重要系統內建常見節點列表和全部節點,選擇最下面的全部節點可查看全部節點列表。使用搜尋方塊快速尋找,或通過分類篩選(如MaxCompute、Data Integration、通用等)來定位並建立所需節點。
可事先建立目錄,對節點進行組織和管理。
設定節點名稱並儲存後,進入節點編輯頁面。
周期工作流程建立內部節點
複製方式建立節點
通過複製功能,快速複製現有節點以建立新的節點。複製內容包括節點的調度配置資訊(調度參數、調度時間、調度依賴)。
在左側專案目錄中,按右鍵需要複製的節點,在快顯功能表中選擇複製。
在彈窗中修改節點名稱和路徑(或保留預設值),單擊確認開始複製。
複製完成後,在專案目錄中查看新產生的節點。
建立手動商務程序的節點
如果您的任務不需要周期性運行,但又需要將任務發布至生產環境,在需要時手動運行,可以在手動商務程序中建立內部節點。
進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的,進入Data Studio。
在左側導覽列單擊
,進入手動商務程序頁面。
建立手動任務節點
進入DataWorks工作空間列表頁,在頂部切換至目標地區,找到目標工作空間,單擊操作列的,進入Data Studio。
在左側導覽列單擊
,進入手動任務頁面。在下方的手動任務處,單擊手動任務右側的
,選擇建立節點,選擇需要的節點類型。說明手動任務僅支援建立離線同步、Notebook、MaxCompute SQL、MaxCompute Script、PyODPS 2、MaxCompute MR、Hologres SQL、Python 節點和Shell 節點。
設定節點名稱並儲存後,進入節點編輯頁面。
節點大量編輯
當工作流程中的節點數量較多時,逐個開啟節點進行編輯效率較低。DataWorks提供內部節點列表功能,支援在畫布右側以列表形式對所有節點進行快速的預覽、搜尋和大量編輯。
使用方法
在工作流程畫布頂部的工具列中,單擊顯示內部節點列表按鈕,即可在畫布右側開啟功能面板。

面板開啟後,將以列表形式展示當前工作流程中的所有節點。
代碼預覽與排序:
支援代碼編輯的節點(如MaxCompute SQL)會預設展開代碼編輯器。
不支援代碼編輯的節點(如虛擬節點)會以卡片形式展示,並自動排文在列表底部。
快速搜尋與定位:
搜尋:在頂部搜尋方塊中輸入關鍵字可對節點名稱進行模糊搜尋。
聯動:在畫布和側邊欄之間可以雙向聯動定位。在畫布中選擇節點,側邊欄會高亮對應節點;反之,在側邊欄點擊節點,畫布也會自動聚焦。
線上編輯:
操作:每個節點卡片右上方提供載入最新代碼、開啟節點、編輯等快捷操作。
自動儲存:進入編輯狀態後,當滑鼠焦點離開代碼塊地區時,系統會自動儲存修改。
衝突檢測:若代碼在編輯期間被其他使用者更新,儲存時會觸發失敗提醒,防止代碼被意外覆蓋。
專註模式:
選中節點,點擊浮窗右上方的
開啟專註模式,側邊欄將僅顯示當前選中的節點,以提供更大的代碼編輯空間。
版本管理
系統支援通過版本管理功能將節點還原到指定的歷史版本,同時還提供版本查看與對比功能,方便您分析差異並做出調整。
在左側專案目錄中,雙擊目標節點名稱,進入節點編輯頁。
單擊節點編輯頁右側的版本,在版本頁面查看和管理開發記錄及發布記錄資訊。
查看版本:
您可以在開發記錄或發布記錄頁簽中,找到需要查看的節點版本。
單擊操作欄中的查看,可進入詳情頁查看節點代碼內容以及調度配置資訊。
說明調度配置資訊支援指令碼模式和可視化模式查看,您可在調度配置頁簽右上方切換查看模式。
對比版本:
您可以在開發記錄或發布記錄頁簽中,對不同版本的節點進行對比。下面以開發記錄為例,為您示範對比操作。
開發或發布環境對比:在開發記錄頁簽中,勾選兩個版本,單擊上方的選擇對比按鈕,即可對比不同版本的節點代碼內容和調度配置資訊。
開發與發布或構建環境對比:
在開發記錄頁簽中,定位到節點的某個版本。
單擊操作欄中的對比按鈕,在詳情頁中選擇與發布記錄或構建記錄中的某個版本進行對比。
還原版本:
僅支援將開發記錄中的節點還原到指定的歷史版本。您可在開發記錄頁簽中找到目標版本,單擊操作欄中的還原按鈕,即可將該節點的代碼和調度配置資訊還原至目標版本。
相關文檔
常見問題
是否支援下載節點代碼(比如SQL、Python)至本地?
解答:不直接提供下載功能。替代方案為直接在開發過程中複製代碼至本地。或在新版Data Studio個人目錄中添加本地檔案進行開發,開發完之後提交至專案目錄。此時您的代碼直接儲存在本地。